Como foram selecionadas os nativos digitais
Nossos gerentes e pesquisadores regionais trabalharam juntos para elaborar listas iniciais de empresas de mídia para cada país com base nos mesmos critérios de seleção utilizados pela SembraMedia em seu diretório de mídia.
As listas de empresas de mídia propostas foram analisadas pelos nossos financiadores parceiros, a Luminate e o CIMA, bem como por aliados regionais; entre eles, a Splice Media no Sudeste Asiático, a SAMIP na África e a equipe de embaixadores nacionais da SembraMedia na América Latina.
Como os dados foram coletados
As entrevistas foram realizadas através de chamadas de vídeo ou de telefonemas. Enquanto os pesquisadores entrevistavam os líderes de mídia, eles preenchiam os resultados em formulários utilizando o Airtable, sistema de banco de dados na nuvem, que foi utilizado como repositório central seguro para todos os dados coletados.
Todos os pesquisadores utilizaram o mesmo questionário de entrevista, que incluiu mais de 500 perguntas e levou de 2 a 3 horas para ser respondido. Devido à extensão do questionário, as entrevistas às vezes eram conduzidas em duas ou mais reuniões.
Os resultados e as porcentagens incluídos neste relatório estão baseados nos dados que conseguimos coletar nas nossas entrevistas e nas mensagens de acompanhamento, utilizadas pelos pesquisadores para solicitar mais esclarecimentos. Em cada resultado, as porcentagens estão baseadas apenas no número de veículos de mídia que responderam essas perguntas específicas e não no número total de entrevistas realizadas.
Como os dados foram processados e analisados
Uma equipe de três analistas processou os dados e elaborou os resultados e as observações incluídas neste relatório. Suas biografias estão incluídas no final deste documento com as biografias do restante da equipe que trabalhou neste projeto.
Os analistas passaram várias semanas explorando, normalizando e anonimizando os dados, bem como traduzindo o material para o inglês e verificando as taxas de conversão de moeda. Eles também definiram as métricas faltantes e consultaram os pesquisadores quando havia dados incompletos ou que precisavam ser mais aprofundados.
Os dados foram processados no Python, e notebooks foram incluídos no Github para facilitar a colaboração da equipe. Depois da anonimização e da preparação dos dados, eles foram carregados em planilhas do Google para facilitar os cálculos, as tabelas dinâmicas e as comparações gerais. Uma análise mais complexa foi feita no Python e enviada ao repositório privado da equipe.
Para a análise, a equipe adotou uma abordagem de várias etapas que incluiu uma análise exploratória primária e uma etapa de validação de hipóteses. Primeiro, foram coletadas perguntas da equipe de pesquisa e essas perguntas foram verificadas em relação aos dados disponíveis. Nos casos em que os dados nos mostraram um resultado importante, fizemos um teste de verificação de hipóteses.
Para isso, foi utilizado um teste de inferência estatística denominado Mann-Whitney (ou Wilcoxon-Mann-Whitney). O teste de Mann-Whitney é empregado como alternativa ao teste T, quando os dados não estão normalmente distribuídos. Ele estabelece o nível de confiança de uma hipótese determinada. O nível de significância, também denotado como alfa ou α, é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira. Por exemplo, um nível de significância de 0,05 indica 5% de risco de concluir que há alguma diferença quando, de fato, não há nenhuma diferença real. Nós determinamos um nível de significância de 0,05, de acordo com padrões de pesquisa acadêmica.
Pudemos fazer a amostragem de diferentes quantidades de elementos, mas definimos um limite inferior de sete itens por grupo. Por exemplo, quando queríamos comparar o impacto na receita das organizações de mídia que geram um determinado tipo de conteúdo com aquelas que não o geram, em ambos os subconjuntos nós nos certificávamos que houvesse pelo menos sete mídias representadas nos dados.
Também fizemos outros tipos de análise para aproveitar ao máximo os resultados: análise de clustering, análise de contribuição marginal (MCA, na sigla em inglês) para certas variáveis dependentes e análise de linguagem para perguntas abertas. A análise de clustering foi feita usando quatro técnicas diferentes: Kmeans, DBScan, Spectral Clustering e Agglomerative clustering. Para a MCA, primeiro analisamos se havia alguma relação entre as diferentes variáveis e, em seguida, uma vez que a relação tivesse sido estabelecida, analisamos o quanto ela contribuía marginalmente. Para a análise da linguagem, criamos nuvens de palavras e tentamos identificar padrões.
Para fornecer pontos de comparação e benchmarks, também incluímos dados de outros projetos de pesquisa. Por exemplo, comparamos algumas das nossas descobertas com conjuntos de dados abertos do Banco Mundial, do Índice de Liberdade de Imprensa da RSF e do observatório de jornalistas do mundo todo da UNESCO.