Big data contra fake news
Estudo propõe arquitetura para detectar notícias falsas
Por Bruno Roberto Foto Adobe Stock
Ao longo dos últimos anos, surgiram várias iniciativas de checagem de fatos, como agências, redes e observatórios. Elas são fruto da tentativa de conter a onda de desinformação que tomou o Brasil e o mundo. Segundo pesquisa de 2020 feita pela Kaspersky, empresa global de cibersegurança, 62% dos brasileiros não conseguem reconhecer uma notícia falsa. Esse resultado é preocupante, pois a veiculação das fake news pode causar danos em vários níveis na sociedade. Durante a pandemia da covid-19, informações com teor antivacina colocam em risco inúmeras vidas e a própria campanha de vacinação.
As notícias falsas, conhecidas também como fake news, não são de agora, mas as tecnologias aceleraram seu processo de expansão. Com a internet, principalmente por meio das redes sociais, aumentaram os espaços para produzir e consumir informação, gerando dados verídicos ou não. Nesse contexto, a solução pode estar no uso da própria tecnologia para identificar a veracidade de pacotes de dados cada vez maiores.
Diante disso, a cientista da computação Daniele Moura Queiroz analisou a importância do big data na dissertação Uma proposta de arquitetura de big data para detecção de fake news, apresentada no Programa de Pós-Graduação em Engenharia Elétrica (PPGEE/ITEC) da Universidade Federal do Pará, orientada pelo professor Carlos Renato Lisboa Francês.
Não existe um conceito definitivo para o termo big data. No geral, trata-se de um conjunto de dados volumoso, variado e complexo demais para os sistemas tradicionais de armazenamento e processamento. Essa definição pode ser resumida pelo grupo de três a cinco Vs: Volume, Velocidade e Variedade, que são os principais; além de Valor e Veracidade. No caso das notícias falsas, o uso do big data é justificado tendo em vista a quantidade massiva gerada em alta velocidade, por diferentes meios, como textos, vídeos, imagens, áudios e postagens em redes sociais.
Primeiros resultados foram considerados satisfatórios
Em um primeiro momento, foi realizado um enquadramento conceitual e tecnológico sobre o big data, constatando suas características e limitações, os principais paradigmas utilizados, as tecnologias existentes, além de conceitos sobre fake news. Em seguida, foram identificadas as principais tecnologias envolvidas no processamento do big data.
Depois disso, a arquitetura foi proposta, sendo dividida em cinco camadas agrupadas em três partes. A primeira é a Fonte de Dados, que visa aglomerar os dados a serem utilizados e a origem deles. A próxima parte é chamada de big data, composta pelas camadas de armazenamento, processamento e acesso aos dados. Por último, na Análise de Dados, são gerados conhecimentos mediante relatórios ou previsões.
Para a aplicação da arquitetura de big data, os dados foram coletados das seguintes fontes: site do Ministério da Saúde, portais de notícias e portais de boatos (boatos.org). O conjunto de notícias utilizadas foi de 10.700, sendo 5.350 delas classificadas como verdadeiras e 5.350 classificadas como falsas. Do total de dados, 70% foram destinados para treinamento; e 30%, para teste.
“Os dados do site boatos.org e do Ministério da Saúde foram extraídos usando algoritmo em Python. Os dados dos portais de notícias foram extraídos usando algoritmo em PowerShell. Utilizando tecnologias do ecossistema Hadoop, os dados foram armazenados, tratados, treinados e classificados através do algoritmo Naive Bayes’’, explica Daniele Queiroz.
Conforme a dissertação, os resultados podem ser considerados bons. De 1.575 notícias falsas selecionadas para teste, apenas sete foram erroneamente consideradas verdadeiras. No sentido inverso, a precisão foi maior, de 1.566 notícias classificadas como verdadeiras, somente uma foi considerada falsa. Com isso, a acurácia do modelo utilizado foi de 99,74%. Portanto a arquitetura de big data para identificação de fake news é válida.
"Uma das maiores dificuldades durante o estudo foi definir quando uma notícia é falsa ou verdadeira. Existem diversos aspectos que precisam ser avaliados, como: quem escreveu a notícia, a forma de escrita, o intuito da notícia (se é informativa, se tem teor cômico ou de sátira), a data em que foi escrita, entre outros", conclui a autora.
Rede Nacional de Combate à Desinformação
A Rede Nacional de Combate à Desinformação (RCND) tem como objetivo combater o mercado de desinformação presente no Brasil. Ela é formada por parceiros de todas as regiões brasileiras, como o Jornal Beira do Rio. A ideia da RCND surgiu com uma pesquisa de pós-doutorado realizada na Escola de Comunicação da Universidade Federal do Rio de Janeiro, em 2019. No entanto a Rede só nasceu em 2020, quando foi apresentada dentro do Projeto Mandacaru, vinculado ao Comitê Nordeste de Combate à Covid. Para saber mais, acesse: https://rncd.org/
Beira do Rio edição 162
Redes Sociais