Identificação de autoria em textos curtos utilizando técnicas de processamento de linguagem natural
Autor: João Otávio Rodrigues Ferreira Frediani
Orientador: Prof. Assoc. Aparecido Nilceu Marana
As redes sociais criaram um ambiente compartilhado público, onde pessoas podem se comunicar, compartilhar informações, e conhecer outra pessoas independente de suas origens. Entretanto este espaço tem sido utilizado para propósitos maliciosos, seja para o compartilhamento de notícias falsas ou propagação de discurso de ódio, e com o auxilio de ferramentas modernas de omissão de identidade tais atos têm sido praticados sem que seja possível identificar o autor. Técnicas de de inteligência artificial já foram previamente utilizadas para atribuir a autoria de textos de autores desconhecidos, entretanto historicamente foram utilizadas em textos longos buscando muitas vezes a identificação de plágio, porém ao tratar de informações na internet é necessário considerar o curto numero de palavras utilizadas na comunicação online. Este trabalho testou técnicas já extensamente utilizadas para a atribuição de autoria ao serem aplicadas à textos retirados da internet utilizando métricas como a acurácia e matrizes de confusão. Além das técnicas clássicas foi testado também um modelo moderno de deep learning chamado BERT que tem sido aplicado a diferentes problemas devido à sua eficiência em lidar com linguagem natural. Após a testagem foi observado que o modelo BERT obteve os melhores resultados.