TCCs de BCC

Trabalhos de Conclusão de Curso em Bach. em Ciência da Computação da Unesp de Bauru (FC) - 2021 2º semestre

Identificação de autoria em textos curtos utilizando técnicas de processamento de linguagem natural

Autor: João Otávio Rodrigues Ferreira Frediani

Orientador: Prof. Assoc. Aparecido Nilceu Marana

As redes sociais criaram um ambiente compartilhado público, onde pessoas podem se comunicar, compartilhar informações, e conhecer outra pessoas independente de suas origens. Entretanto este espaço tem sido utilizado para propósitos maliciosos, seja para o compartilhamento de notícias falsas ou propagação de discurso de ódio, e com o auxilio de ferramentas modernas de omissão de identidade tais atos têm sido praticados sem que seja possível identificar o autor. Técnicas de de inteligência artificial já foram previamente utilizadas para atribuir a autoria de textos de autores desconhecidos, entretanto historicamente foram utilizadas em textos longos buscando muitas vezes a identificação de plágio, porém ao tratar de informações na internet é necessário considerar o curto numero de palavras utilizadas na comunicação online. Este trabalho testou técnicas já extensamente utilizadas para a atribuição de autoria ao serem aplicadas à textos retirados da internet utilizando métricas como a acurácia e matrizes de confusão. Além das técnicas clássicas foi testado também um modelo moderno de deep learning chamado BERT que tem sido aplicado a diferentes problemas devido à sua eficiência em lidar com linguagem natural. Após a testagem foi observado que o modelo BERT obteve os melhores resultados.

Monografia

Apresentação