Resumo

Título do Artigo

UM ESTUDO SOBRE VIÉS, DISCURSO DE ÓDIO E JUSTIÇA ALGORÍTMICA
Abrir Arquivo
Ver apresentação do trabalho

Palavras Chave

viés
toxicidade
machine learning

Área

Tecnologia da Informação

Tema

Ciências de dados e Inteligência analítica

Autores

Nome
1 - Luiza Junqueira de Paiva Donatelli
Escola Politécnica / USP - São Paulo
2 - Carla Bonato Marcolin
UNIVERSIDADE FEDERAL DE UBERLÂNDIA (UFU) - Faculdade de Gestão e Negócios (FAGEN)
3 - Amanda Rezzieri Marchezini
CENTRO UNIVERSITÁRIO DAS FACULDADES METROPOLITANAS UNIDAS (FMU) - Liberdade

Reumo

O avanço do machine learning revolucionou diversos aspectos da vida cotidiana, porém, nota-se a tendência de superestimar as tecnologias as envolvendo em contextos que elas não são a melhor solução, como visto no uso de algoritmos treinados a reconhecer palavras como “tóxicas” e fazer a moderação de comentários na intenção de diminuir os discursos de ódio. Embora seja muito útil para o objetivo que se propõe, surgem dúvidas se a aplicação de modelos de ML também pode trazer consequências como reproduzir desigualdades sociais, principalmente em relação aos grupos já marginalizados.
O presente artigo busca refletir sobre a seguinte pergunta: Os classificadores de moderação de comentários em redes sociais estão sendo justos com os grupos marginalizados? Assim, o artigo objetiva analisar o viés dos classificadores para comentários tóxicos, em especial em distorções na classificação envolvendo mulheres, a fim de trazer uma reflexão se eles estão sendo eficazes na determinação da justiça algorítmica, uma vez que podem ocasionar no silenciamento das minorias já marginalizadas e prejudicadas pelo discurso de ódio.
O viés ocorre por desequilíbrios na base de dados, na seleção ou configuração de um modelo de IA resultando em uma discrepância que favorece ou prejudica certas variáveis ou grupo. A justiça algorítmica, considerada como o oposto de viés, ou seja, busca representação igualitária de todos os grupos, sem favorecimentos ou prejuízos aos grupos. Este trabalho aborda o estudo do viés de forma objetiva e direta, em termos de igualdade. No entanto, é importante ser feita aqui uma ressalva de que a justiça é um conceito complexo e pode nem sempre ser exprimida em igualdade, mas também na equidade.
A base de dados selecionada é composta por comentários de sites independentes de notícias originários do projeto Civil Comments, selecionada por permitir identificar características específicas dos autores. Da base, foram extraídas as variáveis: índice, comentários, toxicidade e mulher. Criou-se um banco de dados no MySQL com os dados da base e a análise foi realizada na linguagem Python pelo Google Colab e cada comentário foi transformado em um vetor e foram separados 30% dos dados para teste e 70% para treino. Os algoritmos usados foram: Naive Bayes Classifier e Support Vector Machine.
O modelo de Naives Bayes apresentou acurácia de 87% e precisão próxima, com uma ligeira vantagem para o segundo grupo: 87% e 92% para não tóxicos e tóxicos, respectivamente. O modelo de SVM se mostrou melhor para lidar com o desbalanceamento das classes dado que a acurácia do algoritmo chegou a 89% e a precisão de tóxicos e não tóxicos ficou em 71% e 91%, respectivamente. O F1 dos não tóxicos foi especialmente alto, 94%, e o dos tóxicos foi regular 51%, contra os valores contrastes de performance de 93% de comentários regulares e 12% de tóxicos obtidos no modelo de Naive Bayes.
O modelo SVM foi capaz de lidar melhor com o desbalanceamento das duas classes e foi mais eficiente em minimizar possíveis danos do viés e do discurso de ódio nos dados, maximizou os acertos dos verdadeiros positivos, porém, a desvantagem é que ocorre o aumento dos falsos positivos e, em uma aplicação prática, isso poderia ter consequência em retirar comentários inofensivos de uma plataforma. A recomendação é que haja sempre uma transparência na maneira como os algoritmos são usados - junto com uma explicação do motivo dessa escolha - assim como possíveis consequências para o usuário final.
Buolamwini, J., & Gebru, T. (2018, January). Gender shades: Intersectional accuracy disparities in commercial gender classification. In Conference on fairness, accountability and transparency (pp. 77-91). PMLR. Jigsaw Unintended Bias in Toxicity Classification. Recuperado de https://www.kaggle.com/competitions/jigsaw-unintended-bias-in-toxicity-classification/data Kowalczyk, A. (2017). Support vector machines succinctly. Syncfusion Inc. Schütze, H., Manning, C. D., & Raghavan, P. (2008). Introduction to information retrieval (Vol. 39, pp. 234-265). Cambridge: Cambridge University Press