Resumo

Título do Artigo

Machine Learning para detecção de transações financeiras fraudulentas
Abrir Arquivo
Ver apresentação do trabalho
Assistir a sessão completa

Palavras Chave

Classificação
Reconhecimento de Padrões
Detecção de Fraudes

Área

Tecnologia da Informação

Tema

Ciências de dados e Inteligência analítica

Autores

Nome
1 - Bruno Henrique Paes
Escola Superior de Propaganda e Marketing (ESPM) - Joaquim Távora - SP
2 - Antonio Marcos Selmini
Escola Superior de Propaganda e Marketing (ESPM) - Joaquim Távora - SP

Reumo

Atualmente, tem-se aplicado Aprendizagem de Máquina no mercado financeiro para entender e analisar os dados de uma forma mais simples e fornecer diversos serviços por meio delas. É uma técnica que vem sendo utilizada para identificar anomalias em documentos, boletos e nas formas de pagamentos atuais com o objetivo de evitar fraudes em documentações dos clientes, evitar duplicidade de pagamento e garantir a segurança de uma transação.
Por sua natureza, bases de dados relativas à fraudes financeiras apresentam uma desproporcionalidade de classes (muitos registros relativos à transações não fraudulentas e pouquíssimos registros relacionados a transações fraudulentas). O objetivo deste trabalho é entender as bases de dados relacionadas à fraudes financeiras e, com isso, criar modelos preditivos, utilizando técnicas de Aprendizado de Máquina que apresentem um desempenho satisfatório, ou seja, que maximizem a taxa de assertividade e minimizem o número de falsos negativos.
Um dos grandes problemas para a predição de transações fradulentas é o desbalanceamento de classes. O desbalanceamento de classes pode enviesar os algoritmos de classificação os fazendo ignorar a classe minoritára (fraude). Com o objetivo de se corrigir tal deficiencia o uso de técnicas de balanceamento torna-se indispensável para não somente aumentar a acurácia mas também para minizar a taxa de falsos negativos (transações fraudulentas classificadas como não-fraudulentas).
Ao longo dos anos, diversas técnicas foram criadas e aperfeiçoadas para se corrigir o class imbalance. As técnicas mais simples são focadas em balancear o dataset de treinamento apenas pela duplicação de registros já existentes da classe minoritária (ROS) ou pela remoção de registros da classe minoritária (RUS). Outras técnicas, como por exemplo o SMOTe, baseiam-se na distância euclidiana entre os vizinhos para gerar novos registros e assim balancear o dataset. Neste trabalho, o ROS e o SMOTe foram testados como técnicas de balanceamento do dataset.
Diante dos resultados apresentados e explicados e baseado na evolução de métricas como taxa de assertividade geral, taxa de assertividade local (considerando apenas as transações realmente fraudulentas) e número de Falsos Negativos – tipo de erro inaceitável – pode-se concluir que técnicas de pré-processamento para normalização, redução de dimensionalidade, limpeza e balanceamento de classes são fundamentais para o sucesso de qualquer algoritmo de predição – independentemente de sua complexidade e custos computacionais.
Por meio do balanceamento artificial de classes pelo ROS e SMOTe nota-se uma melhora significativa de desempenho dos algorimos de classificação. Independentemente da técnica utilizada, o balanceamento de classes, possibilitou que os algorimos de classificação obtivessem um acréscimo em suas acurácias e um decréscimo nos Falsos Negativos - erro inaceitável neste tipo de cenário de classificação. Diante de tais resultados, pode-se concluir que o balanceamento, assim como o pré-processamento, para este cenário de classificação torna-se fundamental para o bom desempenho dos algoritmos.
BRANCO, Paula; TORGO, Luís; RIBEIRO, Rita. A Survey of Predictive Modelling under Imbalanced Distributions. 2015. CHAWLA, Nitesh; BOWYER, Kevin; HALL, Lawrence; KEGELMEYER, W. Philip. SMOTE. 2002. E. A. Lopez-Rojas, A. Elmir, and S. Axelsson. PaySim: A financial mobile money simulator for fraud detection. 2016. GUYON, Isabella. A Scaling law for the validation-set training-set size ratio. 1997. HAYKIN, Simon. Redes Neurais – Princípios e práticas. 2008. LIMA, Isaque. Inteligência Artificial chega aos sistemas antifraude com Aprendizado de Máquina. 2017. NG, Andrew. Machine Learning Yearning.