Resumo

Título do Artigo

PÊGO NA MENTIRA! Desenvolvimento de Modelos Preditivos para detectar avaliações online fraudulentas de hotéis
Abrir Arquivo
Assistir a sessão completa

Palavras Chave

hospitalidade
processamento de linguagem natural
machine learning

Área

Tecnologia da Informação

Tema

Aspectos Comportamentais e Decisórios da TI

Autores

Nome
1 - Renato calhau coda
UNIVERSIDADE DE SÃO PAULO (USP) - Esalq
2 - Adâmara Santos Gonçalves Felício
UNIVERSIDADE ESTADUAL DE CAMPINAS (UNICAMP) - Instituto de Economia
3 - JOSIVANIA SILVA FARIAS
UNIVERSIDADE DE BRASÍLIA (UNB) - PPGA
4 - Rafael de Freitas Souza
UNIVERSIDADE DE SÃO PAULO (USP) - FEARP

Reumo

o UCG (user-generated content) fornece uma oportunidade para experiências indiretas e, portanto, para desenvolver (ou encerrar) a longo prazo o relacionamento online e a lealdade do consumidor. Estudos consideraram a utilização da taxa de avaliação online dos consumidores sobre atrações turísticas como preditores de seu comportamento futuro (Pantano, Priporas & Stylos., 2017). Logo, os avanços recentes em processamento de linguagem natural (PLN) levaram a uma mudança radical da codificação manual convencional para automação da coleta e análise de dados.
Este estudo se propõe a aplicar PLN e aprendizado de máquina (machine learning) para as análises online de meios de hospedagem publicados na plataforma Tripadvisor, para obter um modelo de previsão para classificações de revisão. Como objetivos específicos, delimitaram-se: analisar avaliações de turistas (na plataforma Tripadvisor; aplicar técnicas de PLN para análise e agrupamentos das avaliações de turistas em fraudulenta e não-fraudulenta e aplicar um modelo de machine learning para previsão dos possíveis resultados.
A comunicação e-WOM, que consiste na evolução da comunicação boca a boca em canal online, é reconhecida como ferramenta de marketing útil para construir relacionamentos com consumidores, gerando consciência e interesse em determinados produtos e influenciando o comportamento de compra do consumidor (Vazquez, Dennis & Zhang., 2017). Relativamente à UGC (User-Generated Content), sua análise pode revelar os sentimentos e experiências dos clientes, que podem ser esquecidos pelos provedores de serviço, promovendo, assim, a transformação de inteligência em turismo e hospitalidade.
Para esta pesquisa, foi adotado o modelo sugerido por Chapman et al. (2000) para mineração de dados (Cross Industry Standard Process for Data Mining ou CRISP-DM) na construção modelos de previsão a partir da coleta de dados e seleção de recursos para o conjunto de dados, criação de modelo de desenvolvimento e avaliação. Foi adotado o PLN para processamento e análise dos dados e árvore de decisão, random forest e regressão logística como modelos de predição.
Após retirada dos comentários neutros (sentimento=0), conversão de numéricos para categóricos (1=positivo e -1=negativo) e novo agrupamento dos dados, foi possível classificar as avaliações como fraudulentas e não-fraudelentas, em que a contradição entre avaliação positiva e sentimento negativo (falso-positivo) e seu oposto, avaliação negativa e sentimento positivo (falso-negativo) foram classificadas como avaliações fraudulentas. No caso dos modelos testados, a random forest obteve o melhor AUC, com 100 %, enquanto os modelos árvore de decisão e regressão lógística obtiveram 99% e 97%.
Estes resultados na previsão de notas de avaliações abrem caminho para muitas aplicações diferentes para esses modelos. Uma aplicação óbvia é prever como um consumidor avaliaria quantitativamente uma estada em um hotel com base em seus comentários de texto. Por exemplo, isso pode ser aplicado às pesquisas de check-out padrão que os hotéis fazem aos seus hóspedes. No entanto, a previsão de nota tem potencial para ser usada como medida e proxy sozinho.
Bjørkelund, E., Burnett, T.H.; Nørvag, K. (2012) “A study of opinion mining and visualization of hotel reviews”, Proceedings of the 14th International Conference on Information Integration and Web-Based Applications and Services, ACM, 229-238. Mariani, M., Baggio, R., Fuchs, M.; Höepken, W. (2018), Business intelligence and big data in hospitality and tourism: a systematic literature review, International Journal of Contemporary Hospitality Management, 30 (12), 3514-3554.