hospitalidade
processamento de linguagem natural
machine learning
Área
Tecnologia da Informação
Tema
Aspectos Comportamentais e Decisórios da TI
Autores
Nome
1 - Renato calhau coda UNIVERSIDADE DE SÃO PAULO (USP) - Esalq
2 - Adâmara Santos Gonçalves Felício UNIVERSIDADE ESTADUAL DE CAMPINAS (UNICAMP) - Instituto de Economia
3 - JOSIVANIA SILVA FARIAS UNIVERSIDADE DE BRASÍLIA (UNB) - PPGA
4 - Rafael de Freitas Souza UNIVERSIDADE DE SÃO PAULO (USP) - FEARP
Reumo
o UCG (user-generated content) fornece uma oportunidade para experiências indiretas e,
portanto, para desenvolver (ou encerrar) a longo prazo o relacionamento online e a lealdade do
consumidor. Estudos consideraram a utilização
da taxa de avaliação online dos consumidores sobre atrações turísticas como preditores de seu
comportamento futuro (Pantano, Priporas & Stylos., 2017). Logo, os avanços recentes em processamento de
linguagem natural (PLN) levaram a uma mudança radical da codificação manual convencional
para automação da coleta e análise de dados.
Este estudo se propõe a aplicar PLN e aprendizado de máquina (machine learning) para as análises
online de meios de hospedagem publicados na plataforma Tripadvisor, para obter um modelo
de previsão para classificações de revisão.
Como objetivos específicos, delimitaram-se: analisar avaliações de turistas (na
plataforma Tripadvisor; aplicar técnicas de PLN para análise e agrupamentos das avaliações de
turistas em fraudulenta e não-fraudulenta e aplicar um modelo de machine learning para
previsão dos possíveis resultados.
A comunicação e-WOM, que consiste na evolução da comunicação boca a boca em canal
online, é reconhecida como ferramenta de marketing útil para construir relacionamentos com
consumidores, gerando consciência e interesse em determinados produtos e influenciando o
comportamento de compra do consumidor (Vazquez, Dennis & Zhang., 2017). Relativamente à UGC (User-Generated Content), sua análise pode revelar os
sentimentos e experiências dos clientes, que podem ser esquecidos
pelos provedores de serviço, promovendo, assim, a transformação de inteligência em turismo e
hospitalidade.
Para esta pesquisa, foi adotado o modelo sugerido por Chapman et al. (2000) para
mineração de dados (Cross Industry Standard Process for Data Mining ou CRISP-DM) na
construção modelos de previsão a partir da coleta de dados e seleção de recursos para o conjunto
de dados, criação de modelo de desenvolvimento e avaliação. Foi adotado o PLN para processamento e análise dos dados e árvore de decisão, random forest e regressão logística como modelos de predição.
Após retirada dos comentários neutros (sentimento=0), conversão de numéricos para
categóricos (1=positivo e -1=negativo) e novo agrupamento dos dados, foi possível classificar
as avaliações como fraudulentas e não-fraudelentas, em que a contradição entre avaliação
positiva e sentimento negativo (falso-positivo) e seu oposto, avaliação negativa e sentimento
positivo (falso-negativo) foram classificadas como avaliações fraudulentas. No caso dos modelos testados, a random forest obteve o melhor AUC, com
100 %, enquanto os modelos árvore de decisão e regressão lógística obtiveram 99% e 97%.
Estes resultados na previsão de notas de avaliações abrem caminho para muitas
aplicações diferentes para esses modelos. Uma aplicação óbvia é prever como um consumidor
avaliaria quantitativamente uma estada em um hotel com base em seus comentários de texto.
Por exemplo, isso pode ser aplicado às pesquisas de check-out padrão que os hotéis fazem aos
seus hóspedes. No entanto, a previsão de nota tem potencial para ser usada como medida e
proxy sozinho.
Bjørkelund, E., Burnett, T.H.; Nørvag, K. (2012) “A study of opinion mining and visualization
of hotel reviews”, Proceedings of the 14th International Conference on Information
Integration and Web-Based Applications and Services, ACM, 229-238.
Mariani, M., Baggio, R., Fuchs, M.; Höepken, W. (2018), Business intelligence and big
data in hospitality and tourism: a systematic literature review, International Journal of
Contemporary Hospitality Management, 30 (12), 3514-3554.