No processo de coleta de dados, geralmente os pesquisadores se deparam com uma grande quantidade de informações textuais. Sendo assim, a análise de texto se torna um método importante para converter dados não estruturados em textos compreensíveis e com significados. Sua finalidade é mensurar opiniões por meio de e-mails, blogs, tweets, fóruns e outras formas de comunicação, para posteriormente obter uma análise descritiva ou preditiva [1].
Dentre as diferentes metodologias encontradas na análise de texto está a análise de sentimento (mineração de opinião), método que se popularizou nos últimos anos graças ao crescimento das redes sociais. Ela consiste em ajudar a identificação e extração de informações subjetivas de conteúdos online, que são utilizadas para determinar atitudes, opiniões e emoções expressas pela opinião pública sobre temas específicos. Em termos mais simples, serve para classificar textos com base na conotação positiva ou negativa. Geralmente, a análise de sentimento classifica as expressões em textos em dois tipos: fatos, que se baseiam em expressões objetivas sobre eventos e seus atributos, como por exemplo “comprei um iPhone ontem”; e opiniões, que são expressões subjetivas de sentimentos, atitudes, emoções ou apreciações em relação aos eventos e seus atributos, como por exemplo, “eu realmente amo essa nova câmera” [2].
Para exemplificar a análise de sentimentos, vamos abordar vários tweets sobre o COVID-19 pois, sem dúvidas, a era do coronavírus trouxe mudanças que podem ter um impacto emocional tanto em jovens quanto em adultos. Para isso, vamos usar dados do site Kaggle e classificá-los nos diferentes sentimentos através do pacote tidytext do software R (que fornece acesso a vários léxicos de sentimento com base em unigramas da língua inglesa). Entre os principais léxicos temos os seguintes:
LÉXICO AFINN
Este léxico é uma lista de 1.468 palavras, incluindo algumas frases, que tem sido atualizada ao longo do tempo usando a plataforma do Twitter para determinar em quais contextos os diferentes termos são usados. Da mesma forma, algumas palavras foram excluídas para evitar ambigüidade. Assim, a versão mais recente possui um total de 2.477 palavras, incluindo 15 frases [3]. Seu autor Finn ˚Arup Nielsen, atribuiu às palavras uma pontuação que vai de -5 a 5, estabelecendo os valores negativos como sentimentos desfavoráveis e os positivos como sentimentos favoráveis. Por exemplo, para tweets sobre COVID-19, temos o seguinte gráfico:
Como se pode observar no gráfico, no mês de janeiro os sentimentos foram totalmente desfavoráveis com pontuação de -5. Por outro lado, no mês de fevereiro começam a se ver comentários mais favoráveis. Porém, só no mês de março é que a vacinação do COVID-19 ganha maior força. Nota-se que os sentimentos das pessoas em relação a este tema são subjetivos e muito diferentes: há pessoas que acharam muito favorável, como outras pessoas que acharam absolutamente desfavorável.
LÉXICO BING
Este léxico é um resumo de opiniões baseadas em aspectos, contendo 6.787 palavras que são classificadas de forma binária (positiva ou negativa). Para definir a opinião do texto, três subtarefas são realizadas: primeiro, ao conjunto de palavras adjetivas que normalmente usamos para expressar opiniões, elas são identificadas por meio de um método de processamento de linguagem. Em segundo lugar, para cada palavra de opinião, eles determinam sua orientação semântica, na qual uma técnica é proposta para realizar essa tarefa usando o banco de dados WordNet. Por fim, decidimos a orientação da opinião em cada sentença, entretanto, um algoritmo eficiente também atende a esse propósito [4]. No gráfico a seguir, podemos visualizar a funcionalidade do léxico do Bing nos tweets covid-19:
Conforme o gráfico, nos meses de janeiro e fevereiro a edição do COVID-19 não foi tão relevante quanto no mês de março, onde se vê que as pessoas opinaram bastante sobre o vírus através da plataforma. Além disso, podemos observar que as pessoas tiveram sentimentos positivos e negativos em relação à vacinação.
LÉXICO NRC
O NRC impactou o trabalho da análise de sentimentos, pois foi o primeiro e mais extenso léxico da associação palavra-emoção. Contém 14.182 palavras associadas a oito emoções básicas: raiva, medo, antecipação, confiança, surpresa, tristeza, alegria e repulsa, categorizando as palavras de acordo com sua conotação. Ao contrário dos léxicos anteriores, o NRC incluiu um conjunto mais amplo de palavras associadas ou conotadas com uma emoção. Além disso, um controle de qualidade foi realizado para garantir anotações adequadas [5]. O léxico tem sido utilizado não só para análise de sentimento, mas também para detecção de linguagem abusiva, identificação de traços de personalidade, detecção de posturas, entre outros. É especialmente útil em ambientes não supervisionados e quando os dados são limitados ou indisponíveis [5]. No gráfico a seguir, percebemos o quão completo é este léxico:
O gráfico nos mostra o impacto emocional que o coronavírus teve na opinião das pessoase podemos detalhar as emoções que estiveram envolvidas nessa situação, já que visualizamos uma mistura de sentimentos, tanto de pessoas que expressam confiança, quanto de pessoas que expressam raiva. É claro que no mês de março a vacinação passa a ser uma questão muito importante, já que há um grande número de pessoas dando suas opiniões, ao contrário dos meses anteriores.
É importante lembrar que o texto com vários parágrafos geralmente pode ter tanto sentimentos positivos quanto negativos, levando a um sentimento médio neutro. Por outro lado, textos curtos do tamanho de um paragrafo ou frase geralmente têm melhor desempenho. Os léxicos já expostos foram desenvolvidos para que possam ser utilizados em vários contextos, mas neste caso, as funções utilizadas permitiram obter léxicos de sentimentos específicos com as medidas adequadas a cada um. Neste post apresentamos uma metodologia de análise de texto, que nos oferece informações relevantes sobre as opiniões e emoções das pessoas em relação a um determinado assunto. No modelo de análise de sentimentos, detalhamos três léxicos diferentes, que nos ajudaram a analisar alguns dados relacionados ao COVID-19: o léxico AFINN nos ajudou a avaliar o quão favoráveis ou desfavoráveis eram os sentimentos; o léxico BING,mais específico quanto à conotação de opiniões, e o léxico do NRC, que nos mostra um resultado mais completo em termos de emoção específica. Portanto, podemos inferir que a opinião das pessoas sobre o coronavírus é uma questão muito subjetiva. Da mesma forma, podemos usar este tipo de análise para qualquer outro contexto e dependendo do interesse do analista, será mais conveniente usar um tipo de léxico do que outro.
Referências
[1] Moreno, A., & Redondo, T. (2016). Text Analytics: the convergence of Big Data and Artificial Intelligence. IJIMAI, 3(6), 57-64.
[2] Luo, Tiejian & Chen, Su & Xu, Guandong & Zhou, Jia. (2013). Sentiment Analysis. 10.1007/978-1-4614-7202-5_4.
[3] Nielsen, F. Å. (2011). A new ANEW: Evaluation of a word list for sentiment analysis in microblogs. arXiv preprint arXiv:1103.2903.
[4] Liu, B. (2020). Sentiment analysis: Mining opinions, sentiments, and emotions. Cambridge university press.
[5] Mohammad, S. M., & Turney, P. D. (2013). Crowdsourcing a word–emotion association lexicon. Computational intelligence, 29(3), 436-465.
Tradução
Veia Também
- Analisar dados do Twitter por meio do R e AnalyStats-App
- Segmentação de clientes: análise de cluster usando o algoritmo Partitioning Around Medoids (PAM)
- Análise de dados: Latent Dirichlet Allocation (LDA) Aplicada em Textos Jornalistícos
- Um estudo do preço de aluguel em Medellín por meio de um modelo de árvore de regressão
- Google Form: Importando dados em R e publicando resultados em AnalyStats-App