Análise de sentimento usando a representação distribuída de parágrafos para o português

Araújo, Filipe Santos

???jsp.display-item.identifier??? https://repositorio.unipampa.edu.br/jspui/handle/riu/1601

Tipo:	Trabalho de Conclusão de Curso
metadata.dc.title:	Análise de sentimento usando a representação distribuída de parágrafos para o português
Autor(es):	Araújo, Filipe Santos
Primeiro Orientador:	Kepler, Fábio Natanael
Resumo:	Muito vem sendo discutido dentro da área de Processamento de Linguagem Natural (PLN), sobre a representação distribuída de palavras de um determinado texto. Com o contínuo crescimento de informação na internet nas últimas décadas, surge a necessidade de passar tarefas de análise desse grande volume de informação para a máquina, tarefas estas que antes eram realizadas manualmente, de modo a torná-las mais viáveis e eficientes. A representação distribuída de palavras consiste em obter uma estrutura de modelagem mais rica, que considera aspectos relevantes como ordenação, semântica e a composicionalidade das palavras de uma sentença. A dificuldade se agrava quando estas sentenças tendem a crescer no tamanho, que é o caso de textos com um grande número de parágrafos. Uma vez que se tem todas as sentenças de um determinado texto estruturadas em vetores, é possível, por exemplo, sumarizar um documento por completo, extrair sentimento, reconhecer expressões, traduzi-lo para outro idioma, dentre outros diversos tipos de tarefas. Trabalhos recentes, como o de (LE; MIKOLOV, 2014) têm apresentado técnicas como Word Vector e Paragraph Vector, que são capazes de pegar palavras, sentenças e até parágrafos e distribuí-los em vetores. Essas técnicas têm mostrado ganhos significativos em tarefas como a Análise Automática de Sentimentos (AS) e Recuperação de Informações em relação aos tradicionais modelos de linguagens utilizados como o Bagof-Words, N-grama e Skip-grama. Esse trabalho tem como meta replicar os experimentos realizados na tarefa de AS utilizando córpus para o português brasileiro. Os experimentos realizados com o córpus em português brasileiro ReLi utilizando o método 10-fold Crossvalidation atingiram uma acurácia combinada média de 82,99%. Esse resultado acima do esperado foi consequência de uma desigualdade no número de sentenças presente no córpus. Foram realizados mais experimentos com versões modificadas do ReLi buscando igualar o número de sentenças nas etapas de treinamento e teste, o que resultou numa acurácia combinada média 60,59% quando se iguala o número de sentenças com polaridade positiva e negativa.
Abstract:	Distributed representation of words has been very discussed in the Natural Language Processing area (NLP). With the continuous growth of information on the Internet in recent decades, there is a need to in analysis tasks of this large volume of data to computers, tasks that were usually performed manually in order to make them more viable and efficient. Distributed representation of words consists of obtaining a richer modeling framework that considers relevant aspects like ordergin, semantics and compositionality of the words in a sentence. The difficulty increases when these sentences tend to grow in size, which is the case of texts with a large number paragraphs. Once you have all the sentences of a given text structured in vectors it is possible, for example, to sumarize an entire document, extract sentiment, recognize expressions, translate it into another language, among other various types of tasks. Recent studies, such as (LE; MIKOLOV, 2014) have presented techniques such as Word Vector and Paragraph Vector, which are able to take words, sentences and even paragraphs and distribute them into vectors. These techniques have shown significant gains in tasks such as Automatic Sentiment Analysis (SA) and Information Retrieval over traditional language models such as Bag-of-Words, N-gram and Skip-gram. This papaer aims to replicate the experiments made in SA task using a Brazilian Portuguese corpus.The experiments performed with the ReLi corpus in Brazilian Portuguese using the 10-fold Cross-validation method achieved a average combined accuracy of 82.99%. This higher than expected result was a consequence of an unequal number of sentences in this corpus. More experiments were performed with modified versions of the ReLi in attempt to make the number of sentences equal in the training and testing stages, resulting in a average combined accuracy 60.59% when the number of sentences with positive and negative polarity are equal.
metadata.dc.subject:	Computer science Natural language processing Paragraph Vector Portuguese language Sentiment
CNPQ:	CNPQ::CIENCIAS EXATAS E DA TERRA
metadata.dc.publisher:	Universidade Federal do Pampa
Tipo de acesso:	Attribution-NonCommercial-NoDerivs 3.0 Brazil
Licença:	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
metadata.dc.identifier.uri:	http://dspace.unipampa.edu.br/jspui/handle/riu/1601
metadata.dc.date.issued:	2015
???org.dspace.app.webui.jsptag.ItemTag.appears???	Ciência da Computação

???org.dspace.app.webui.jsptag.ItemTag.files???

???org.dspace.app.webui.jsptag.ItemTag.file???	???org.dspace.app.webui.jsptag.ItemTag.description???	???org.dspace.app.webui.jsptag.ItemTag.filesize???	???org.dspace.app.webui.jsptag.ItemTag.fileformat???
Análise de sentimento usando a representação distribuída de parágrafos para o português.pdf		690.03 kB	Adobe PDF	???org.dspace.app.webui.jsptag.ItemTag.view???

???jsp.display-item.text2??? ???jsp.display-item.display-statistics???

???jsp.display-item.text3??? ???jsp.display-item.license???