Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças

Pivetta, Sander Pes

???jsp.display-item.identifier??? https://repositorio.unipampa.edu.br/jspui/handle/riu/1569

Tipo:	Trabalho de Conclusão de Curso
metadata.dc.title:	Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
Autor(es):	Pivetta, Sander Pes
Primeiro Orientador:	Mergen, Sergio Luis Sardi
Resumo:	Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação.
Abstract:	One of the needs of the Brazilian Army is to perform the classification of documents called “Boletins Internos”, which must be grouped in order to generate summarized reports about the military. To accomplish this, it is necessary to find relevant references to each military inside a set of documents, elaborated during the period of one semester. To perform this classification automatically, this work uses the Bayes classifier. The classifier employs n-grams as a way to select the training attributes, identifying the frequency/occurrence of words inside the analyzed documents. It is also necessary to identify which sentences of the documents are related to the analyzed military. We propose two heuristics in order to better perform the selection of sentences that are related to each military. We can see that the proposed implementation can achieve 78.5% F-Measure in the recovery of relevant documents. Furthermore, the use of n-grams can perform a more accurate analysis of the information, and the sentence selection directly influences the classification.
metadata.dc.subject:	Computer science Classification Documents Naive Bayes N-Grams
metadata.dc.publisher:	Universidade Federal do Pampa
Tipo de acesso:	Attribution-NonCommercial-NoDerivs 3.0 Brazil
Licença:	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
metadata.dc.identifier.uri:	http://dspace.unipampa.edu.br/jspui/handle/riu/1569
metadata.dc.date.issued:	5-Mar-2013
???org.dspace.app.webui.jsptag.ItemTag.appears???	Ciência da Computação

???org.dspace.app.webui.jsptag.ItemTag.files???

???org.dspace.app.webui.jsptag.ItemTag.file???	???org.dspace.app.webui.jsptag.ItemTag.description???	???org.dspace.app.webui.jsptag.ItemTag.filesize???	???org.dspace.app.webui.jsptag.ItemTag.fileformat???
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdf		1.08 MB	Adobe PDF	???org.dspace.app.webui.jsptag.ItemTag.view???

???jsp.display-item.text2??? ???jsp.display-item.display-statistics???

???jsp.display-item.text3??? ???jsp.display-item.license???