Sumarizador de avaliações usando textrank e modelagem de tópicos

TAKENAKA, Fernando Hideki

Repositório UNIFEI UNIFEI - Campus 1: Itajubá PPG - Programas de Pós Graduação Dissertações

Use este identificador para citar ou linkar para este item: https://repositorio.unifei.edu.br/jspui/handle/123456789/3936

Tipo:	Dissertação
Título:	Sumarizador de avaliações usando textrank e modelagem de tópicos
Autor(es):	TAKENAKA, Fernando Hideki
Primeiro Orientador:	BALDOCHI JUNIOR, Laércio Augusto
Resumo:	Na última década a Internet mudou o modo como as pessoas trabalham, fazem compras e se socializam. Essas mudanças resultaram em um aumento no Conteúdo Gerado pelos Usuários (CGU) como, por exemplo: avaliações, notas, artigos e vídeos. Os CGUs possuem informações relevantes para a tomada de decisão, especialmente no que se refere à aquisição de bens e serviços. Entretanto, o grande volume e dispersão deste conteúdo torna difícil a obtenção de informações relevantes. Neste contexto, a sumarização de textos é apresentada como um modo de tornar este conteúdo mais acessível às pessoas. Um dado sumário A pode ser considerado melhor que um outro sumário B se o primeiro for mais curto que o segundo com o mesmo conteúdo, ou quando mesmo sendo mais longo, possui mais informações relevantes. Analisando a literatura disponível, foi constatado que é possível produzir sumários de melhor qualidade do que aqueles que correspondem ao estado da arte em sumarização de textos. Neste trabalho, apresentamos um sumarizador automático multilingual que combina e expande os algoritmos Latent Dirichlet Allocation (LDA) e TextRank. Em comparação com o estado da arte, este trabalho gerou sumários melhores em termos de tamanho e conteúdo.
Abstract:	Over the past decade, the Internet has changed the way people work, shop and socialize. Those changes resulted in the increase of User Generated Content (UGC) such as: ratings, reviews, wikis, and videos. UCG contains relevant information for decision-making, especially with regard to the acquisition of goods and services. However, the large volume and dispersion of this content makes it difficult to obtain relevant information. Text summarization appears as a way to make this content more accessible to people. A summary A can be considered better than another B when A is shorter than B while maintaining the same content relevance, or when A, despite being longer, presents more relevant content. Analyzing the literature, we observed that it is possible to produce better quality summaries than those produced by algorithms that correspond to the state of the art in text summarization. We present a multilingual automatic text summarizer that combines and extends the algorithms Latent Dirichlet Allocation (LDA) and TextRank. Our approach, when compared to the state of the art, generates better text summaries in terms of size and content relevance.
Palavras-chave:	Processamento de linguagem natural Textrank Modelagem de tópicos Sumarização
CNPq:	CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Itajubá
Sigla da Instituição:	UNIFEI
metadata.dc.publisher.department:	IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação
metadata.dc.publisher.program:	Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação
Tipo de Acesso:	Acesso Aberto
URI:	https://repositorio.unifei.edu.br/jspui/handle/123456789/3936
Data do documento:	30-Ago-2023
Aparece nas coleções:	Dissertações

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertação_2023141.pdf		683,89 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas