Use este identificador para citar ou linkar para este item:
https://repositorio.unifei.edu.br/jspui/handle/123456789/3936
Tipo: | Dissertação |
Título: | Sumarizador de avaliações usando textrank e modelagem de tópicos |
Autor(es): | TAKENAKA, Fernando Hideki |
Primeiro Orientador: | BALDOCHI JUNIOR, Laércio Augusto |
Resumo: | Na última década a Internet mudou o modo como as pessoas trabalham, fazem compras e se socializam. Essas mudanças resultaram em um aumento no Conteúdo Gerado pelos Usuários (CGU) como, por exemplo: avaliações, notas, artigos e vídeos. Os CGUs possuem informações relevantes para a tomada de decisão, especialmente no que se refere à aquisição de bens e serviços. Entretanto, o grande volume e dispersão deste conteúdo torna difícil a obtenção de informações relevantes. Neste contexto, a sumarização de textos é apresentada como um modo de tornar este conteúdo mais acessível às pessoas. Um dado sumário A pode ser considerado melhor que um outro sumário B se o primeiro for mais curto que o segundo com o mesmo conteúdo, ou quando mesmo sendo mais longo, possui mais informações relevantes. Analisando a literatura disponível, foi constatado que é possível produzir sumários de melhor qualidade do que aqueles que correspondem ao estado da arte em sumarização de textos. Neste trabalho, apresentamos um sumarizador automático multilingual que combina e expande os algoritmos Latent Dirichlet Allocation (LDA) e TextRank. Em comparação com o estado da arte, este trabalho gerou sumários melhores em termos de tamanho e conteúdo. |
Abstract: | Over the past decade, the Internet has changed the way people work, shop and socialize. Those changes resulted in the increase of User Generated Content (UGC) such as: ratings, reviews, wikis, and videos. UCG contains relevant information for decision-making, especially with regard to the acquisition of goods and services. However, the large volume and dispersion of this content makes it difficult to obtain relevant information. Text summarization appears as a way to make this content more accessible to people. A summary A can be considered better than another B when A is shorter than B while maintaining the same content relevance, or when A, despite being longer, presents more relevant content. Analyzing the literature, we observed that it is possible to produce better quality summaries than those produced by algorithms that correspond to the state of the art in text summarization. We present a multilingual automatic text summarizer that combines and extends the algorithms Latent Dirichlet Allocation (LDA) and TextRank. Our approach, when compared to the state of the art, generates better text summaries in terms of size and content relevance. |
Palavras-chave: | Processamento de linguagem natural Textrank Modelagem de tópicos Sumarização |
CNPq: | CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO |
Idioma: | por |
País: | Brasil |
Editor: | Universidade Federal de Itajubá |
Sigla da Instituição: | UNIFEI |
metadata.dc.publisher.department: | IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação |
metadata.dc.publisher.program: | Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação |
Tipo de Acesso: | Acesso Aberto |
URI: | https://repositorio.unifei.edu.br/jspui/handle/123456789/3936 |
Data do documento: | 30-Ago-2023 |
Aparece nas coleções: | Dissertações |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação_2023141.pdf | 683,89 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.