DSpace/Manakin Repository

Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas

Mostrar registro simples

dc.creator PEREIRA, Leandro Duarte
dc.date.issued 2025-09-23
dc.identifier.citation PEREIRA, Leandro Duarte. Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas. 2025. 91 f. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de Itajubá, Itajubá, 2025. pt_BR
dc.identifier.uri https://repositorio.unifei.edu.br/jspui/handle/123456789/4314
dc.description.abstract challenge across multiple domains, as the very low prevalence of the minority class (<1%) compromises both predictive performance and model reliability. Although the literature presents a considerable number of studies on class imbalance, the scenario of extreme imbalance still requires further in-depth investigation. In this context, this thesis developed two complementary research fronts. First, a Systematic Literature Review (SLR) was conducted following a rigorous protocol of selection and quality criteria, through which 22 primary experimental studies were analyzed across 52 datasets. The results indicated that combined approaches achieve superior performance in several scenarios, with particular emphasis on oversampling techniques associated with ensembles, especially the combination of Random Forest (RF) with methods derived from the Synthetic Minority Oversampling Technique (SMOTE). Second, we propose an innovative approach based on Design of Experiments (DOE) for generating synthetic datasets under extreme class imbalance conditions. The framework enables the controlled manipulation of six critical factors (feature dimensionality, sample size, imbalance ratio, response function type, decision threshold, and error variability), allowing systematic and replicable experimentation. Experiments conducted with Random Forest combined with SMOTE demonstrated the usefulness of the framework in analyzing the impact of main effects and interactions, with Analysis of Variance (ANOVA) identifying the relevance of feature dimensionality and error variability to classifier behavior. Altogether, the findings from the Systematic Literature Review and the proposed experimental framework contribute in an integrated manner to advancing knowledge and fostering the development of more robust methods for binary classification under extreme imbalance scenarios. pt_BR
dc.language por pt_BR
dc.publisher Universidade Federal de Itajubá pt_BR
dc.rights Acesso Aberto pt_BR
dc.subject Desbalanceamento extremo de classes pt_BR
dc.subject Classificação binária pt_BR
dc.subject Revisão sistemática da literatura (RSL) pt_BR
dc.subject Geração de dados sintéticos pt_BR
dc.subject Design de experimentos (DoE) pt_BR
dc.title Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas pt_BR
dc.type Tese pt_BR
dc.date.available 2025-11-06
dc.date.available 2025-11-06T13:30:37Z
dc.date.accessioned 2025-11-06T13:30:37Z
dc.creator.Lattes http://lattes.cnpq.br/6913225650128189 pt_BR
dc.contributor.advisor1 BALESTRASSI, Pedro Paulo
dc.contributor.advisor1Lattes http://lattes.cnpq.br/8999535447828760 pt_BR
dc.contributor.advisor-co1 ALMEIDA, Fabrício Alves de
dc.contributor.advisor-co1Lattes http://lattes.cnpq.br/5444004788192327 pt_BR
dc.description.resumo representa um desafio recorrente em diversos domínios, pois a baixa prevalência da classe minoritária (<1%) compromete a confiabilidade e o desempenho preditivo dos modelos. Embora a literatura apresente um número expressivo de estudos sobre o desbalanceamento, o cenário de desbalanceamento extremo ainda carece de investigações aprofundadas. Nesse contexto, esta tese desenvolveu duas frentes complementares de pesquisa. Na primeira, foi conduzida uma Revisão Sistemática da Literatura (RSL), seguindo rigoroso protocolo de seleção e qualidade, a partir da qual 22 estudos primários foram analisados em 52 bases de dados. Os resultados indicaram que abordagens combinadas apresentam desempenho superior em diversos cenários, destacando-se técnicas de sobreamostragem (oversampling) associadas a ensembles, em especial a combinação de Floresta Aleatória (Random Forest – RF) com métodos derivados da Técnica de Sobreamostragem de Minorias Sintéticas (Synthetic Minority Oversampling Technique – SMOTE). Na segunda frente, propõe-se uma abordagem inovadora baseada em Design de Experimentos (DoE) para geração de conjuntos de dados sintéticos em condições de desequilíbrio extremo. A estrutura permite a manipulação controlada de seis fatores críticos (dimensionalidade, tamanho da amostra, razão de desbalanceamento, tipo de função de resposta, limiar de decisão e variabilidade do erro), possibilitando experimentação sistemática e replicável. Experimentos realizados com Random Forest combinado ao SMOTE evidenciaram a utilidade da estrutura para analisar o impacto de fatores e interações, sendo identificada, por meio de Análise de Variância (ANOVA), a relevância da dimensionalidade e da variabilidade do erro no comportamento do classificador. Assim, os achados da Revisão Sistemática da Literatura e a estrutura experimental proposta contribuem de forma integrada para o avanço do conhecimento e para o desenvolvimento de métodos mais robustos em cenários de classificação binária sob desbalanceamento extremo. pt_BR
dc.publisher.country Brasil pt_BR
dc.publisher.department IEPG - Instituto de Engenharia de Produção e Gestão pt_BR
dc.publisher.program Programa de Pós-Graduação: Doutorado - Engenharia de Produção pt_BR
dc.publisher.initials UNIFEI pt_BR
dc.subject.cnpq CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUÇÃO pt_BR


Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples