Repositório UNIFEI UNIFEI - Campus 1: Itajubá PPG - Programas de Pós Graduação Teses
Use este identificador para citar ou linkar para este item: https://repositorio.unifei.edu.br/jspui/handle/123456789/4314
Tipo: Tese
Título: Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas
Autor(es): PEREIRA, Leandro Duarte
Primeiro Orientador: BALESTRASSI, Pedro Paulo
metadata.dc.contributor.advisor-co1: ALMEIDA, Fabrício Alves de
Resumo: representa um desafio recorrente em diversos domínios, pois a baixa prevalência da classe minoritária (<1%) compromete a confiabilidade e o desempenho preditivo dos modelos. Embora a literatura apresente um número expressivo de estudos sobre o desbalanceamento, o cenário de desbalanceamento extremo ainda carece de investigações aprofundadas. Nesse contexto, esta tese desenvolveu duas frentes complementares de pesquisa. Na primeira, foi conduzida uma Revisão Sistemática da Literatura (RSL), seguindo rigoroso protocolo de seleção e qualidade, a partir da qual 22 estudos primários foram analisados em 52 bases de dados. Os resultados indicaram que abordagens combinadas apresentam desempenho superior em diversos cenários, destacando-se técnicas de sobreamostragem (oversampling) associadas a ensembles, em especial a combinação de Floresta Aleatória (Random Forest – RF) com métodos derivados da Técnica de Sobreamostragem de Minorias Sintéticas (Synthetic Minority Oversampling Technique – SMOTE). Na segunda frente, propõe-se uma abordagem inovadora baseada em Design de Experimentos (DoE) para geração de conjuntos de dados sintéticos em condições de desequilíbrio extremo. A estrutura permite a manipulação controlada de seis fatores críticos (dimensionalidade, tamanho da amostra, razão de desbalanceamento, tipo de função de resposta, limiar de decisão e variabilidade do erro), possibilitando experimentação sistemática e replicável. Experimentos realizados com Random Forest combinado ao SMOTE evidenciaram a utilidade da estrutura para analisar o impacto de fatores e interações, sendo identificada, por meio de Análise de Variância (ANOVA), a relevância da dimensionalidade e da variabilidade do erro no comportamento do classificador. Assim, os achados da Revisão Sistemática da Literatura e a estrutura experimental proposta contribuem de forma integrada para o avanço do conhecimento e para o desenvolvimento de métodos mais robustos em cenários de classificação binária sob desbalanceamento extremo.
Abstract: challenge across multiple domains, as the very low prevalence of the minority class (<1%) compromises both predictive performance and model reliability. Although the literature presents a considerable number of studies on class imbalance, the scenario of extreme imbalance still requires further in-depth investigation. In this context, this thesis developed two complementary research fronts. First, a Systematic Literature Review (SLR) was conducted following a rigorous protocol of selection and quality criteria, through which 22 primary experimental studies were analyzed across 52 datasets. The results indicated that combined approaches achieve superior performance in several scenarios, with particular emphasis on oversampling techniques associated with ensembles, especially the combination of Random Forest (RF) with methods derived from the Synthetic Minority Oversampling Technique (SMOTE). Second, we propose an innovative approach based on Design of Experiments (DOE) for generating synthetic datasets under extreme class imbalance conditions. The framework enables the controlled manipulation of six critical factors (feature dimensionality, sample size, imbalance ratio, response function type, decision threshold, and error variability), allowing systematic and replicable experimentation. Experiments conducted with Random Forest combined with SMOTE demonstrated the usefulness of the framework in analyzing the impact of main effects and interactions, with Analysis of Variance (ANOVA) identifying the relevance of feature dimensionality and error variability to classifier behavior. Altogether, the findings from the Systematic Literature Review and the proposed experimental framework contribute in an integrated manner to advancing knowledge and fostering the development of more robust methods for binary classification under extreme imbalance scenarios.
Palavras-chave: Desbalanceamento extremo de classes
Classificação binária
Revisão sistemática da literatura (RSL)
Geração de dados sintéticos
Design de experimentos (DoE)
CNPq: CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUÇÃO
Idioma: por
País: Brasil
Editor: Universidade Federal de Itajubá
Sigla da Instituição: UNIFEI
metadata.dc.publisher.department: IEPG - Instituto de Engenharia de Produção e Gestão
metadata.dc.publisher.program: Programa de Pós-Graduação: Doutorado - Engenharia de Produção
Citação: PEREIRA, Leandro Duarte. Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas. 2025. 91 f. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de Itajubá, Itajubá, 2025.
Tipo de Acesso: Acesso Aberto
URI: https://repositorio.unifei.edu.br/jspui/handle/123456789/4314
Data do documento: 23-Set-2025
Aparece nas coleções:Teses

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Tese_2025033.pdf4,2 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.