Repositório UNIFEI UNIFEI - Campus 1: Itajubá PPG - Programas de Pós Graduação Teses
Use este identificador para citar ou linkar para este item: https://repositorio.unifei.edu.br/jspui/handle/123456789/4314
Registro completo de metadados
Campo DCValorIdioma
dc.creatorPEREIRA, Leandro Duarte-
dc.date.issued2025-09-23-
dc.identifier.citationPEREIRA, Leandro Duarte. Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas. 2025. 91 f. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de Itajubá, Itajubá, 2025.pt_BR
dc.identifier.urihttps://repositorio.unifei.edu.br/jspui/handle/123456789/4314-
dc.description.abstractchallenge across multiple domains, as the very low prevalence of the minority class (<1%) compromises both predictive performance and model reliability. Although the literature presents a considerable number of studies on class imbalance, the scenario of extreme imbalance still requires further in-depth investigation. In this context, this thesis developed two complementary research fronts. First, a Systematic Literature Review (SLR) was conducted following a rigorous protocol of selection and quality criteria, through which 22 primary experimental studies were analyzed across 52 datasets. The results indicated that combined approaches achieve superior performance in several scenarios, with particular emphasis on oversampling techniques associated with ensembles, especially the combination of Random Forest (RF) with methods derived from the Synthetic Minority Oversampling Technique (SMOTE). Second, we propose an innovative approach based on Design of Experiments (DOE) for generating synthetic datasets under extreme class imbalance conditions. The framework enables the controlled manipulation of six critical factors (feature dimensionality, sample size, imbalance ratio, response function type, decision threshold, and error variability), allowing systematic and replicable experimentation. Experiments conducted with Random Forest combined with SMOTE demonstrated the usefulness of the framework in analyzing the impact of main effects and interactions, with Analysis of Variance (ANOVA) identifying the relevance of feature dimensionality and error variability to classifier behavior. Altogether, the findings from the Systematic Literature Review and the proposed experimental framework contribute in an integrated manner to advancing knowledge and fostering the development of more robust methods for binary classification under extreme imbalance scenarios.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Itajubápt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectDesbalanceamento extremo de classespt_BR
dc.subjectClassificação bináriapt_BR
dc.subjectRevisão sistemática da literatura (RSL)pt_BR
dc.subjectGeração de dados sintéticospt_BR
dc.subjectDesign de experimentos (DoE)pt_BR
dc.titleAbordagens eficientes para classificação binária em bases de dados extremamente desbalanceadaspt_BR
dc.typeTesept_BR
dc.date.available2025-11-06-
dc.date.available2025-11-06T13:30:37Z-
dc.date.accessioned2025-11-06T13:30:37Z-
dc.creator.Latteshttp://lattes.cnpq.br/6913225650128189pt_BR
dc.contributor.advisor1BALESTRASSI, Pedro Paulo-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8999535447828760pt_BR
dc.contributor.advisor-co1ALMEIDA, Fabrício Alves de-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5444004788192327pt_BR
dc.description.resumorepresenta um desafio recorrente em diversos domínios, pois a baixa prevalência da classe minoritária (<1%) compromete a confiabilidade e o desempenho preditivo dos modelos. Embora a literatura apresente um número expressivo de estudos sobre o desbalanceamento, o cenário de desbalanceamento extremo ainda carece de investigações aprofundadas. Nesse contexto, esta tese desenvolveu duas frentes complementares de pesquisa. Na primeira, foi conduzida uma Revisão Sistemática da Literatura (RSL), seguindo rigoroso protocolo de seleção e qualidade, a partir da qual 22 estudos primários foram analisados em 52 bases de dados. Os resultados indicaram que abordagens combinadas apresentam desempenho superior em diversos cenários, destacando-se técnicas de sobreamostragem (oversampling) associadas a ensembles, em especial a combinação de Floresta Aleatória (Random Forest – RF) com métodos derivados da Técnica de Sobreamostragem de Minorias Sintéticas (Synthetic Minority Oversampling Technique – SMOTE). Na segunda frente, propõe-se uma abordagem inovadora baseada em Design de Experimentos (DoE) para geração de conjuntos de dados sintéticos em condições de desequilíbrio extremo. A estrutura permite a manipulação controlada de seis fatores críticos (dimensionalidade, tamanho da amostra, razão de desbalanceamento, tipo de função de resposta, limiar de decisão e variabilidade do erro), possibilitando experimentação sistemática e replicável. Experimentos realizados com Random Forest combinado ao SMOTE evidenciaram a utilidade da estrutura para analisar o impacto de fatores e interações, sendo identificada, por meio de Análise de Variância (ANOVA), a relevância da dimensionalidade e da variabilidade do erro no comportamento do classificador. Assim, os achados da Revisão Sistemática da Literatura e a estrutura experimental proposta contribuem de forma integrada para o avanço do conhecimento e para o desenvolvimento de métodos mais robustos em cenários de classificação binária sob desbalanceamento extremo.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentIEPG - Instituto de Engenharia de Produção e Gestãopt_BR
dc.publisher.programPrograma de Pós-Graduação: Doutorado - Engenharia de Produçãopt_BR
dc.publisher.initialsUNIFEIpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA DE PRODUÇÃOpt_BR
Aparece nas coleções:Teses

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Tese_2025033.pdf4,2 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.