Use este identificador para citar ou linkar para este item:
https://repositorio.unifei.edu.br/jspui/handle/123456789/4314| Tipo: | Tese |
| Título: | Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas |
| Autor(es): | PEREIRA, Leandro Duarte |
| Primeiro Orientador: | BALESTRASSI, Pedro Paulo |
| metadata.dc.contributor.advisor-co1: | ALMEIDA, Fabrício Alves de |
| Resumo: | representa um desafio recorrente em diversos domínios, pois a baixa prevalência da classe minoritária (<1%) compromete a confiabilidade e o desempenho preditivo dos modelos. Embora a literatura apresente um número expressivo de estudos sobre o desbalanceamento, o cenário de desbalanceamento extremo ainda carece de investigações aprofundadas. Nesse contexto, esta tese desenvolveu duas frentes complementares de pesquisa. Na primeira, foi conduzida uma Revisão Sistemática da Literatura (RSL), seguindo rigoroso protocolo de seleção e qualidade, a partir da qual 22 estudos primários foram analisados em 52 bases de dados. Os resultados indicaram que abordagens combinadas apresentam desempenho superior em diversos cenários, destacando-se técnicas de sobreamostragem (oversampling) associadas a ensembles, em especial a combinação de Floresta Aleatória (Random Forest – RF) com métodos derivados da Técnica de Sobreamostragem de Minorias Sintéticas (Synthetic Minority Oversampling Technique – SMOTE). Na segunda frente, propõe-se uma abordagem inovadora baseada em Design de Experimentos (DoE) para geração de conjuntos de dados sintéticos em condições de desequilíbrio extremo. A estrutura permite a manipulação controlada de seis fatores críticos (dimensionalidade, tamanho da amostra, razão de desbalanceamento, tipo de função de resposta, limiar de decisão e variabilidade do erro), possibilitando experimentação sistemática e replicável. Experimentos realizados com Random Forest combinado ao SMOTE evidenciaram a utilidade da estrutura para analisar o impacto de fatores e interações, sendo identificada, por meio de Análise de Variância (ANOVA), a relevância da dimensionalidade e da variabilidade do erro no comportamento do classificador. Assim, os achados da Revisão Sistemática da Literatura e a estrutura experimental proposta contribuem de forma integrada para o avanço do conhecimento e para o desenvolvimento de métodos mais robustos em cenários de classificação binária sob desbalanceamento extremo. |
| Abstract: | challenge across multiple domains, as the very low prevalence of the minority class (<1%) compromises both predictive performance and model reliability. Although the literature presents a considerable number of studies on class imbalance, the scenario of extreme imbalance still requires further in-depth investigation. In this context, this thesis developed two complementary research fronts. First, a Systematic Literature Review (SLR) was conducted following a rigorous protocol of selection and quality criteria, through which 22 primary experimental studies were analyzed across 52 datasets. The results indicated that combined approaches achieve superior performance in several scenarios, with particular emphasis on oversampling techniques associated with ensembles, especially the combination of Random Forest (RF) with methods derived from the Synthetic Minority Oversampling Technique (SMOTE). Second, we propose an innovative approach based on Design of Experiments (DOE) for generating synthetic datasets under extreme class imbalance conditions. The framework enables the controlled manipulation of six critical factors (feature dimensionality, sample size, imbalance ratio, response function type, decision threshold, and error variability), allowing systematic and replicable experimentation. Experiments conducted with Random Forest combined with SMOTE demonstrated the usefulness of the framework in analyzing the impact of main effects and interactions, with Analysis of Variance (ANOVA) identifying the relevance of feature dimensionality and error variability to classifier behavior. Altogether, the findings from the Systematic Literature Review and the proposed experimental framework contribute in an integrated manner to advancing knowledge and fostering the development of more robust methods for binary classification under extreme imbalance scenarios. |
| Palavras-chave: | Desbalanceamento extremo de classes Classificação binária Revisão sistemática da literatura (RSL) Geração de dados sintéticos Design de experimentos (DoE) |
| CNPq: | CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUÇÃO |
| Idioma: | por |
| País: | Brasil |
| Editor: | Universidade Federal de Itajubá |
| Sigla da Instituição: | UNIFEI |
| metadata.dc.publisher.department: | IEPG - Instituto de Engenharia de Produção e Gestão |
| metadata.dc.publisher.program: | Programa de Pós-Graduação: Doutorado - Engenharia de Produção |
| Citação: | PEREIRA, Leandro Duarte. Abordagens eficientes para classificação binária em bases de dados extremamente desbalanceadas. 2025. 91 f. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de Itajubá, Itajubá, 2025. |
| Tipo de Acesso: | Acesso Aberto |
| URI: | https://repositorio.unifei.edu.br/jspui/handle/123456789/4314 |
| Data do documento: | 23-Set-2025 |
| Aparece nas coleções: | Teses |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Tese_2025033.pdf | 4,2 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.
