Título: Algoritmo de superamostragem de dados baseado em Curvas Principais
Autores: William Bento Pereira, Fernando Elias de Melo Borges, Marcin Kamiński, Bruno Henrique Groenner Barbosa & Danton Diego Ferreira
Resumo: O desbalanceamento entre classes é um dos principais desafios em tarefas de classificação, afetando negativamente a capacidade dos modelos de identificar corretamente instâncias da classe minoritária. Este trabalho propõe e avalia uma técnica de superamostragem baseada em Curvas Principais extraídas por meio do algoritmo k-segmentos como alternativa aos métodos tradicionais, como SMOTE e a superamostragem aleatória. A abordagem explora a estrutura e relações não lineares dos dados para gerar amostras sintéticas mais representativas e equilibradas. Foram realizados experimentos em bases de dados sintéticas com diferentes graus de complexidade, e os resultados demonstram que o método baseado em Curvas Principais preserva melhor a distribuição original dos dados e melhora o desempenho de modelos preditivos, especialmente Random Forest, em comparação com as demais abordagens. Os resultados encontrados indicam que a técnica proposta se apresenta como uma alternativa eficiente para lidar com desbalanceamento em problemas de classificação complexos, principalmente quando as classes possuem distribuição alongada e em Anel no espaço de características.
Palavras-chave: Class imbalance; Oversampling; Principal curves; k-segments; Synthetic data; Random Forest.
Páginas: 8
Código DOI: 10.21528/CBIC2025-1176218
Artigo em PDF: CBIC_2025_paper1176218.pdf
Arquivo BibTeX:
CBIC_2025_1176218.bib
