Algoritmo de superamostragem de dados baseado em Curvas Principais

Título: Algoritmo de superamostragem de dados baseado em Curvas Principais

Autores: William Bento Pereira, Fernando Elias de Melo Borges, Marcin Kamiński, Bruno Henrique Groenner Barbosa & Danton Diego Ferreira

Resumo: O desbalanceamento entre classes é um dos principais desafios em tarefas de classificação, afetando negativamente a capacidade dos modelos de identificar corretamente instâncias da classe minoritária. Este trabalho propõe e avalia uma técnica de superamostragem baseada em Curvas Principais extraídas por meio do algoritmo k-segmentos como alternativa aos métodos tradicionais, como SMOTE e a superamostragem aleatória. A abordagem explora a estrutura e relações não lineares dos dados para gerar amostras sintéticas mais representativas e equilibradas. Foram realizados experimentos em bases de dados sintéticas com diferentes graus de complexidade, e os resultados demonstram que o método baseado em Curvas Principais preserva melhor a distribuição original dos dados e melhora o desempenho de modelos preditivos, especialmente Random Forest, em comparação com as demais abordagens. Os resultados encontrados indicam que a técnica proposta se apresenta como uma alternativa eficiente para lidar com desbalanceamento em problemas de classificação complexos, principalmente quando as classes possuem distribuição alongada e em Anel no espaço de características.

Palavras-chave: Class imbalance; Oversampling; Principal curves; k-segments; Synthetic data; Random Forest.

Páginas: 8

Código DOI: 10.21528/CBIC2025-1176218

Artigo em PDF: CBIC_2025_paper1176218.pdf

Arquivo BibTeX:
CBIC_2025_1176218.bib