Título: Método de Subamostragem via Curvas Principais
Autores: Jonatha Levi dos Santos Lustosa, Fernado Elias de Melo Borges, Marcin Kamiński & Danton Diego Ferreira
Resumo: A ascendente geração de dados complexos e de alta dimensionalidade implica em desafios significativos para o desenvolvimento de modelos de aprendizado de máquina, principalmente em cenários com classes desbalanceadas. Neste cenário, a subamostragem surge como uma técnica promissora para mitigar esse problema, reduzindo o volume de dados da classe majoritária e equilibrando a distribuição das classes. Porém, métodos tradicionais de subamostragem, como a seleção aleatória, podem resultar em perda de informações cruciais e afetar a representatividade do conjunto de dados. Este trabalho propõe um novo método de subamostragem baseado em Curvas Principais (CPs). O método explora a distribuição dos dados ao longo da CP representativa da classe majoritária para selecionar os eventos de forma a manter a distribuição original dos dados no espaço de características. Para avaliar o método, foram realizados testes com diferentes bases de dados sintéticas bidimensionais e com uma base de dados real. Um modelo de classificação foi treinado para fazer a predição das classes no conjunto subamostrado. Os resultados obtidos demonstram o potencial do método proposto em termos de desempenho na classificação, redução no tempo de processamento, e principalmente na conservação da representatividade do conjunto de dados subamostrado em comparação com o conjunto original.
Palavras-chave: Machine learning; Data undersampling; Imbalanced data; Principal curves.
Páginas: 8
Código DOI: 10.21528/CBIC2025-1176178
Artigo em PDF: CBIC_2025_paper1176178.pdf
Arquivo BibTeX:
CBIC_2025_1176178.bib
