Título: Uma Ferramenta de Correção de Rótulos com Base em Curvas Principais
Autores: Max Deivid Alves do Nascimento, Danton Diego Ferreira, Dr. Flavio Bezerra Costa, Dr Erivelton Nepomuceno, Marcin Kamiński & Henrique Luis Moreira Monteiro
Resumo: Em aprendizado supervisionado, erros nos rótulos comprometem significativamente o desempenho dos modelos. Este trabalho propõe um novo algoritmo baseado em Curvas Principais para a detecção e correção de rótulos incorretos, com o objetivo de melhorar a qualidade dos dados de treinamento. A abordagem desenvolvida é composta por duas etapas: (i) identificação de amostras potencialmente mal rotuladas por meio de análise utilizando o Local Outlier Factor (LOF) (ii) correção baseada na consistência estrutural dos dados utilizando Curvas Principais. O método foi comparado ao Confident Learning em múltiplos datasets com taxas de erro controladas. Os experimentos demonstraram que, dependendo do conjunto de dados analisado, a técnica desenvolvida reduziu o erro total do conjunto em 9 vezes mais que o Confident Learning . Além disso, essa técnica pode auxiliar na detecção do comportamento dos dados, considerando as densidades de cada conjunto ou classe, permitindo sua caracterização, classificação de padrões e agrupamentos. Esses resultados sugerem que Curvas Principais oferecem vantagens relevantes na purificação de dados.
Palavras-chave: Principal curves; outliers; label errors; data analysis.
Páginas: 8
Código DOI: 10.21528/CBIC2025-1176228
Artigo em PDF: CBIC_2025_paper1176228.pdf
Arquivo BibTeX:
CBIC_2025_1176228.bib
