Desvendando os Subgrupos Moleculares do Meduloblastoma: Uma Abordagem baseada em IA Explicável com XGBoost e SHAP

Título: Desvendando os Subgrupos Moleculares do Meduloblastoma: Uma Abordagem baseada em IA Explicável com XGBoost e SHAP

Autores: Raylam W. da Silva, Matheus Dalmolin & Marcelo A. C. Fernandes

Resumo: O meduloblastoma (MB) é o tumor cerebral pediátrico maligno mais comum, classificado em quatro subgrupos moleculares (WNT, SHH, Grupo 3 e Grupo 4) com prognósticos e tratamentos distintos. A classificação baseada em expressão gênica é crucial, mas a complexidade dos dados e a natureza de ”caixa-preta” de modelos de aprendizado de máquina (ML) dificultam a interpretação biológica. Este estudo utiliza um conjunto de dados público de expressão gênica (GSE85217) para treinar um modelo XGBoost para a classificação dos subgrupos, após balanceamento das classes com a técnica de Random Over-Sampling. A metodologia de Inteligência Artificial Explicável (XAI), SHAP ( SHapley Additive exPlanations), foi empregada para identificar os genes com maior impacto na predição de cada subgrupo e desvendar os mecanismos de decisão do modelo. O modelo XGBoost alcançou uma acurácia global de 96,7% no conjunto de teste, demonstrando alta precisão na distinção dos quatro subgrupos. A análise SHAP revelou os genes mais influentes para cada classe, corroborando marcadores biológicos bem estabelecidos, como PPP2R2B para o Grupo 3 e RBM24 para o Grupo 4. Crucialmente, a análise demonstrou que a baixa expressão de OTX2, um oncogene em outros subgrupos, foi o preditor mais importante para o subgrupo SHH, destacando a capacidade do modelo de aprender regras de decisão contextuais e não apenas marcadores de alta expressão. Adicionalmente, a análise identificou novos candidatos potenciais, como PDLIM4 para o subgrupo WNT. Notavelmente, uma análise de redução de atributos mostrou que um modelo com apenas os 20 genes mais importantes manteve uma acurácia robusta de 85,87%. A combinação do XGBoost com SHAP provou ser uma estratégia poderosa não apenas para a classificação precisa, mas também para extrair insights biologicamente relevantes. A abordagem valida a coerência biológica do modelo, abre caminho para o desenvolvimento de painéis diagnósticos mais enxutos e a descoberta de novos alvos terapêuticos na neuro-oncologia pediátrica, ressaltando a importância da interpretabilidade na pesquisa do câncer guiada por IA.

Palavras-chave: Medulloblastoma; Explainable Artificial Intelligence; XGBoost; SHAP.

Páginas: 9

Código DOI: 10.21528/CBIC2025-1191847

Artigo em PDF: CBIC_2025_paper1191847.pdf

Arquivo BibTeX:
CBIC_2025_1191847.bib