Título: Abordagem Baseada em Embeddings e Transformers para Vigilância Genômica do SARS -CoV-2
Autores: Alessandro S. Silva, Gabriel Motta & Marcelo A. C. Fernandes
Resumo: A pandemia de COVID-19 evidenciou a importância da vigilância genômica para o monitoramento da evolução do SARS-CoV-2 e a identificação de variantes de preocupação. Este trabalho propõe uma abordagem inovadora baseada em técnicas de Natural Language Processing (PLN), especificamente embeddings e Transformers, para representação vetorial e análise das substituições de aminoácidos presentes em sequências virais. Utilizando dados provenientes do Global Initiative on Sharing Avian Influenza Data (GISAID), foram extraídas e processadas aproximadamente 548 mil amostras com substituiçõesúnicas. Cada amostra foi tratada como um ”documento”, onde as substituições representam ”palavras”, permitindo a aplicação de modelos do tipo all-MiniLM-L6-v2 para geração de vetores de embedding de 384 dimensões. Esses vetores foram utilizados em análises de agrupamento, visualização e similaridade genética entre variantes. Os resultados obtidos demonstraram a eficácia da abordagem proposta, com a formação de clusters coerentes que refletem padrões específicos de variantes virais, como Delta, Alpha e Omicron. A estrutura vetorial gerada a partir das substituições de aminoácidos mostrou-se sensívelàs diferenças mutacionais entre essas variantes, permitindo sua segmentação em agrupamentos distintos no espaço latente.
Palavras-chave: SARS-CoV-2; genomic surveillance; Transformers; embeddings; variants.
Páginas: 8
Código DOI: 10.21528/CBIC2025-1174296
Artigo em PDF: CBIC_2025_paper1174296.pdf
Arquivo BibTeX:
CBIC_2025_1174296.bib
