Avaliação de Modelos de Aprendizado por Reforço no Problema da Mochila Multidimensional: Uma Comparação entre Q- learning e SARSA

Título: Avaliação de Modelos de Aprendizado por Reforço no Problema da Mochila Multidimensional: Uma Comparação entre Q- learning e SARSA

Autores: Luciano José Menezes de Oliveira, Jefferson Vinicius Lourenco de Assis & André Luiz Carvalho Ottoni

Resumo: O Problema da Mochila Multidimensional (MKP) é um desafio clássico de otimização combinatória, presente em diversas aplicações, como alocação de recursos e logística. O aumento da complexidade computacional à medida que o número de itens cresce torna essencial a busca por abordagens eficientes para sua resolução. Neste trabalho, é investigado a aplicação de algoritmos de Aprendizado por Reforço, comparando o desempenho do Q-learning e do SARSA na resolução do problema da mochila. O objetivo do estudo é avaliar o impacto de diferentes funções de recompensa no processo de aprendizado e na qualidade das soluções encontradas. Foram testadas três funções de recompensa com variações no balanceamento entre maximização de valor e penalizações por restrições. Os algoritmos foram avaliados em doze instâncias da OR-Library, com análise de sensibilidade dos parâmetros α, γ e ϵ. Os resultados mostraram que a segunda função recompensa, combinada com o algoritmo SARSA, obteve desempenho mais robusto, atingindo valores ótimos ou próximos na maioria das instâncias. Além disso, o SARSA superou o Q-learning em duas instâncias complexas.

Palavras-chave: Reinforcement Learning; Q-learning; SARSA; Combinatorial Optimization.

Páginas: 7

Código DOI: 10.21528/CBIC2025-1104930

Artigo em PDF: CBIC_2025_paper1104930.pdf

Arquivo BibTeX:
CBIC_2025_1104930.bib