Compressão Consciente de Modelos de Deep Learning Aplicada a Ambientes Kubernetes

Título: Compressão Consciente de Modelos de Deep Learning Aplicada a Ambientes Kubernetes

Autores: Mateus Arnaud S. S. Goldbarg, Vítor Yeso Fidelis Freitas, Lucileide Medeiros Dantas da Silva, Sérgio N. Silva & Marcelo A. C. Fernandes

Resumo: Modelos de deep learning, como redes neurais convolucionais (CNNs), têm se destacado em diversas tarefas de aprendizado supervisionado, mas frequentemente exigem elevada capacidade computacional para execução eficiente. No entanto, sua elevada complexidade computacional pode dificultar a implantação eficiente em ambientes distribuídos baseados em microsserviços, como clusters Kubernetes, especialmente quando há restrições de recursos. Diante desse cenário, foi conduzido um estudo experimental utilizando uma abordagem de compressão consciente de modelos de redes neurais profundas, baseada na aplicação iterativa de poda seguida de quantização ( P → Q), com o objetivo de reduzir o tamanho dos modelos, o consumo de memória e CPU, e o tempo de resposta durante a inferência. Para validar a proposta, foram utilizados modelos VGG-16 treinados com o conjunto de dados CIFAR-10, submetidos a diferentes configurações de compressão controladas por dois parâmetros: α, que define o grau de agressividade da poda, e b, que determina a quantidade de bits utilizados na quantização dos pesos. Os modelos comprimidos foram implantados como microsserviços em um cluster Kubernetes utilizando MicroK8s, e testados com geradores de carga via JMeter, sendo monitorados por Prometheus. Os resultados indicam que a técnica P → Q permite uma compressão de até 5,6 vezes no tamanho do modelo, mantendo níveis satisfatórios de acurácia, com perdas inferiores a 7%. Além disso, observou-se uma redução de até 1,8 vezes na latência de resposta, 1,71 vezes no uso de memória e 1,46 vezes no consumo de CPU. Esses achados demonstram o potencial e a viabilidade da abordagem proposta para a otimização de aplicações baseadas em DNNs em ambientes de microsserviços escaláveis.

Palavras-chave: model compression; deep learning; quantization; neural network pruning; Kubernetes; microservices; scalability.

Páginas: 7

Código DOI: 10.21528/CBIC2025-1189606

Artigo em PDF: CBIC_2025_paper1189606.pdf

Arquivo BibTeX:
CBIC_2025_1189606.bib