Modelagem Bayesiana para Recomendação Adaptiva de Proxies em Sistemas Automatizados

Título: Modelagem Bayesiana para Recomendação Adaptiva de Proxies em Sistemas Automatizados

Autores: Paulo Henrique Cardoso de Souza, Leonardo da Cunha Brito & Thyago Carvalho Marques

Resumo: Este artigo apresenta um sistema de recomendação de rotação de proxies baseado em modelagem Bayesiana para otimizar a coleta automatizada de dados em larga escala. As abordagens tradicionais de rotação de proxies não se adaptam dinamicamente ao desempenho dos proxies nem consideram o contexto temporal dos eventos, resultando em baixa eficiência e necessidade de intervenção manual. O método proposto utiliza a distribuição Beta conjugada com Thompson Sampling para estimar probabilidades de sucesso dos proxies, incorporando um componente de decaimento exponencial que prioriza eventos recentes e penaliza falhas com peso três vezes maior que acertos. O sistema foi avaliado com 72 robôs automatizados operando com quatro provedores de proxies durante oito dias (7 a 15 de setembro de 2024). Os resultados demonstram uma melhoria significativa na taxa de acertos, aumentando de 47% para 77% na média e de 49% para 77% na mediana, comparado ao sistema de rotação simples. Casos específicos evidenciaram ganhos ainda mais expressivos, como o rob ô 15 que passou de 15% para 85% de acertos. O sistema demonstrou adaptabilidade dinâmica, reduzindo a necessidade de intervenção manual e garantindo continuidade operacional em aplicações de web scraping em larga escala.

Palavras-chave: Web Scraping; Proxy Rotation; Bayesian Modeling; Data Collection; Thompson Sampling.

Páginas: 8

Código DOI: 10.21528/CBIC2025-1175545

Artigo em PDF: CBIC_2025_paper1175545.pdf

Arquivo BibTeX:
CBIC_2025_1175545.bib