Pular para o conteúdo

Scrapingbee

Scrapingbee

ScrapingBee é uma API de web scraping que gerencia headless browsers e rotação de proxies, permitindo que desenvolvedores extraiam HTML de qualquer site com uma única chamada de API. Com a integração ScrapingBee no SquadOS, seus agentes podem raspar páginas, extrair dados estruturados e contornar proteções anti-bot de forma simples e confiável.

Esta ferramenta utiliza chave de API (API_KEY) para conectar.

Você vai precisar dos seguintes campos:

CampoObrigatórioDescrição
api_keySimChave de API privada da sua conta ScrapingBee, usada para autenticar todas as requisições.
  1. Acesse dashboard.scrapingbee.com/account/register e crie uma conta.
  2. Confirme seu e-mail para ativar a conta.
  3. Faça login em dashboard.scrapingbee.com/account/login.
  4. Navegue até dashboard.scrapingbee.com/account/manage/api_key.
  5. Copie a chave de API exibida — esse é o valor a usar no campo api_key ao conectar no SquadOS.
  1. Acesse Ferramentas no menu lateral (/admin/tools).
  2. Abra a aba Disponíveis e procure por Scrapingbee.
  3. Clique no card para abrir o modal de detalhes e em Conectar.
  4. Você é levado para a página de conexão segura hospedada pela Composio, onde informa a chave de API obtida acima.
  5. Ao concluir, você volta para o SquadOS com a conta conectada e a ferramenta disponível para os agentes. (Detalhes do fluxo em Ferramentas da Organização.)

SCRAPINGBEE_DATA_EXTRACTION

Extrai dados estruturados de uma página web usando seletores CSS ou XPath. Utiliza o recurso extract_rules do ScrapingBee.

NomeTipoObrigatórioDescrição
urlstringSimURL da página web da qual extrair os dados.
waitintegerNãoSegundos a aguardar antes da extração (para conteúdo dinâmico).
devicestringNãoTipo de dispositivo a emular (desktop ou mobile).
api_keystringSimSua chave de API do ScrapingBee.
extractorobjectSimObjeto JSON definindo os campos a extrair e seus seletores CSS/XPath. Para seletores aninhados, use objeto com as chaves selector e type (opcional). Seletores inválidos ou desalinhados descartam campos silenciosamente sem erro — verifique cada seletor no DOM alvo antes de uso em larga escala.
javascriptbooleanNãoSe deve renderizar JavaScript antes da extração.
country_codestringNãoCódigo de país de duas letras para geolocalização do proxy (ex.: us, de).
premium_proxybooleanNãoUsar proxy premium para maior confiabilidade.
block_resourcesbooleanNãoBloquear imagens, CSS e outros recursos para acelerar a extração.
forward_headersobjectNãoCabeçalhos HTTP customizados a encaminhar ao site alvo. Forneça como dicionário (ex.: {'Accept-Language': 'en-US'}). Os cabeçalhos serão prefixados com Spb- antes de serem encaminhados.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

SCRAPINGBEE_HTML_FETCH

Obtém o HTML ou captura de tela de uma página via API HTML do ScrapingBee. Use quando precisar do markup da página ou de uma imagem após renderização opcional de JavaScript e controle de recursos. Para sites com proteção anti-bot ou CAPTCHA (ex.: Cloudflare), combine render_js=true com premium_proxy=true ou stealth_proxy=true para evitar bloqueios.

NomeTipoObrigatórioDescrição
urlstringSimURL a raspar.
waitintegerNãoMilissegundos a aguardar antes de retornar o conteúdo.
retryintegerNãoNúmero de tentativas em caso de falha na requisição.
devicestringNãoTipo de dispositivo a emular (desktop ou mobile).
cookiesstringNãoCookies a enviar nas requisições (string de cabeçalho HTTP).
wait_forstringNãoSeletor CSS a aguardar antes de retornar o conteúdo.
block_adsbooleanNãoBloquear anúncios e scripts de rastreamento.
render_jsbooleanNãoRenderizar JavaScript antes de retornar o HTML. Necessário para páginas renderizadas no lado do cliente onde os dados dinâmicos estão ausentes no HTML bruto.
js_snippetstringNãoTrecho de JavaScript a executar antes de retornar o conteúdo.
screenshotbooleanNãoRetornar captura de tela como PNG codificado em base64.
js_scenariostringNãoCenário JSON para ações customizadas no headless browser.
country_codestringNãoCódigo de país de duas letras para geolocalização (ex.: us).
extract_rulesstringNãoRegras de extração (seletor CSS ou JSONPath).
premium_proxybooleanNãoUsar proxy premium para raspagem.
stealth_proxybooleanNãoUsar modo de proxy stealth (indetectável).
block_resourcesbooleanNãoBloquear imagens e recursos CSS para acelerar a raspagem.
screenshot_selectorstringNãoSeletor CSS do elemento a capturar.
screenshot_full_pagebooleanNãoCapturar screenshot da página inteira em vez de apenas o viewport.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

SCRAPINGBEE_SCRAPING_BEE_PROXY_MODE

Busca conteúdo web via Modo Proxy do ScrapingBee. Use quando precisar rotear requisições pelos proxies do ScrapingBee com renderização opcional de JavaScript e bloqueio de recursos.

NomeTipoObrigatórioDescrição
urlstringSimURL alvo a raspar pelo Modo Proxy do ScrapingBee.
cookiesobjectNãoCookies a enviar com a requisição como mapeamento chave-valor.
headersobjectNãoCabeçalhos HTTP adicionais a encaminhar ao site alvo. Cada cabeçalho será prefixado com Spb- quando forward_headers estiver habilitado.
timeoutintegerNãoTimeout da requisição em milissegundos.
block_adsbooleanNãoBloquear anúncios e scripts de rastreamento para acelerar a raspagem.
render_jsbooleanNãoHabilitar renderização de JavaScript antes de retornar o conteúdo.
session_idintegerNãoIdentificador de sessão (inteiro) para manter o mesmo IP em múltiplas requisições. Use o mesmo número para garantir IP consistente entre requisições.
js_scenariostringNãoNome do cenário JavaScript customizado para interações avançadas.
country_codestringNãoCódigo de país de duas letras para proxy geolocalizado (ex.: us, fr).
premium_proxybooleanNãoUsar proxies premium para maior confiabilidade.
stealth_proxybooleanNãoUsar modo de proxy stealth para maior indetectabilidade.
block_resourcesbooleanNãoBloquear imagens e recursos CSS para acelerar a raspagem. Relevante apenas quando render_js estiver habilitado.
forward_headersbooleanNãoEncaminhar os cabeçalhos originais da requisição ao site alvo.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

SCRAPINGBEE_STEALTH_PROXY

Executa raspagem furtiva via modo Stealth Proxy do ScrapingBee. Use quando encontrar medidas anti-bot que exigem requisições indetectáveis.

NomeTipoObrigatórioDescrição
urlstringSimURL da página a recuperar usando proxy stealth.
waitintegerNãoTempo de espera em milissegundos antes de retornar a resposta.
devicestringNãoTipo de dispositivo a emular durante a renderização. Opções: desktop ou mobile.
cookiesstringNãoCookies customizados no formato separado por ponto-e-vírgula: nome1=valor1;nome2=valor2.
js_renderbooleanNãoRenderizar JavaScript na página antes de retornar a resposta.
country_codestringNãoCódigo de país de duas letras para geolocalização do proxy (ex.: us, de).
extract_rulesstringNãoRegras de extração em string JSON para dados estruturados.
premium_proxybooleanNãoUsar proxies premium para maior confiabilidade.
stealth_proxybooleanNãoHabilitar modo de proxy stealth. Use quando o site alvo bloqueia bots.
block_resourcesbooleanNãoBloquear imagens, estilos e fontes para carregamento mais rápido.
forward_headersbooleanNãoEncaminhar os cabeçalhos originais da requisição do navegador.
return_page_sourcebooleanNãoRetornar o código-fonte bruto da página em vez do texto.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

SCRAPINGBEE_USAGE_STATS

Recupera as estatísticas de uso da sua conta ScrapingBee. Use quando precisar monitorar créditos restantes e contagem de requisições.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.