Scrapingbee
Visão geral
Seção intitulada “Visão geral”ScrapingBee é uma API de web scraping que gerencia headless browsers e rotação de proxies, permitindo que desenvolvedores extraiam HTML de qualquer site com uma única chamada de API. Com a integração ScrapingBee no SquadOS, seus agentes podem raspar páginas, extrair dados estruturados e contornar proteções anti-bot de forma simples e confiável.
- Site oficial: https://www.scrapingbee.com/
- Documentação na Composio: docs.composio.dev/toolkits/scrapingbee
Autenticação
Seção intitulada “Autenticação”Esta ferramenta utiliza chave de API (API_KEY) para conectar.
Você vai precisar dos seguintes campos:
| Campo | Obrigatório | Descrição |
|---|---|---|
api_key | Sim | Chave de API privada da sua conta ScrapingBee, usada para autenticar todas as requisições. |
Como obter a credencial
Seção intitulada “Como obter a credencial”- Acesse dashboard.scrapingbee.com/account/register e crie uma conta.
- Confirme seu e-mail para ativar a conta.
- Faça login em dashboard.scrapingbee.com/account/login.
- Navegue até dashboard.scrapingbee.com/account/manage/api_key.
- Copie a chave de API exibida — esse é o valor a usar no campo
api_keyao conectar no SquadOS.
Como conectar no SquadOS
Seção intitulada “Como conectar no SquadOS”- Acesse Ferramentas no menu lateral (
/admin/tools). - Abra a aba Disponíveis e procure por
Scrapingbee. - Clique no card para abrir o modal de detalhes e em Conectar.
- Você é levado para a página de conexão segura hospedada pela Composio, onde informa a chave de API obtida acima.
- Ao concluir, você volta para o SquadOS com a conta conectada e a ferramenta disponível para os agentes. (Detalhes do fluxo em Ferramentas da Organização.)
Ações disponíveis
Seção intitulada “Ações disponíveis”Extração de dados estruturados
Seção intitulada “Extração de dados estruturados”SCRAPINGBEE_DATA_EXTRACTION
Extrai dados estruturados de uma página web usando seletores CSS ou XPath. Utiliza o recurso extract_rules do ScrapingBee.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | URL da página web da qual extrair os dados. |
wait | integer | Não | Segundos a aguardar antes da extração (para conteúdo dinâmico). |
device | string | Não | Tipo de dispositivo a emular (desktop ou mobile). |
api_key | string | Sim | Sua chave de API do ScrapingBee. |
extractor | object | Sim | Objeto JSON definindo os campos a extrair e seus seletores CSS/XPath. Para seletores aninhados, use objeto com as chaves selector e type (opcional). Seletores inválidos ou desalinhados descartam campos silenciosamente sem erro — verifique cada seletor no DOM alvo antes de uso em larga escala. |
javascript | boolean | Não | Se deve renderizar JavaScript antes da extração. |
country_code | string | Não | Código de país de duas letras para geolocalização do proxy (ex.: us, de). |
premium_proxy | boolean | Não | Usar proxy premium para maior confiabilidade. |
block_resources | boolean | Não | Bloquear imagens, CSS e outros recursos para acelerar a extração. |
forward_headers | object | Não | Cabeçalhos HTTP customizados a encaminhar ao site alvo. Forneça como dicionário (ex.: {'Accept-Language': 'en-US'}). Os cabeçalhos serão prefixados com Spb- antes de serem encaminhados. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Busca de HTML
Seção intitulada “Busca de HTML”SCRAPINGBEE_HTML_FETCH
Obtém o HTML ou captura de tela de uma página via API HTML do ScrapingBee. Use quando precisar do markup da página ou de uma imagem após renderização opcional de JavaScript e controle de recursos. Para sites com proteção anti-bot ou CAPTCHA (ex.: Cloudflare), combine render_js=true com premium_proxy=true ou stealth_proxy=true para evitar bloqueios.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | URL a raspar. |
wait | integer | Não | Milissegundos a aguardar antes de retornar o conteúdo. |
retry | integer | Não | Número de tentativas em caso de falha na requisição. |
device | string | Não | Tipo de dispositivo a emular (desktop ou mobile). |
cookies | string | Não | Cookies a enviar nas requisições (string de cabeçalho HTTP). |
wait_for | string | Não | Seletor CSS a aguardar antes de retornar o conteúdo. |
block_ads | boolean | Não | Bloquear anúncios e scripts de rastreamento. |
render_js | boolean | Não | Renderizar JavaScript antes de retornar o HTML. Necessário para páginas renderizadas no lado do cliente onde os dados dinâmicos estão ausentes no HTML bruto. |
js_snippet | string | Não | Trecho de JavaScript a executar antes de retornar o conteúdo. |
screenshot | boolean | Não | Retornar captura de tela como PNG codificado em base64. |
js_scenario | string | Não | Cenário JSON para ações customizadas no headless browser. |
country_code | string | Não | Código de país de duas letras para geolocalização (ex.: us). |
extract_rules | string | Não | Regras de extração (seletor CSS ou JSONPath). |
premium_proxy | boolean | Não | Usar proxy premium para raspagem. |
stealth_proxy | boolean | Não | Usar modo de proxy stealth (indetectável). |
block_resources | boolean | Não | Bloquear imagens e recursos CSS para acelerar a raspagem. |
screenshot_selector | string | Não | Seletor CSS do elemento a capturar. |
screenshot_full_page | boolean | Não | Capturar screenshot da página inteira em vez de apenas o viewport. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Modo proxy
Seção intitulada “Modo proxy”SCRAPINGBEE_SCRAPING_BEE_PROXY_MODE
Busca conteúdo web via Modo Proxy do ScrapingBee. Use quando precisar rotear requisições pelos proxies do ScrapingBee com renderização opcional de JavaScript e bloqueio de recursos.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | URL alvo a raspar pelo Modo Proxy do ScrapingBee. |
cookies | object | Não | Cookies a enviar com a requisição como mapeamento chave-valor. |
headers | object | Não | Cabeçalhos HTTP adicionais a encaminhar ao site alvo. Cada cabeçalho será prefixado com Spb- quando forward_headers estiver habilitado. |
timeout | integer | Não | Timeout da requisição em milissegundos. |
block_ads | boolean | Não | Bloquear anúncios e scripts de rastreamento para acelerar a raspagem. |
render_js | boolean | Não | Habilitar renderização de JavaScript antes de retornar o conteúdo. |
session_id | integer | Não | Identificador de sessão (inteiro) para manter o mesmo IP em múltiplas requisições. Use o mesmo número para garantir IP consistente entre requisições. |
js_scenario | string | Não | Nome do cenário JavaScript customizado para interações avançadas. |
country_code | string | Não | Código de país de duas letras para proxy geolocalizado (ex.: us, fr). |
premium_proxy | boolean | Não | Usar proxies premium para maior confiabilidade. |
stealth_proxy | boolean | Não | Usar modo de proxy stealth para maior indetectabilidade. |
block_resources | boolean | Não | Bloquear imagens e recursos CSS para acelerar a raspagem. Relevante apenas quando render_js estiver habilitado. |
forward_headers | boolean | Não | Encaminhar os cabeçalhos originais da requisição ao site alvo. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Proxy stealth
Seção intitulada “Proxy stealth”SCRAPINGBEE_STEALTH_PROXY
Executa raspagem furtiva via modo Stealth Proxy do ScrapingBee. Use quando encontrar medidas anti-bot que exigem requisições indetectáveis.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | URL da página a recuperar usando proxy stealth. |
wait | integer | Não | Tempo de espera em milissegundos antes de retornar a resposta. |
device | string | Não | Tipo de dispositivo a emular durante a renderização. Opções: desktop ou mobile. |
cookies | string | Não | Cookies customizados no formato separado por ponto-e-vírgula: nome1=valor1;nome2=valor2. |
js_render | boolean | Não | Renderizar JavaScript na página antes de retornar a resposta. |
country_code | string | Não | Código de país de duas letras para geolocalização do proxy (ex.: us, de). |
extract_rules | string | Não | Regras de extração em string JSON para dados estruturados. |
premium_proxy | boolean | Não | Usar proxies premium para maior confiabilidade. |
stealth_proxy | boolean | Não | Habilitar modo de proxy stealth. Use quando o site alvo bloqueia bots. |
block_resources | boolean | Não | Bloquear imagens, estilos e fontes para carregamento mais rápido. |
forward_headers | boolean | Não | Encaminhar os cabeçalhos originais da requisição do navegador. |
return_page_source | boolean | Não | Retornar o código-fonte bruto da página em vez do texto. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Estatísticas de uso
Seção intitulada “Estatísticas de uso”SCRAPINGBEE_USAGE_STATS
Recupera as estatísticas de uso da sua conta ScrapingBee. Use quando precisar monitorar créditos restantes e contagem de requisições.
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |