Pular para o conteúdo

Firecrawl

Firecrawl

O Firecrawl automatiza o rastreamento web e a extração de dados, permitindo que organizações coletem conteúdo, indexem sites e obtenham insights de fontes online em escala. Com a integração no SquadOS, seus agentes podem raspar páginas, iniciar crawls completos, extrair dados estruturados via LLM e realizar pesquisas profundas autônomas em múltiplas fontes da web.

Esta ferramenta utiliza chave de API (API_KEY) para conectar.

Você vai precisar dos seguintes campos:

CampoObrigatórioDescrição
api_keySimChave de API da sua conta Firecrawl, usada para autenticar todas as requisições.
  1. Acesse firecrawl.dev e crie uma conta ou faça login.
  2. No painel, navegue até a seção API Keys (ou Settings → API Keys).
  3. Clique em Create new key, dê um nome descritivo e copie o valor gerado.
  1. Acesse Ferramentas no menu lateral (/admin/tools).
  2. Abra a aba Disponíveis e procure por Firecrawl.
  3. Clique no card para abrir o modal de detalhes e em Conectar.
  4. Você é levado para a página de conexão segura hospedada pela Composio, onde informa a chave de API obtida acima.
  5. Ao concluir, você volta para o SquadOS com a conta conectada e a ferramenta disponível para os agentes. (Detalhes do fluxo em Ferramentas da Organização.)

FIRECRAWL_AGENT_CANCEL

Cancela um job de agente em andamento pelo seu ID. Use quando precisar encerrar uma operação de agente ativa. A API retorna um booleano de sucesso após o cancelamento.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de agente a cancelar.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_BATCH_SCRAPE

Raspa múltiplas URLs em lote com processamento concorrente. Use quando precisar raspar várias páginas web de forma eficiente com formatos de saída e filtragem de conteúdo personalizáveis.

NomeTipoObrigatórioDescrição
urlsarraySimAs URLs a serem raspadas em lote. Ao menos uma URL é obrigatória.
proxystringNãoTipo de proxy a usar nas requisições (basic, stealth ou auto).
maxAgeintegerNãoPeríodo de validade do cache em milissegundos. Padrão: 2 dias.
mobilebooleanNãoSe verdadeiro, emula um dispositivo móvel durante o scraping. Padrão: false.
actionsarrayNãoAções de browser a executar em cada página antes do scraping.
formatsarrayNãoFormatos de saída desejados para o conteúdo raspado. Padrão: ['markdown'].
headersobjectNãoCabeçalhos HTTP customizados a enviar com cada requisição.
timeoutintegerNãoTimeout da requisição em milissegundos.
waitForintegerNãoAtraso em milissegundos antes da recuperação do conteúdo. Útil para páginas com conteúdo dinâmico. Padrão: 0.
webhookobjectNãoConfiguração de webhook para notificações do lote.
blockAdsbooleanNãoSe verdadeiro, bloquear anúncios durante o scraping. Padrão: true.
locationobjectNãoConfigurações de localização para a requisição.
excludeTagsarrayNãoTags HTML a excluir especificamente da saída.
includeTagsarrayNãoTags HTML a incluir especificamente na saída.
storeInCachebooleanNãoSe verdadeiro, armazena o conteúdo raspado em cache para uso futuro. Padrão: true.
maxConcurrencyintegerNãoNúmero máximo de operações de scraping simultâneas.
onlyMainContentbooleanNãoSe verdadeiro, extrai apenas o conteúdo principal, excluindo cabeçalhos, rodapés, barras de navegação e anúncios. Padrão: true.
ignoreInvalidURLsbooleanNãoSe verdadeiro, ignora URLs inválidas em vez de falhar o lote inteiro. Padrão: true.
zeroDataRetentionbooleanNãoSe verdadeiro, não retém nenhum dado raspado. Padrão: false.
removeBase64ImagesbooleanNãoSe verdadeiro, remove imagens codificadas em base64 do conteúdo raspado. Padrão: true.
skipTlsVerificationbooleanNãoSe verdadeiro, ignora a verificação do certificado TLS. Padrão: true.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_BATCH_SCRAPE_CANCEL

Cancela um job de scraping em lote em execução usando seu identificador único. Use quando precisar encerrar uma operação de scraping em lote em andamento.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de scraping em lote a cancelar.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_BATCH_SCRAPE_GET

Recupera o status atual e os resultados de um job de scraping em lote usando o ID do job. Use para verificar o progresso e recuperar os dados raspados.

NomeTipoObrigatórioDescrição
idstringSimID do job de scraping em lote. Deve ser um UUID válido obtido quando o lote foi iniciado.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_BATCH_SCRAPE_GET_ERRORS

Recupera detalhes de erros de um job de scraping em lote, incluindo URLs com falha e URLs bloqueadas pelo robots.txt. Use quando precisar depurar ou entender por que certas páginas falharam no lote.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de scraping em lote.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL

Inicia um rastreamento web do Firecrawl a partir de uma URL fornecida, aplicando diversas regras de filtragem e extração de conteúdo, e aguarda até a conclusão do job. Certifique-se de que a URL é acessível e que os padrões regex de caminhos são válidos.

NomeTipoObrigatórioDescrição
urlstringSimA URL base a partir da qual iniciar o rastreamento. Este é o ponto de entrada inicial para o crawler.
delayintegerNãoAtraso em milissegundos entre requisições para evitar sobrecarregar o servidor.
limitintegerNãoNúmero máximo de páginas a rastrear. O rastreamento para ao atingir esse limite. Padrão: 10.
webhookstringNãoURL de webhook opcional para receber atualizações em tempo real sobre o job. Os eventos incluem início (crawl.started), página rastreada (crawl.page) e conclusão (crawl.completed ou crawl.failed).
maxDepthintegerNãoProfundidade máxima de subpáginas a rastrear em relação à URL informada. Profundidade 0 rastreia apenas a URL fornecida; 1 adiciona páginas um nível mais profundo, e assim por diante.
excludePathsarrayNãoLista de padrões regex para caminhos de URL a excluir do rastreamento. URLs cujos caminhos correspondam a algum desses padrões serão ignoradas.
includePathsarrayNãoLista de padrões regex para caminhos de URL a incluir no rastreamento. Somente URLs cujos caminhos correspondam a um desses padrões serão processadas.
ignoreSitemapbooleanNãoSe verdadeiro, o crawler ignora qualquer sitemap.xml encontrado no site.
crawlEntireDomainbooleanNãoSe verdadeiro, permite ao crawler seguir links internos para URLs irmãs ou pai, não apenas caminhos filhos. Substitui allowBackwardLinks.
maxDiscoveryDepthintegerNãoProfundidade máxima a rastrear com base na ordem de descoberta. O site raiz e páginas do sitemap têm profundidade 0.
allowBackwardLinksbooleanNãoDESCONTINUADO: use crawlEntireDomain. Se verdadeiro, permite ao crawler navegar para páginas já visitadas (navegação “para trás”).
allowExternalLinksbooleanNãoSe verdadeiro, permite ao crawler seguir links para sites externos (domínios diferentes).
scrapeOptionsProxystringNãoConfiguração de proxy para as requisições.
scrapeOptionsMaxAgeintegerNãoIdade máxima em segundos para conteúdo em cache. Se mais antigo, será re-raspado.
scrapeOptionsMobilebooleanNãoSe verdadeiro, emula dispositivo móvel durante o scraping.
scrapeOptionsActionsarrayNãoLista de ações a executar em cada página antes do scraping (ex: cliques, esperas).
scrapeOptionsFormatsarrayNãoFormatos de saída desejados para o conteúdo raspado de cada página. Padrão: ["markdown"]. IMPORTANTE: se "json" for incluído, scrapeOptionsJsonOptions também deve ser fornecido.
scrapeOptionsHeadersobjectNãoCabeçalhos HTTP customizados a enviar com cada requisição.
scrapeOptionsTimeoutintegerNãoTimeout em milissegundos para cada requisição de página. Padrão: 30000 ms.
scrapeOptionsWaitForintegerNãoMilissegundos adicionais a aguardar após a espera inteligente do Firecrawl, antes de raspar a página.
ignoreQueryParametersbooleanNãoSe verdadeiro, ignora parâmetros de query ao determinar se uma URL já foi visitada.
scrapeOptionsBlockAdsbooleanNãoSe verdadeiro, bloqueia anúncios durante o scraping.
scrapeOptionsLocationobjectNãoConfigurações de geolocalização para o scraper.
scrapeOptionsParsePDFbooleanNãoSe verdadeiro, tenta analisar arquivos PDF encontrados durante o rastreamento.
scrapeOptionsExcludeTagsarrayNãoLista de tags HTML a excluir da saída raspada. O conteúdo dentro dessas tags será removido antes do processamento.
scrapeOptionsIncludeTagsarrayNãoLista de tags HTML a incluir especificamente na saída raspada. Se vazia ou nula, todo conteúdo relevante é considerado.
scrapeOptionsJsonOptionsobjectNãoOpções para extração em formato JSON, incluindo schema e prompts. OBRIGATÓRIO quando "json" for especificado em scrapeOptionsFormats.
scrapeOptionsStoreInCachebooleanNãoSe verdadeiro, armazena o conteúdo raspado em cache para uso futuro.
scrapeOptionsOnlyMainContentbooleanNãoSe verdadeiro, extrai apenas o conteúdo principal de cada página, excluindo cabeçalhos, barras de navegação e rodapés. Padrão: true.
scrapeOptionsRemoveBase64ImagesbooleanNãoSe verdadeiro, remove imagens codificadas em base64 do conteúdo raspado.
scrapeOptionsSkipTlsVerificationbooleanNãoSe verdadeiro, ignora a verificação do certificado TLS.
scrapeOptionsChangeTrackingOptionsobjectNãoOpções para rastrear alterações entre rastreamentos.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_CANCEL

Cancela um job de rastreamento web ativo ou na fila usando seu ID. Tentar cancelar jobs concluídos, com falha ou já cancelados não altera o estado deles.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de crawl a cancelar.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_DELETE

Cancela um job de crawl em execução pelo seu ID. Use quando precisar encerrar uma operação de rastreamento ativa. A API retorna o status cancelled após o cancelamento bem-sucedido.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de crawl a cancelar.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_GET

Recupera o status e os resultados de um job de crawl do Firecrawl. Use quando precisar verificar o progresso ou obter dados de uma operação de rastreamento em andamento ou concluída. Retorna status do crawl, métricas de progresso, créditos usados e os dados das páginas rastreadas.

NomeTipoObrigatórioDescrição
idstringSimO ID do job de crawl para verificar o status. É o UUID retornado quando o crawl foi iniciado.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_GET_ERRORS

Recupera erros de um job de crawl do Firecrawl. Use quando precisar entender por que certas páginas falharam ou quais URLs foram bloqueadas pelo robots.txt durante o rastreamento.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de crawl do qual recuperar os erros.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_LIST_ACTIVE

Recupera todos os jobs de crawl ativos do time autenticado. Use quando precisar ver quais operações de rastreamento estão em execução no momento.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_PARAMS_PREVIEW

Pré-visualiza os parâmetros de crawl antes de iniciar um rastreamento, gerando a configuração ideal a partir de instruções em linguagem natural. Use para entender quais configurações serão aplicadas com base nos seus requisitos antes de executar um crawl completo. O endpoint interpreta inteligentemente prompts em linguagem natural para configurar parâmetros como caminhos de inclusão/exclusão, limites de profundidade e escopo de domínio.

NomeTipoObrigatórioDescrição
urlstringSimO endereço do site a ser rastreado. Esta é a URL alvo para a qual os parâmetros de crawl serão gerados.
promptstringSimDescrição em linguagem natural dos requisitos de rastreamento (máx. 10.000 caracteres). Descreva quais páginas rastrear, o que incluir ou excluir e qualquer comportamento específico necessário.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CRAWL_V2

[API v2 NOVA] Inicia um crawl v2 do Firecrawl com recursos aprimorados em relação à v1: prompts em linguagem natural para configuração automática do crawler, crawlEntireDomain para descoberta de páginas irmãs/pai, melhor controle de profundidade com maxDiscoveryDepth, suporte a subdomínios e configuração completa de webhook. Aguarda até a conclusão do crawl.

NomeTipoObrigatórioDescrição
urlstringSimA URL base para iniciar o rastreamento. Este é o ponto de entrada inicial para o crawler.
delayintegerNãoAtraso em segundos entre raspagens para respeitar os limites de taxa do site.
limitintegerNãoNúmero máximo de páginas a rastrear. Padrão: 10.
promptstringNãoPrompt em linguagem natural para gerar automaticamente as configurações do crawler. Parâmetros explicitamente definidos sobrescrevem os gerados.
sitemapstringNãoModo de sitemap: include (padrão) usa sitemap e descobre outras páginas; skip ignora sitemap; only rastreia exclusivamente URLs do sitemap.
webhookobjectNãoConfiguração de webhook para receber atualizações em tempo real do crawl.
excludePathsarrayNãoLista de padrões regex para caminhos de URL a excluir do rastreamento.
includePathsarrayNãoLista de padrões regex para caminhos de URL a incluir no rastreamento.
maxConcurrencyintegerNãoNúmero máximo de raspagens simultâneas. Se não especificado, usa o limite de concorrência do time.
allowSubdomainsbooleanNãoSe verdadeiro, permite ao crawler seguir links para subdomínios do domínio principal.
crawlEntireDomainbooleanNãoPermite ao crawler seguir links internos para URLs irmãs e pai, não apenas caminhos filhos.
maxDiscoveryDepthintegerNãoProfundidade máxima de rastreamento com base na ordem de descoberta. O site raiz e páginas do sitemap têm profundidade 0.
zeroDataRetentionbooleanNãoSe verdadeiro, habilita retenção zero de dados para este crawl. Contate help@firecrawl.dev para habilitar.
allowExternalLinksbooleanNãoSe verdadeiro, permite ao crawler seguir links para sites externos. Padrão: false.
scrapeOptions_proxystringNãoConfiguração de proxy para as requisições.
scrapeOptions_maxAgeintegerNãoIdade máxima em milissegundos para conteúdo em cache. Se mais antigo, será re-raspado.
scrapeOptions_mobilebooleanNãoSe verdadeiro, emula dispositivo móvel durante o scraping.
ignoreQueryParametersbooleanNãoSe verdadeiro, não re-raspa o mesmo caminho com parâmetros de query diferentes (ou sem parâmetros).
scrapeOptions_actionsarrayNãoLista de ações a executar em cada página antes do scraping (ex: cliques, esperas).
scrapeOptions_formatsarrayNãoFormatos de saída desejados para o conteúdo raspado de cada página. Para extração JSON, use um objeto JsonFormatOptions com type="json", schema opcional e prompt opcional.
scrapeOptions_headersobjectNãoCabeçalhos HTTP customizados a enviar com cada requisição.
scrapeOptions_parsersarrayNãoLista de parsers a usar para tipos de conteúdo específicos (ex: pdf).
scrapeOptions_timeoutintegerNãoTimeout em milissegundos para cada requisição de página. Padrão: 30000 ms.
scrapeOptions_waitForintegerNãoDuração em milissegundos a aguardar para que o JavaScript da página execute e o conteúdo carregue antes do scraping.
scrapeOptions_blockAdsbooleanNãoSe verdadeiro, bloqueia anúncios durante o scraping.
scrapeOptions_locationobjectNãoConfigurações de geolocalização para o scraper.
scrapeOptions_excludeTagsarrayNãoLista de tags HTML a excluir da saída raspada.
scrapeOptions_includeTagsarrayNãoLista de tags HTML a incluir especificamente na saída raspada.
scrapeOptions_storeInCachebooleanNãoSe verdadeiro, armazena o conteúdo raspado em cache para uso futuro.
scrapeOptions_onlyMainContentbooleanNãoSe verdadeiro, extrai apenas o conteúdo principal de cada página. Padrão: true.
scrapeOptions_removeBase64ImagesbooleanNãoSe verdadeiro, remove imagens codificadas em base64 do conteúdo raspado.
scrapeOptions_skipTlsVerificationbooleanNãoSe verdadeiro, ignora a verificação do certificado TLS.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CREDIT_USAGE_GET

Obtém informações sobre o uso atual de créditos do time. Use quando precisar verificar créditos restantes ou detalhes do período de cobrança.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_CREDIT_USAGE_GET_HISTORICAL

Recupera o histórico de uso de créditos do time em base mensal. Use quando precisar analisar padrões de consumo de créditos ao longo do tempo, opcionalmente segmentado por chave de API.

NomeTipoObrigatórioDescrição
byApiKeybooleanNãoQuando habilitado, detalha o uso por chave de API individual. Padrão: false.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_DEEP_RESEARCH

Inicia uma operação de pesquisa profunda com IA que explora autonomamente a web para investigar qualquer tópico e sintetiza conclusões de múltiplas fontes. Requer uma conexão ativa com o Firecrawl. O processo de pesquisa itera sobre buscas, análises e síntese de informações em múltiplas fontes web, fornecendo insights abrangentes com citações. Os resultados incluem análise final, linha do tempo detalhada de atividades e lista de fontes selecionadas. Cobrança: 1 crédito por URL analisada. Controle custos com o parâmetro maxUrls. Nota: Esta API está em Alpha e será descontinuada após 30 de junho de 2025; prefira FIRECRAWL_SEARCH + FIRECRAWL_EXTRACT ou COMPOSIO_SEARCH_WEB para fluxos duráveis.

NomeTipoObrigatórioDescrição
querystringSimA pergunta ou tópico de pesquisa a investigar. Forneça uma pergunta ou tópico claro e específico para melhores resultados.
formatsarrayNãoLista de formatos de saída. Defina como ["json"] para obter saída JSON estruturada. Ao usar "json", também forneça jsonOptions.
maxUrlsintegerNãoNúmero máximo de URLs a analisar durante a pesquisa. Intervalo: 1–1000. Padrão: 20. Valores maiores fornecem resultados mais abrangentes, mas consomem mais créditos (1 crédito por URL).
maxDepthintegerNãoControla quantas iterações o processo de pesquisa percorre. Intervalo: 1–10. Padrão: 7. Maior profundidade = pesquisa mais completa, mas maior tempo de processamento.
timeLimitintegerNãoLimite de tempo para o job de pesquisa em segundos. Intervalo: 30–300 segundos. Padrão: 270. A pesquisa para ao atingir esse limite.
jsonOptionsobjectNãoConfiguração para saída JSON estruturada. Deve conter "schema" (um JSON Schema válido) ou "prompt" (uma string).
systemPromptstringNãoPrompt de sistema customizado para guiar o processo de exploração do agente de pesquisa.
analysisPromptstringNãoPrompt customizado para guiar a geração da síntese e análise final.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_EXTRACT

Extrai dados estruturados de páginas web iniciando um job de extração e aguardando a conclusão. Requer um prompt em linguagem natural ou um schema JSON (pelo menos um deve ser fornecido).

NomeTipoObrigatórioDescrição
urlsarraySimLista de URLs das quais extrair dados (máximo 10 URLs na versão beta). Curingas (ex: https://example.com/blog/*) podem ser usados para rastrear múltiplas páginas sob um caminho específico.
promptstringNãoConsulta em linguagem natural para as informações a extrair do conteúdo das URLs. Pelo menos um de prompt ou schema deve ser fornecido.
schemaobjectNãoObjeto JSON definindo a estrutura desejada para os dados extraídos. Deve ser um JSON Schema válido com propriedades e tipos. Pelo menos um de prompt ou schema deve ser fornecido.
showSourcesbooleanNãoQuando verdadeiro, as fontes usadas para extração serão incluídas na resposta na chave sources.
ignoreSitemapbooleanNãoIgnora o sitemap.xml durante a varredura.
scrapeOptionsobjectNãoConfiguração avançada de scraping.
enableWebSearchbooleanNãoSe verdadeiro, permite rastrear links fora dos domínios iniciais em urls; se falso, restringe aos mesmos domínios.
ignoreInvalidURLsbooleanNãoProssegue com URLs válidas, retornando as inválidas separadamente.
includeSubdomainsbooleanNãoEstende a varredura para subdomínios.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_EXTRACT_GET

Recupera o status e os resultados de um job de extração enviado anteriormente. Use quando precisar verificar o progresso ou obter os resultados finais de uma operação de extração.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (formato UUID) do job de extração a recuperar.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_GET_AGENT_STATUS

Obtém o status e os resultados de um job de agente. Use quando precisar verificar se um job de agente foi concluído e recuperar os dados coletados. Os jobs de agente buscam, navegam e extraem dados da web de forma autônoma.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de agente.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_GET_DEEP_RESEARCH_STATUS

Recupera o status e os resultados de um job de pesquisa profunda pelo seu ID. Use quando precisar verificar o progresso ou obter a análise final de uma operação de pesquisa profunda.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de pesquisa profunda. Deve ser o UUID retornado por FIRECRAWL_DEEP_RESEARCH; UUIDs arbitrários não são válidos.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_GET_THE_STATUS_OF_A_CRAWL_JOB

Recupera o status atual, o progresso e os detalhes de um job de rastreamento web, usando o ID do job obtido quando o crawl foi iniciado.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de crawl.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_LLMS_TXT_GENERATE

Inicia um job assíncrono para gerar um arquivo LLMs.txt para um site, convertendo conteúdo web em formato amigável para LLMs. Retorna um ID de job para verificar o status e recuperar os resultados. Use quando precisar criar uma representação padronizada e legível por máquina do conteúdo de um site para modelos de linguagem.

NomeTipoObrigatórioDescrição
urlstringSimA URL para gerar o LLMs.txt. Deve ser um URI válido.
maxUrlsintegerNãoNúmero máximo de URLs a analisar ao gerar o arquivo LLMs.txt. Deve estar entre 1 e 100. Padrão: 10.
showFullTextbooleanNãoInclui o conteúdo de texto completo na resposta. Quando verdadeiro, gera tanto llmstxt quanto llmsfulltxt. Padrão: false.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_LLMS_TXT_GET

Obtém o status e os resultados de um job de geração de LLMs.txt. Use quando precisar verificar se o job foi concluído e recuperar o conteúdo gerado.

NomeTipoObrigatórioDescrição
idstringSimIdentificador único (UUID) do job de geração de LLMs.txt.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_MAP_MULTIPLE_URLS_BASED_ON_OPTIONS

Mapeia um site descobrindo URLs a partir de uma URL base, com opções para personalizar o rastreamento via consulta de busca, inclusão de subdomínios, tratamento de sitemap e limites de resultados. A efetividade da busca depende do site.

NomeTipoObrigatórioDescrição
urlstringSimA URL inicial do site a mapear e descobrir links. Deve ser uma URL HTTP/HTTPS válida (ex: https://example.com). Não passe trechos de código, exemplos de SDK ou qualquer coisa que não seja uma URL simples.
limitintegerNãoNúmero máximo de links a retornar. Padrão: 5000. Máximo: 100000.
searchstringNãoConsulta de busca opcional para guiar o mapeamento de URLs, priorizando ou encontrando tipos específicos de páginas.
sitemapstringNãoModo de tratamento do sitemap: skip para excluir sitemaps, include para usar sitemaps com outros métodos de descoberta (comportamento padrão) ou only para retornar apenas URLs do sitemap.
timeoutintegerNãoTimeout em milissegundos. Sem timeout por padrão.
locationobjectNãoConfigurações geográficas para processamento de requisições por localização. Objeto com country (código ISO 3166-1 alpha-2, ex: US, DE, JP) e opcionalmente languages (array de códigos de idioma).
ignoreCachebooleanNãoSe verdadeiro, ignora dados de sitemap em cache. Útil quando sitemaps foram atualizados recentemente. Dados de sitemap são armazenados em cache por até 7 dias. Padrão: false.
includeSubdomainsbooleanNãoSe verdadeiro, inclui subdomínios da URL base no mapeamento. Padrão: true.
ignoreQueryParametersbooleanNãoSe verdadeiro, exclui URLs com parâmetros de query dos resultados. Padrão: true.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_QUEUE_GET

Recupera métricas sobre a fila de scraping do time. Use quando precisar verificar o status da fila, contagem de jobs ou limites de concorrência.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_SCRAPE

Raspa uma URL publicamente acessível, opcionalmente executando ações no browser antes da raspagem ou extraindo JSON estruturado usando um LLM, para recuperar conteúdo nos formatos especificados.

NomeTipoObrigatórioDescrição
urlstringSimA URL completa da página web a raspar. Deve começar com http:// ou https:// e ser uma URL web válida.
actionsarrayNãoLista opcional de ações no browser (ex: clicar, escrever, aguardar, pressionar tecla) a executar na página antes da raspagem. Útil para interagir com conteúdo dinâmico, preencher formulários ou navegar por elementos.
formatsarrayNãoLista de formatos de saída desejados para o conteúdo raspado. Padrão: ['markdown']. Não pode incluir screenshot e screenshot@fullPage simultaneamente. Se json for incluído, jsonOptions deve ser fornecido.
timeoutintegerNãoTempo máximo em milissegundos para aguardar a conclusão da requisição. Padrão: 30000.
waitForintegerNãoTempo em milissegundos a aguardar para que a página carregue ou o conteúdo dinâmico renderize antes de iniciar a raspagem. Padrão: 0.
locationobjectNãoConfigurações de localização para a requisição.
excludeTagsarrayNãoLista de tags HTML a excluir especificamente da saída. O conteúdo dentro dessas tags será removido.
includeTagsarrayNãoLista de tags HTML a incluir especificamente na saída. O conteúdo dentro dessas tags será priorizado.
jsonOptionsobjectNãoOpções para extração JSON.
onlyMainContentbooleanNãoSe verdadeiro, extrai apenas o conteúdo principal do artigo, excluindo cabeçalhos, rodapés, barras de navegação e anúncios. Padrão: true.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_SEARCH

Realiza uma busca na web por uma consulta, raspa o conteúdo dos principais resultados de busca usando o Firecrawl e retorna detalhes nos formatos especificados.

NomeTipoObrigatórioDescrição
qstringSimA consulta de busca a executar. Pode ser fornecida como query ou q.
langstringNãoCódigo de idioma para os resultados de busca (ex: en para inglês). Padrão: en.
limitintegerNãoNúmero máximo de resultados de busca a retornar (1–100). Padrão: 5.
countrystringNãoCódigo de país para personalizar os resultados (ex: us para Estados Unidos). Padrão: us.
formatsarrayNãoFormatos de saída desejados para o conteúdo raspado de cada resultado. Formatos de string disponíveis: markdown, html, rawHtml, links. Para capturas de tela, use formato objeto: {'type': 'screenshot', 'fullPage': true/false, 'quality': 1-100}.
timeoutintegerNãoTempo máximo em milissegundos para operações de busca e scraping (1000–300000). Padrão: 60000.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_START_AGENT

Inicia um job de agente para extração web agêntica com capacidades de navegação e interação em múltiplas páginas. Use quando precisar coletar dados da web de forma autônoma com requisitos complexos de navegação. O agente pode buscar, navegar e extrair informações em múltiplas páginas com base no seu prompt em linguagem natural.

NomeTipoObrigatórioDescrição
urlsarrayNãoURLs específicas para restringir a busca do agente. Se fornecidas, o agente começa por elas. Se não fornecidas, o agente busca autonomamente na web.
promptstringSimDescrição em linguagem natural dos dados que você deseja extrair. O agente navega e interage autonomamente com páginas web para coletar essas informações.
schemaobjectNãoJSON Schema definindo a estrutura dos dados que você deseja retornar. Deve ser um JSON Schema válido com propriedades e tipos.
maxCreditsintegerNãoCréditos máximos a gastar na requisição. O agente para ao atingir esse limite, prevenindo custos inesperados. Se não especificado, continua até a conclusão da tarefa.
strictConstrainToURLsbooleanNãoSe verdadeiro, restringe estritamente o agente apenas às URLs fornecidas e não navegará para links externos.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_TOKEN_USAGE_GET

Recupera informações sobre o uso atual de tokens e saldo do time para o recurso Extract do Firecrawl. Use quando precisar verificar créditos de tokens restantes, alocação do plano ou detalhes do período de cobrança.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

FIRECRAWL_TOKEN_USAGE_GET_HISTORICAL

Recupera o histórico de uso de tokens do time em base mensal. Use quando precisar analisar padrões de consumo de tokens ao longo do tempo, opcionalmente segmentado por chave de API.

NomeTipoObrigatórioDescrição
byApiKeybooleanNãoQuando habilitado, detalha o uso por chave de API individual. Padrão: false.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.