Pular para o conteúdo

Multimodal (Anexos)

A aba Multimodal controla como o agente lida com anexos enviados pelo usuário — imagens, arquivos e áudios. Você decide se cada tipo é aceito nativamente, pré-processado por outro modelo ou bloqueado com uma mensagem amigável.

Aba Multimodal — card de Imagem

Habilite anexos quando o agente precisar:

  • ler prints, fotos de produtos, recibos ou diagramas (imagem);
  • analisar PDFs, planilhas, contratos ou outros documentos (arquivo);
  • transcrever mensagens de voz do WhatsApp ou similares (áudio).

Se o agente não precisa de nenhum desses, desligue — você evita custos e respostas confusas quando o usuário manda algo que o agente não usaria.

Cada card tem três opções em rádio:

  • Aceitar nativamente: o anexo vai direto pro modelo do agente. Só funciona se o modelo escolhido em Modelo tiver suporte (a interface mostra um aviso “Modelo atual não suporta” quando não tem).
  • Pré-processar com outro modelo: um modelo auxiliar lê o anexo e injeta a descrição no contexto como texto. Custa uma chamada extra, mas permite usar modelos baratos como principal e ainda ter visão / leitura de arquivos. Você escolhe qual modelo usar no select abaixo.
  • Não aceitar: o anexo é rejeitado e o usuário recebe uma mensagem custom em português e inglês que você define.

A opção de pré-processamento é útil para economizar: você roda o agente principal em um modelo barato e usa um modelo com visão só para a descrição da imagem.

O card de áudio é mais simples: liga ou desliga. Quando ligado, áudios são transcritos automaticamente com Whisper (OpenAI) e o texto chega ao agente como se fosse mensagem digitada. Custa cerca de 13 créditos por minuto transcrito.

Quando desligado, você define a mensagem que o usuário recebe ao mandar um áudio.

  • Imagem: PNG, JPG, WEBP, GIF.
  • Arquivos: PDF (com OCR em modelos compatíveis), DOCX, XLSX, CSV, TXT e outros documentos comuns.
  • Áudio: formatos suportados pelo Whisper (MP3, M4A, OGG, WAV, etc.).

Limites de tamanho seguem o que cada modelo aceita — em geral, até alguns megabytes por anexo.

  • Se o modelo principal já suporta visão e arquivos, use Aceitar nativamente — é mais barato e mais rápido.
  • Se você quer rodar o agente em um modelo de baixo custo mas ainda precisa ler imagens, use Pré-processar.
  • Sempre escreva uma mensagem clara no modo desligado, explicando como o usuário pode reformular o pedido em texto.

Abra o agente em Agentes, clique em Multimodal na barra lateral, ajuste os três cards e clique em Salvar.