Multimodal (Anexos)

A aba Multimodal controla como o agente lida com anexos enviados pelo usuário — imagens, arquivos e áudios. Você decide se cada tipo é aceito nativamente, pré-processado por outro modelo ou bloqueado com uma mensagem amigável.

Aba Multimodal — card de Imagem

Quando habilitar

Habilite anexos quando o agente precisar:

ler prints, fotos de produtos, recibos ou diagramas (imagem);
analisar PDFs, planilhas, contratos ou outros documentos (arquivo);
transcrever mensagens de voz do WhatsApp ou similares (áudio).

Se o agente não precisa de nenhum desses, desligue — você evita custos e respostas confusas quando o usuário manda algo que o agente não usaria.

Modos disponíveis (imagem e arquivo)

Cada card tem três opções em rádio:

Aceitar nativamente: o anexo vai direto pro modelo do agente. Só funciona se o modelo escolhido em Modelo tiver suporte (a interface mostra um aviso “Modelo atual não suporta” quando não tem).
Pré-processar com outro modelo: um modelo auxiliar lê o anexo e injeta a descrição no contexto como texto. Custa uma chamada extra, mas permite usar modelos baratos como principal e ainda ter visão / leitura de arquivos. Você escolhe qual modelo usar no select abaixo.
Não aceitar: o anexo é rejeitado e o usuário recebe uma mensagem custom em português e inglês que você define.

A opção de pré-processamento é útil para economizar: você roda o agente principal em um modelo barato e usa um modelo com visão só para a descrição da imagem.

Áudio

O card de áudio é mais simples: liga ou desliga. Quando ligado, áudios são transcritos automaticamente com Whisper (OpenAI) e o texto chega ao agente como se fosse mensagem digitada. Custa cerca de 13 créditos por minuto transcrito.

Quando desligado, você define a mensagem que o usuário recebe ao mandar um áudio.

Formatos aceitos

Imagem: PNG, JPG, WEBP, GIF.
Arquivos: PDF (com OCR em modelos compatíveis), DOCX, XLSX, CSV, TXT e outros documentos comuns.
Áudio: formatos suportados pelo Whisper (MP3, M4A, OGG, WAV, etc.).

Limites de tamanho seguem o que cada modelo aceita — em geral, até alguns megabytes por anexo.

Recomendações

Se o modelo principal já suporta visão e arquivos, use Aceitar nativamente — é mais barato e mais rápido.
Se você quer rodar o agente em um modelo de baixo custo mas ainda precisa ler imagens, use Pré-processar.
Sempre escreva uma mensagem clara no modo desligado, explicando como o usuário pode reformular o pedido em texto.

Onde ajustar

Abra o agente em Agentes, clique em Multimodal na barra lateral, ajuste os três cards e clique em Salvar.