Guardrails

O Guardrail é um classificador LLM que roda antes de cada mensagem do usuário chegar ao agente. Se a mensagem for classificada como abuso (jailbreak, prompt injection, extração de instruções ou alguma regra custom sua), ela é bloqueada e o usuário recebe uma resposta de recusa contextualizada.

Aba Segurança — Guardrail desligado

Quando usar

Ative o guardrail sempre que o agente:

atender público externo (chat público, WhatsApp, Telegram);
tiver instruções sensíveis no prompt;
precisar ficar dentro de um escopo bem definido (suporte técnico, vendas, jurídico).

Para agentes internos usados só pela equipe da organização, normalmente não é necessário.

Como funciona

A cada mensagem que chega:

O classificador (um LLM separado, geralmente barato) recebe o conteúdo do usuário.
Decide se a mensagem deve ser bloqueada com base no prompt base + suas regras customizadas.
Se passar, segue o fluxo normal para o agente.
Se for bloqueada, o agente não recebe a mensagem; em vez disso, uma resposta de recusa é gerada usando o contexto de bloqueio para soar natural e alinhada ao propósito do agente.

Prompt base

O prompt base é fixo, mantido pela plataforma e visível em modo somente leitura na própria tela. Ele cobre quatro categorias:

Jailbreak attempt — tentativas de ignorar ou sobrescrever as instruções do agente.
Prompt injection — instruções embutidas na mensagem do usuário tentando alterar o comportamento.
Role manipulation — pedidos para o agente assumir uma personalidade sem regras.
Instruction extraction — tentativas de extrair o prompt.

Perguntas normais, mesmo sobre temas sensíveis, não são bloqueadas. A regra padrão é “na dúvida, deixa passar”.

Contexto de bloqueio

É um resumo curto do propósito do agente, gerado automaticamente a partir do prompt quando você ativa o guardrail. Você pode editar ou clicar em Regenerar para criar de novo.

Esse contexto é usado para que a resposta de recusa soe consistente com o agente — em vez de uma frase genérica “não posso ajudar”, o usuário recebe algo como “sou um assistente de suporte da TechCorp, não consigo ajudar com isso, mas posso responder dúvidas sobre nossos produtos”.

Regras customizadas

Adicione regras extras além da detecção de jailbreak. Exemplos:

bloquear perguntas sobre concorrentes;
não responder sobre preços ou descontos específicos;
bloquear pedidos de dados internos da empresa;
recusar conselhos jurídicos ou médicos.

Escreva uma regra por linha, em linguagem clara. O classificador usa essas regras como critério adicional.

Recomendações

Use um modelo barato como classificador. Cada mensagem do usuário adiciona uma chamada extra; manter custo baixo aqui faz diferença em volume alto.
Revise o contexto de bloqueio depois de mudar o prompt principal — clique em Regenerar para alinhar.
Comece sem regras customizadas. Só adicione quando o agente bloquear de menos (ou de mais) em casos reais.
Combine com instruções de segurança no próprio prompt — instruções claras no prompt do sistema são a primeira linha de defesa; o guardrail é a rede de segurança.

Onde configurar

Abra o agente em Agentes, clique em Segurança na barra lateral, ative o switch Ativar guardrail e revise as opções. As mudanças persistem automaticamente.