LLM Manager — WhatsApp Agent

Carregando...

⏳

Carregando providers...

Buscando configurações da API

Embedding para RAG

Escolha o provedor que gera os vetores semânticos usados na busca por similaridade.

Carregando...

Padrão

Gemini

gemini-embedding-001

Grátis Recomendado

API do Google. 1.500 req/min no plano gratuito. Requer Gemini API Key.

Dims: 1536 500x mais generoso

Modelo Atual

gemini-embedding-001 único modelo

API Key

···· (Compartilhada com Gemini)

GEMINI_API_KEY ✓ lida do .env

Padrão

OpenAI

text-embedding-3-small

Pago por uso

Alta precisão semântica. Apenas 3 req/min grátis. ~$0.02/1M tokens.

Dims: 1536 $ Por uso

Modelo Atual

text-embedding-3-small em uso

Selecionar Modelo

API Key

···· (Compartilhada com OpenAI)

OPENAI_API_KEY ✓ lida do .env

Padrão

Ollama

nomic-embed-text

100% Local Grátis

Roda totalmente local. Sem custo, sem limite. Requer Docker Ollama ativo.

Dims: 768 ∞ Ilimitado

Modelo Ollama

URL Ollama

No Docker? Use http://host.docker.internal:11434

API Key

Não necessária — rodando local

Transcription (Áudio → Texto)

Provider usado para transcrever áudios do WhatsApp antes de enviar ao LLM principal.

OpenAI Whisper

Padrão

OpenAI Whisper

whisper-1

Pago Principal atual

Melhor qualidade — 99 idiomas incluindo PT-BR. ~$0.006/min.

Modelos: whisper-1

Modelo Atual

whisper-1 único modelo

API Key

···· (Compartilhada com OpenAI)

OPENAI_API_KEY ✓ lida do .env

Padrão

Groq Whisper

whisper-large-v3-turbo

Grátis Fallback atual

Gratuito com rate limit. Quase igual ao Whisper-1 em qualidade. Ótimo fallback.

Modelos: whisper-large-v3-turbo · whisper-large-v3 · distil-whisper-large-v3-en

Modelo Atual

whisper-large-v3-turbo em uso

Selecionar Modelo

API Key

···· (Compartilhada com Groq)

GROQ_API_KEY ✓ lida do .env

Vision (Imagem → Texto)

Provider usado para interpretar imagens recebidas no WhatsApp antes de enviar ao LLM principal.

OpenAI Vision

Padrão

OpenAI Vision

gpt-4o

Pago Principal atual

Melhor qualidade de análise visual. gpt-4o-mini é opção mais econômica.

Modelos: gpt-4o · gpt-4o-mini

Modelo Atual

gpt-4o em uso

Selecionar Modelo

API Key

···· (Compartilhada com OpenAI)

OPENAI_API_KEY ✓ lida do .env

Padrão

Google Gemini Vision

gemini-1.5-flash

Tier Grátis Fallback atual

Tier gratuito disponível. Suporta JPEG, PNG, WEBP e PDF. Ótimo fallback.

Modelos: gemini-1.5-flash · gemini-1.5-pro · gemini-2.0-flash

Modelo Atual

gemini-1.5-flash em uso

Selecionar Modelo

API Key

···· (Compartilhada com Gemini)

GEMINI_API_KEY ✓ lida do .env

—

🔌

Configurações do Supabase [Desconectado]

URL do Projeto Supabase

Service Role Key (anon ou service_role)

Deixe em branco para manter a chave atual.

Top K (resultados)

Threshold de Similaridade

Busca Híbrida (FTS + vetorial)

Gerenciamento de API Keys por Provedor

Adicione chaves e ative a rotação separadamente para cada inteligência artificial.

OpenAI

Rodízio

sk-proj-...8k2

API Key em Uso (.env) carregando...

Anthropic Claude

Rodízio

Nenhuma chave agrupada salva.

API Key em Uso (.env) carregando...

Google Gemini

Rodízio

AIzaSyB...d93k

AIzaMyK...l1aP

API Key em Uso (.env) carregando...

OpenRouter

Rodízio

Nenhuma chave selecionada.

API Key em Uso (.env) carregando...

Ollama (Local)

Apenas Base URL, sem chaves.

URL Base em Uso (.env) http://localhost:11434

Mistral AI

Rodízio

Nenhuma chave adicionada.

Cohere

Rodízio

Nenhuma chave adicionada.

Groq

Rodízio

Nenhuma chave adicionada.

API Key em Uso (.env) carregando...

Tavily (Search)

Nenhuma chave adicionada.

API Key em Uso (.env) carregando...

Supabase (PgVector RAG)

URL do Servidor em Uso https://imroaawirek...pe.co

Chave em Uso eyJhbGc...SM

Nova URL do banco

Nova Chave Mestra

—

Novo Documento

Tag / Namespace (identificador da gaveta)

Use esta mesma tag na configuração do Assistente.

📄

Clique para carregar

PDF, DOCX, MD, HTML ou TXT

Arquivos na Nuvem (Supabase)

Abrir Supabase

Carregando arquivos...

—

01/11/2024 – 18/11/2024

Pendentes antes

Atendimentos
do período anterior

Novos

482

Atendimentos
novos

Concluídos

461

Atendimentos
concluídos

Pendentes após

Atendimentos
do período

Capacidade de atendimento

Número de atendimentos novos x concluídos

Novos ⓘ

482 média 26,8/dia

Concluídos ⓘ

461 média 25,6/dia

Desempenho ⓘ

0,96

Tempo de espera

Integração com dados reais em breve.

— dados ainda não disponíveis —

Assistente:

Categorias a Rastrear

Contatos com Perfil

Selecione um assistente acima

—

v1.1.0 Abril 2025 Release atual

Bug Fix 04/04/2025 — app/services/agent_service.py

Tool call perdia o contexto do assistente na resposta final

Quando a LLM chamava uma ferramenta (ex: search_knowledge_base), a resposta final era gerada com o system prompt genérico padrão — descartando o system prompt configurado no assistente, o contexto do RAG e o perfil do contato. O método _handle_tool_calls agora recebe e utiliza o system prompt completo construído para aquela interação.

Bug Fix 04/04/2025 — app/services/agent_service.py

Flag needs_rag era ignorada antes da busca vetorial

O serviço de intenção (intent_service) detectava corretamente que mensagens simples (saudações, agradecimentos) não precisavam de busca na base de conhecimento, retornando needs_rag: false. No entanto, o código realizava a busca de embeddings no Supabase de qualquer forma, gerando chamadas de API desnecessárias. A verificação da flag agora ocorre antes da chamada ao Supabase, pulando completamente a busca vetorial quando não é necessária.

Melhoria 04/04/2025 — tools.py · agent_service.py

Sistema de tools unificado com ToolRegistry

O tools.py foi completamente reescrito como sistema unificado onde cada tool define seu próprio schema (enviado ao LLM) e lógica de execução na mesma classe. O agent_service.py foi migrado para usar o ToolRegistry, eliminando o dicionário de handlers avulsos. Novas tools podem ser adicionadas criando uma subclasse de BaseTool sem tocar no agent_service.

Melhoria 04/04/2025 — app/services/agent_service.py

RAG Agêntico — LLM decide quando buscar na base de conhecimento

Anteriormente o sistema sempre pré-buscava no RAG antes de chamar o LLM, injetando o resultado no system prompt independentemente da necessidade. Agora o RAG é uma tool disponível ao LLM: ele mesmo decide se e quando buscar, com qual query, podendo inclusive realizar múltiplas buscas durante a resposta. Isso elimina o intent_service como etapa obrigatória e reduz latência e custo em conversas que não precisam de conhecimento externo.

Melhoria 04/04/2025 — app/services/tools.py

search_knowledge_base agora filtra por namespace do assistente

A tool de busca na base de conhecimento agora recebe os rag_namespaces configurados no assistente via contexto de execução. Um bot de vendas só consultará documentos do namespace de vendas, e um bot de suporte só acessará sua própria base — sem cruzamento indevido entre bases de conhecimento de diferentes assistentes.

Novidade 04/04/2025 — app/services/tools.py

Tools reais: send_image, schedule_callback e transfer_to_human

send_image: a LLM pode enviar uma imagem diretamente ao usuário no WhatsApp a partir de uma URL pública — útil para catálogos, fotos de produtos e diagramas. schedule_callback: agenda um retorno de contato com data, horário e assunto, persistindo a entrada no Redis com status pending para processamento futuro. transfer_to_human: encerra o atendimento automático e registra a solicitação de transferência com motivo e prioridade.

v1.0.0 Lançamento Inicial

Novidade app/services/webhook_handler.py · app/services/redis_service.py

Buffer de Mensagens e Pausa Humana (Human-in-the-loop)

Para evitar que a IA responda imediatamente após o usuário enviar múltiplas mensagens fracionadas, o sistema utiliza um buffer baseado em Redis. Ao receber uma mensagem (webhook), aguarda um período de silêncio (ex: 8 segundos) e consolida todas as mensagens em um único contexto antes de acionar a IA. Se o webhook detectar que a mensagem foi enviada pelo próprio número do bot (is_from_me = true), o agente é silenciado automaticamente por 15 minutos, inferindo que um humano assumiu o controle.

Novidade app/services/message_sender.py

Envio Fragmentado e Simulação de Digitação

As respostas da LLM passam pela classe MessageSender, que divide a resposta em balões menores a cada parágrafo separado por dupla quebra de linha. Para cada fragmento, o sistema calcula um atraso proporcional à quantidade de caracteres (~50ms/caractere) e dispara o indicador Escrevendo... nativo do WhatsApp antes de enviar cada pedaço.

Novidade app/services/agent_service.py · app/services/llm_service.py

Processamento de Áudio e Imagens com Fallbacks

Áudio (Whisper): transcrição via OpenAI como prioridade; em caso de erro, fallback automático para Groq. Imagens (Vision): análise via GPT-4o Vision como prioridade; fallback para Gemini 1.5 Flash Vision. Ambos os fluxos são transparentes para a LLM — ela recebe o conteúdo já transcrito ou descrito como texto.

Novidade app/services/message_sender.py

Roteamento de Multimídia via Prompt (Regex + MessageSender)

A LLM é instruída via System Prompt a emitir URLs de mídia (.mp4, .jpg, .pdf) em texto claro quando precisar compartilhar arquivos. O MessageSender detecta essas URLs por Regex e aciona automaticamente os métodos corretos da API GoWA (send_image / send_video).

Novidade app/services/supabase_service.py · app/api/routes/documents.py

Base de Conhecimento Granular com RAG (Supabase / pgvector)

Sistema de Retrieval-Augmented Generation (RAG) nativo com upload de documentos pelo painel. Suporta PDF, DOCX, Markdown, HTML e TXT. Cada documento é associado a um namespace — o assistente consulta apenas os namespaces configurados para ele. Embeddings via OpenAI (v3) como padrão, com suporte a Groq e Ollama para controle de custo. Painel inclui SQL Helper e links diretos ao Supabase para diagnóstico.

Novidade app/services/agent_service.py · app/services/redis_service.py

Memória Adaptativa e Extração de Perfis de Contato

Em segundo plano, a IA analisa cada turno da conversa e extrai informações conforme as categorias definidas na aba "Informações Relevantes" (ex: nome, produto de interesse, orçamento). O perfil extraído é injetado automaticamente no System Prompt a cada nova mensagem do contato — a IA lembra do contexto sem precisar reler todo o histórico. O perfil evolui continuamente: se o cliente mudar de interesse, o campo é atualizado automaticamente no banco de dados.

Providers LLM

Embedding para RAG

Transcription (Áudio → Texto)

Vision (Imagem → Texto)

Configurações globais

Gerenciamento de API Keys por Provedor

Assistentes

Números WhatsApp

Base de Conhecimento (RAG)

🧠 Testar Base de Conhecimento

🔎 Busca Direta nos Blocos (Supabase)

Novo Documento

Arquivos na Nuvem (Supabase)

Informações Relevantes

—

Conversas WhatsApp

CRM

CRM 2 — Funil Imobiliário

Dicas e Uso

Providers LLM

Embedding para RAG

Transcription (Áudio → Texto)

Vision (Imagem → Texto)

Configurações globais

Gerenciamento de API Keys por Provedor

Assistentes

Números WhatsApp

Base de Conhecimento (RAG)

🧠 Testar Base de Conhecimento

🔎 Busca Direta nos Blocos (Supabase)

Novo Documento

Arquivos na Nuvem (Supabase)

Informações Relevantes

—

Conversas WhatsApp

CRM

Contato CRM

CRM 2 — Funil Imobiliário

Dicas e Uso

Testando Chat

Novo Assistente

🔧 SQL Setup Helper

Mensagens do Assistente

Mensagens

Diagnóstico de Saúde de Todos