Conceitos Centrais
| Conceito | Descrição |
|---|---|
| Base de Conhecimento | Coleção independente de documentos e conteúdos que um agente pode consultar. Cada base é isolada — os documentos de uma base nunca aparecem nas buscas de outra. |
| Chunk | Fragmento de texto gerado pelo processo de divisão de documentos longos. O chunker divide o conteúdo em pedaços de ~4.000 caracteres com sobreposição de ~400 caracteres entre chunks consecutivos para preservar o contexto nas fronteiras. |
| Embedding | Representação vetorial de um chunk gerada pelo modelo text-embedding-3-small. Cada embedding tem 1.536 dimensões e captura o significado semântico do texto. |
| Retrieval | Processo de busca por similaridade coseno que compara o embedding da pergunta do usuário com os embeddings armazenados e retorna os chunks mais próximos semanticamente. |
| RAG | Retrieval-Augmented Generation — os chunks recuperados são injetados no contexto do LLM junto com a mensagem do usuário, permitindo que o agente responda com base em informação específica indexada, não em memória de treinamento genérico. |
Por Que Isso Importa
- Respostas baseadas em dados reais: o agente responde com o conteúdo exato que você indexou — políticas, preços, catálogos — e não com inferências genéricas do modelo base.
- Atualização sem reprogramação: basta atualizar o conteúdo na base de conhecimento. O agente passa a usar a nova informação imediatamente nas próximas conversas, sem necessidade de modificar o prompt de sistema.
- Escopo controlado: a busca é sempre filtrada por
knowledge_base_idecompany_id, garantindo que dados de um cliente nunca apareçam para outro e que bases distintas permaneçam isoladas mesmo quando um agente acessa múltiplas bases simultaneamente.
Como Funciona
Ingestão de conteúdo
Você adiciona conteúdo à base — documentos, pares de Q&A, páginas de site ou vídeos do YouTube. O conteúdo é armazenado como documento na tabela
knowledge_base_documents.Chunking
A função
knowledge-process-document divide o texto em pedaços de ~4.000 caracteres. Uma sobreposição de ~400 caracteres é mantida entre chunks consecutivos para que o contexto não se perca nas fronteiras.Geração de embeddings
Cada chunk é convertido em um vetor de 1.536 dimensões pelo modelo
text-embedding-3-small da OpenAI, enviado em lotes de até 100 chunks por requisição. Os vetores são armazenados na tabela knowledge_chunks.Busca semântica
Quando o agente precisa de informação, a função
knowledge-search converte a pergunta do usuário em um vetor e executa busca por similaridade coseno. Os chunks mais próximos semanticamente são retornados, ordenados por relevância.Tipos de Conteúdo Suportados
| Tipo | Descrição |
|---|---|
| Documentos | PDFs, arquivos de texto e documentos enviados por upload. O processador extrai o texto, divide em chunks e gera embeddings. |
| Q&A | Pares de pergunta e resposta adicionados manualmente. Indexados instantaneamente, sem pipeline assíncrono. Alta precisão porque você controla exatamente o que será recuperado. |
| Website | URLs rastreadas pelo crawler. O sistema percorre as páginas, extrai o conteúdo textual e indexa como documentos. Útil para manter a base sincronizada com documentação pública. |
| YouTube | URLs de vídeos. O sistema baixa a transcrição automática, divide em chunks e indexa. Útil para bases de tutoriais em vídeo. |
Ciclo de Vida do Conhecimento
Criação da base
Uma base de conhecimento é criada no módulo de Knowledge, recebe um nome e fica associada ao workspace. Começa vazia, sem documentos.
Adição de conteúdo
Documentos, Q&As, URLs e vídeos são adicionados à base. Cada fonte passa pelo pipeline de processamento correspondente ao seu tipo.
Processamento e indexação
O conteúdo é processado de forma assíncrona: chunking, vetorização e armazenamento. O status muda de Processando para Indexado quando concluído.
Conexão ao agente
A base é conectada a um ou mais agentes na aba de Treinamento. Os parâmetros de retrieval — top-k e threshold de similaridade — são configurados por base.
Exemplo
Uma empresa de software conecta três bases ao mesmo agente de suporte:- Base “FAQ Produto” com respostas para as perguntas mais frequentes sobre funcionalidades
- Base “Documentação Técnica” com manuais e guias de integração
- Base “Políticas Comerciais” com regras de cancelamento, reembolso e contratos