Skip to main content
O Website Crawler permite que você adicione o conteúdo do seu site à Knowledge Base sem precisar copiar e colar manualmente. Basta informar a URL e configurar a profundidade de rastreamento. A Timely.ai usa o Firecrawl para extrair o conteúdo de cada página e depois processa os embeddings automaticamente.
Gerenciador de sites indexados

Modos de rastreamento

Extrai o conteúdo de uma URL específica. Use para páginas isoladas como uma FAQ, uma página de preços ou um artigo de blog específico.Mais rápido — resultado disponível em segundos.

Indexando um site

1

Abra o Website Crawler

No agente, acesse Knowledge Base > Website Crawler.
2

Informe a URL

Cole a URL da página ou do site raiz. Inclua https://.
3

Escolha o modo

Selecione Scrape para uma página única ou Crawl para rastreamento completo.
4

Configure os limites (apenas Crawl)

Defina o número máximo de páginas (limit) e a profundidade máxima de navegação (max_depth).
5

Inicie o rastreamento

Clique em Iniciar. Um job de rastreamento é criado e você acompanha o progresso em tempo real.

Parâmetros de configuração

ParâmetroModoDescrição
urlAmbosURL de entrada para o rastreamento
crawl_typeAmbosscrape ou crawl
limitCrawlNúmero máximo de páginas a processar
max_depthCrawlProfundidade máxima de links a seguir a partir da raiz
O modo crawl segue apenas links internos do mesmo domínio. Links externos não são rastreados, preservando o escopo do conteúdo indexado.

Status do job de rastreamento

StatusDescrição
startedJob iniciado, aguardando resposta do Firecrawl
crawlingPercorrendo páginas ativamente
processing_embeddingsGerando vetores para os chunks extraídos
completedIndexação concluída com sucesso
failedErro durante o rastreamento ou processamento
O progresso é atualizado em tempo real no painel: páginas rastreadas / total de páginas.

Visualizando páginas indexadas

Após a conclusão, cada página rastreada aparece como um item individual na lista. Para cada página você vê:
  • URL e título
  • Preview do conteúdo extraído
  • Número de chunks gerados
  • Score de qualidade (quando disponível)
  • Data de indexação
Clique no ícone de visualização para ler o conteúdo completo extraído de cada página.

Qualidade do conteúdo extraído

O Firecrawl extrai o texto principal da página descartando navegação, rodapé e scripts. Páginas com pouco conteúdo textual (ex.: páginas de login, páginas de erro) podem ter baixo score de qualidade e contribuem pouco para o agente.
Sites com proteção anti-bot (CAPTCHA, Cloudflare com challenge) podem falhar no rastreamento. Nesse caso, use o modo scrape para URLs individuais com conteúdo estático ou adicione o conteúdo manualmente via documento ou Q&A.
Reindexe o site sempre que o conteúdo mudar significativamente. Delete o site da lista e adicione novamente para garantir que o agente use a versão mais atualizada — a Timely.ai não realiza re-crawl automático por enquanto.