Recipes

Ferramenta de Leitura de URL para Agentes

Ferramenta plug-and-play "leia esta URL" para o loop de um agente LLM

Dê ao seu agente uma única ferramenta que transforma qualquer URL em Markdown limpo. O agente a chama sempre que precisa pesquisar uma página — Thunderbit cuida de JS, anti-bot e limpeza de conteúdo, mantendo o contexto do agente denso em sinal.

Definição da ferramenta (Python)

import httpx

API = "https://openapi.thunderbit.com/openapi/v1"
H = {"Authorization": "Bearer YOUR_API_KEY"}

def read_url(url: str) -> str:
    """Fetch a URL and return clean Markdown.

    Use for any web research task: docs, articles, search results, product pages.
    Returns the page as Markdown with metadata stripped.
    """
    resp = httpx.post(f"{API}/distill",
                      headers=H,
                      json={"url": url, "renderMode": "basic"},
                      timeout=60.0)
    resp.raise_for_status()
    return resp.json()["data"]["markdown"]

Exemplo com function-calling da OpenAI

tools = [{
    "type": "function",
    "function": {
        "name": "read_url",
        "description": "Fetch a URL and return clean Markdown for the agent to read.",
        "parameters": {
            "type": "object",
            "properties": {
                "url": {"type": "string", "description": "The URL to fetch"}
            },
            "required": ["url"],
        },
    },
}]

Quando o modelo chamar read_url, despache para a função acima e devolva o resultado como mensagem de tool.

Dicas

  • Mantenha renderMode em basic para o agente — bom equilíbrio padrão entre custo e cobertura
  • Limite o tamanho do Markdown retornado (ex.: 8k tokens) antes de alimentar o modelo
  • Para pesquisa em massa, prefira /batch/distill — veja Base de Conhecimento RAG

Relacionados

Esta receita está sendo expandida com variantes LangChain / LlamaIndex / CrewAI — volte em breve.