FAQ | Thunderbit API

P: ¿Puedo hacer scraping de sitios que requieren login? R: Hoy, no. Puedes pasar cookies o tokens de autenticación vía el parámetro headers para sitios que los acepten, pero los flujos de login interactivo no están soportados vía la API. Contáctanos para opciones enterprise.

P: ¿Cuál es el tamaño máximo de página? R: 10 MB de HTML antes del procesamiento. Las páginas que excedan esto devuelven SCRAPE_CONTENT_TOO_LARGE.

P: ¿Qué tan frescos son los datos? R: El comportamiento por defecto hace fetch en vivo en cada llamada. Configura forceRefresh: true para omitir explícitamente cualquier capa interna de caché.

P: ¿Puedo ejecutar varios jobs en lote en paralelo? R: Sí — el límite por batch es de 100 URLs, pero no hay tope en el número de jobs en lote concurrentes (sujeto a la concurrencia de tu plan).

P: ¿Qué pasa si una sola URL en un batch falla? R: El batch sigue adelante. La URL fallida obtiene status: "FAILED" con un código de error; el resto tiene éxito. El job pasa a COMPLETED cuando todas las URLs alcanzan un estado terminal.

P: ¿La API respeta robots.txt? R: Respetamos robots.txt por defecto en la destilación. Los planes enterprise pueden solicitar anulación por dominio con prueba de autorización.

P: ¿Puedo usar schema y prompt a la vez en /extract? R: No — son mutuamente excluyentes (SCHEMA_AND_PROMPT_EXCLUSIVE). Hoy, schema es el único modo soportado; la extracción solo con prompt está en el roadmap.

P: ¿Cómo me notifican cuando termina un batch largo? R: Usa el campo webhook al enviar. El polling también funciona, pero los Webhooks son más baratos para jobs que duran >1 minuto. Ver Webhooks.

P: ¿Cómo reporto un bug o pido una nueva funcionalidad? R: Escribe a support@thunderbit.com o usa el formulario de contacto in-app en el panel.