FAQ | Thunderbit API

Q : Puis-je scraper des sites qui demandent un login ? R : Aujourd'hui, non. Tu peux passer des cookies ou des tokens d'auth via le paramètre headers pour les sites qui les acceptent, mais les flux de login interactifs ne sont pas supportés via l'API. Contacte-nous pour les options entreprise.

Q : Quelle est la taille de page maximale ? R : 10 Mo de HTML avant traitement. Les pages qui dépassent renvoient SCRAPE_CONTENT_TOO_LARGE.

Q : Quelle est la fraîcheur des données ? R : Le comportement par défaut fetch en live, à chaque appel. Mets forceRefresh: true pour contourner explicitement toute couche de cache interne.

Q : Puis-je lancer plusieurs tâches batch en parallèle ? R : Oui — la limite par batch est de 100 URLs, mais il n'y a pas de plafond sur le nombre de tâches batch concurrentes (sous réserve de la concurrence de ton plan).

Q : Que se passe-t-il si une seule URL d'un batch échoue ? R : Le batch continue. L'URL en échec récupère status: "FAILED" avec un code d'erreur ; les autres réussissent. La tâche passe à COMPLETED une fois que toutes les URLs ont atteint un état terminal.

Q : L'API respecte-t-elle robots.txt ? R : On respecte robots.txt pour la distillation par défaut. Les plans entreprise peuvent demander une dérogation par domaine avec preuve d'autorisation.

Q : Puis-je utiliser à la fois schema et prompt sur /extract ? R : Non — ils sont mutuellement exclusifs (SCHEMA_AND_PROMPT_EXCLUSIVE). Aujourd'hui, schema est le seul mode supporté ; l'extraction prompt-only est dans la roadmap.

Q : Comment être notifié quand un long batch se termine ? R : Utilise le champ webhook à la soumission. Le polling marche aussi, mais les Webhook sont moins coûteux pour des tâches qui durent > 1 minute. Voir Webhooks.

Q : Comment signaler un bug ou demander une feature ? R : Email support@thunderbit.com ou utilise le formulaire de contact in-app sur le dashboard.