Extraire des données de sites web semble simple — jusqu’au moment où vous cliquez pour la dixième fois sur ce bouton « Suivant » et réalisez que vous ne faites qu’effleurer le sujet. Si vous avez déjà essayé de créer un catalogue de produits, de constituer une liste de prospects ou d’analyser des annonces immobilières, vous savez que l’essentiel se cache souvent en pages deux, trois, voire cinquante. Je l’ai constaté moi-même : les données vraiment stratégiques sont presque toujours réparties sur plusieurs pages, et ignorer ces pages supplémentaires, c’est passer à côté d’informations précieuses (et parfois, de l’approbation de votre patron).
La bonne nouvelle ? Vous n’avez pas à vous contenter de jeux de données incomplets ni à passer votre après-midi à cliquer et copier