Simplescraperでざっと1,000回以上スクレイピングを回しているうちに、成功数を数えるのをやめて、失敗を記録するようになりました。その視点の変化――「ちゃんと動いたか?」から「今回はなぜ壊れたのか?」へ――によって、どんなドキュメントページよりも多くのことを学べたのです。
Simplescraper は、コードを書かずにWebサイトからデータを取り出せる、使いやすいChrome拡張機能です。Chromeウェブストアではがおり、クリック中心の直感的なインターフェースも本当に使いやすいので、ノーコードのスクレイピングツールとしてしっかり定着しています。ですが、ランディングページでは誰も教えてくれないことがあります。安定して再現性のある結果を大規模に出すには、ビジュアル系スクレイパーがどこで脆くなるのかを理解する必要がある、ということです。では、従業員が繰り返しのデータ入力に週9時間以上を費やしていることが分かりました。まさに、そうした負担が人をSimplescraperのようなツールへ向かわせるのです。とはいえ、ツールの癖を知らなければ、その9時間を有効活用するどころか、デバッグに費やすことになります。この記事では、実運用の経験からまとめた5つのベストプラクティス――選択失敗のトラブルシューティング、適切なスクレイピングモードの選び方、無料枠の最大活用、ブロック回避、そして見切りをつけるタイミング――を解説します。

Simplescraperとは何か、そしてなぜベストプラクティスが重要なのか
Simplescraperは、Webページ上の要素――商品タイトル、価格、画像、連絡先情報など――を視覚的に選択し、1行もコードを書かずに構造化データとして抽出できるChrome拡張機能です。欲しい部分をクリックしていくだけで、似たページでも再利用できる「レシピ」が作成されます。
基本の仕組みは次のとおりです。
- 要素の視覚選択: 欲しい項目をクリックします。Simplescraperが繰り返しパターン(商品一覧、検索結果、求人情報など)を自動検出します。
- レシピ: 抽出設定を保存し、後で再利用したり、URLの一括処理に使ったりできます。
- 2つのスクレイピングモード: ブラウザ(ローカル、Chrome上で実行)とクラウド(Simplescraperのサーバー上で、無人実行)。
- 連携: Google Sheets、Airtable、webhook、Zapier、Make、CSV、JSONへエクスポート可能です。
- AI抽出: 近年追加されたで、スキーマのプロンプトからCSSセレクタを生成できます。
対象ユーザーは幅広く、マーケター、営業チーム、EC運営者、リサーチャーなど、開発者を雇わずにWebサイトから構造化データを取り出したい人すべてです。しかも、シンプルなページならSimplescraperはすばやく結果を出してくれます。

では、なぜベストプラクティスが重要なのでしょうか。商品一覧や整ったディレクトリページを超えた瞬間に、摩擦が生まれるからです。動的コンテンツ、ボット対策、遅延読み込み画像、入れ子構造のHTML――こうした実際の環境条件が、使いづらさと生産性の差を生みます。最初から適切な方法を知っておけば、何時間もの試行錯誤を避けられます。
ベストプラクティス1: Simplescraperが要素を選択できないときの対処法
これが、私が見てきた中で最もよくある不満です。要素をクリックすると、Simplescraperがハイライトしてくれて、よしと思う。なのに出力を見たら、データの半分が抜けている。写真は空欄、プロフィールは空、所在地は消えている――そんなことが起きます。
創業者自身も早い段階でと認めています。この正直さは好感が持てますが、水曜の夜11時に壊れたスクレイピングを直してはくれません。

よくある選択失敗と、その理由
Simplescraperがつまずきやすいパターンは主に4つあります。
- 遅延読み込み画像: 画像要素は、そこまでスクロールするまで。スクロール前にスクレイピングすると、画像欄が空になります。
- 入れ子またはグループ化されたコンテナ: Simplescraperの自動検出は。その結果、ページ全体の繰り返しセットではなく、一部のセクションだけを拾ってしまうことがあります。ユーザーからは「1回で全行を選択できない表がある」といった報告もあります。
- 動的なJavaScriptコンテンツ: React、Vue、AJAXなどで初回表示後に描画される要素は、スクレイパーが早く動きすぎるとまだ存在しません。
- 無限スクロール型ページネーション: 欲しいデータは、まだHTMLに読み込まれていないだけです。スクロールするか「もっと見る」をクリックしないと出てきません。
実践的なトラブルシューティング手順
手動セレクタを使う前に、次を試してください。
- まずページ全体を最後までスクロールする。 これで遅延読み込みの画像やコンテンツがDOMに展開されます。
- 一覧件数が妙に少ないときは「類似項目を含める」を使う。 Simplescraper自身のドキュメントでも、グループ化されたコンテンツに対して推奨されています。
- JavaScriptが多いサイトでは、完全描画を待つ。 スクレイピングを開始する前に数秒余分に待ちましょう。
- 最初は少量で試す。 500ページのバッチに入る前に、2〜3ページで行数を確認します。
手動CSSセレクタへの切り替え
視覚選択が何度も失敗するなら、手動に切り替えるべきです。これは、ライトユーザーと使いこなす人を分ける一手です。
手順は次のとおりです。
- Chromeで欲しい要素を右クリック → 検証。
- DevToolsで、その要素のクラス名またはdata属性を特定します(例:
.product-card .priceや[data-test="location"])。 - Simplescraperでに切り替え、セレクタを貼り付けます。
- 小規模スクレイピングを実行してセレクタをテストします。
堅牢なセレクタのコツ:
- 位置指定のセレクタ(
div:nth-child(3))より、クラス名(.listing-title)を優先する - 使えるならを使う。サイト更新後も安定しやすい
- サイトのHTML構造が変わると壊れる、深くネストしたパスは避ける
AIによる代替案: Thunderbitにフィールドを自動検出させる
率直に言うと、私たちのチームがを作ったのは、まさにこの問題にうんざりしていたからです。Thunderbitの「AI Suggest Fields」はページ構造を読み取り、列と抽出ロジックを自動で提案します。CSSの知識は不要です。AIは各サイトのレイアウトに合わせて適応し、入れ子コンテンツや遅延読み込み画像にも対応します。
毎回のスクレイピングでセレクタのデバッグに数分以上かかっているなら、まったく別のアプローチを試す価値があります。
ベストプラクティス2: クラウドスクレイピングとブラウザスクレイピングの使い分け
多くのSimplescraperユーザーは、最初に試したモードをそのまま使い続けます。実際の用途に合っているかを考えずに、です。その結果、避けられたはずの失敗が起きます。
ブラウザ(ローカル)スクレイピングを使うべき場面
- ログインが必要なページ: LinkedIn、CRMダッシュボード、社内ツールなど、認証の裏にあるものは、アクティブなブラウザセッションが必要です。
- 単発の素早い抽出: すでにページを開いていて、今すぐデータが欲しいとき。
- 無料クレジットの節約: ブラウザスクレイピングはクラウドクレジットを消費しません。
欠点は、PCの電源を入れたままにする必要があることと、大規模ジョブではクラウドより遅いことです。
クラウドスクレイピングを使うべき場面
- 公開ページ(EC商品一覧、ディレクトリ、不動産サイトなど)で、ログインが不要な場合。
- 定期監視: 無人で繰り返し実行したい場合。
- バッチジョブ: 1回のクラウドバッチでまで処理できます。
- 連携先への配信: Google Sheets、Airtable、webhookへの自動送信。
欠点は、クラウドスクレイピングがことです。JavaScript対応ページは1ページあたり2クレジット、非JSページは1クレジットなので、無料枠の100クレジットはすぐに尽きます。
判断フレームワーク
| シナリオ | 推奨モード | 理由 | 選び方を誤った場合のリスク |
|---|---|---|---|
| ログインが必要なページ(LinkedIn、ダッシュボード) | ブラウザ | 認証済みセッションが必要 | クラウドだとログイン壁にぶつかる |
| 公開ECの商品一覧 | クラウド | 高速で無人実行できる | ブラウザだとPCを占有する |
| 定期的な監視 | クラウド | 自分がいなくても動く | ブラウザだと常時立ち会いが必要 |
| ボット対策が厳しいサイト(Amazon、Yelp) | ブラウザ(代替)またはプロキシ付きクラウド | IPローテーションかセッション再利用が必要 | プロキシなしのクラウドはすぐブロックされる |
| 素早い単発抽出 | ブラウザ | すぐ実行でき、クレジット不要 | 1ページのためにクラウドを準備するのは大げさ |

Thunderbitならどう簡単になるか
では、同じ画面内のシンプルな切り替えで選べます。クラウドモードは最大50ページを同時処理でき、クラウド利用のための別料金プランはありません。ブラウザモードは、追加設定なしでログイン必須サイトに対応します。両方が同じワークフローにあるだけで、「どちらを使うべきか」という迷いがかなり減ります。
ベストプラクティス3: Simplescraperの無料枠を最大限活用する
料金体系の誤解は本当によくあります。私は「無料のChrome拡張機能」だから「全部無料」だと思っている人の投稿を見たことがあります。そうではありません。逆に、有料プランが目立たないのでSimplescraperは高いと思い込んでいる人も見ました。どちらも得ではありません。
Simplescraperの無料プランに実際に含まれるもの
によると、次のとおりです。
- ブラウザスクレイピング: 無制限(Chrome上でローカル実行)
- クラウドクレジット: 月100
- 保存できるレシピ: 3つ
- 出力形式: CSVとJSON
- 含まれないもの: 優先サポート、高度なプロキシオプション、より多いクラウドクレジット
現実的な無料枠の使い方
公開ECサイトの商品ページを50件スクレイピングしたいとします。
- ブラウザモード(無料): 完全無料で可能です。各ページを開く(または一覧を使う)、レシピを実行する、CSVに出力する、という流れです。必要時間は忍耐力と通信速度次第ですが、手動でページ移動するなら50ページで15〜30分程度の実作業を見ておくとよいでしょう。
- クラウドモード(無料枠): JavaScriptレンダリング有効の場合、1ページ2クレジットです。50ページなら100クレジット。これで月間のクラウド枠を1ジョブで使い切ります。スケジュール実行も、失敗時の再試行もありません。
無料枠は、小規模でたまに行うスクレイピングには本当に役立ちます。ただし、クラウド自動化やスケールが必要になると、すぐに足りなくなります。
無料枠の比較: SimplescraperとThunderbit
| 機能 | Simplescraper 無料 | Thunderbit 無料 |
|---|---|---|
| ページ数/クレジット | ブラウザ無制限 + クラウド100クレジット | AI機能付きで6ページ |
| AI抽出 | 制限あり(Smart Extractはクレジット消費) | AI Suggest Fieldsをフル搭載 |
| 出力先 | CSV、JSON | Excel、Google Sheets、Airtable、Notion ― すべて無料 |
| 保存設定 | 3レシピ | テンプレートあり |
| サブページスクレイピング | 手動でレシピ設定 | ページ数に含まれる |
この2つは本当に別の設計です。Simplescraperは、ローカルの無制限スクレイピングと、制約のあるクラウドを組み合わせたモデルです。は、ページ数は少なめでも、1ページごとのAI機能をフル搭載し、チームが実際によく使うツールへの無料エクスポートも備えています。基本的なローカルスクレイピングで、多少の手作業を許容できるならSimplescraperの無料枠は十分使えます。ただ、AI抽出と柔軟な出力先を重視するなら、Thunderbitの無料枠のほうが1ページあたりの価値は高いです。
ベストプラクティス4: スクレイピング中にブロックされない方法
CAPTCHAの壁や空のデータセットを目の前にするまで、誰もボット対策のことは考えません。その時点では、すでに時間もクレジットも失っています。
先回りの対策は、後からのトラブルシューティングより常に安く済みます。
レート制限を設定し、リクエストの間隔を空ける
ブロックされる最大の理由は、短時間に大量リクエストを投げることです。Webサーバーから見ると、1つのIPから10秒で50リクエスト来るのは、興味のあるリサーチャーではなく攻撃です。
目安は次のとおりです。
- 一般的な商用サイトでは、ページ間に2〜5秒の間隔を入れる
- マーケットプレイスやレビューサイトなど敏感な対象では、さらに遅くして5〜10秒にする
- SimplescraperのAPIを使う場合は、 パラメータで、抽出前にページが完全に読み込まれるのを待てます。結果的に、実行速度も自然と落ちます
プロキシローテーションを有効にするタイミング
プロキシローテーションは、リクエストごとにIPアドレスを変え、複数の異なるユーザーのように見せます。次のような場面で必要です。
- Amazon、Yelp、TripAdvisor、LinkedIn(厳しいボット対策)
- IP単位でレート制限するサイト
- 大規模バッチジョブ(1つのドメインに対して数百ページ)
Simplescraperのプラットフォームはをサポートしており、標準、プレミアム、住宅用などがあります。ただし、どのプランでどこまで使えるかは公開ドキュメントだけでは必ずしも明確ではありません。難しい対象を無料枠でこなせると決めつける前に確認してください。住宅用プロキシは通常高価ですが、検知されにくい傾向があります。
JavaScriptが重いサイトへの対処
React、Vue、Angularで作られた近年のサイトは、初回読み込み後にコンテンツを描画します。スクレイパーがJavaScriptの実行完了前に動くと、欄は空になります。
対策は次のとおりです。
- クラウドスクレイピングモードを使い、描画品質を上げる(SimplescraperのクラウドはJavaScriptを実行できます)
- ブラウザスクレイプを実行する前に、手動でスクロールして遅延読み込みコンテンツを呼び出す
- APIベースのワークフローでは
waitForSelectorを使い、対象要素が出るまで待機する - 極端に動的なシングルページアプリの中には、ビジュアルスクレイパーでは安定して扱えないものもあると受け入れる
手間をかけない代替案
なら、ボット対策、CAPTCHA、JavaScriptレンダリングを自動で処理します。プロキシ設定も、遅延調整も、手動スクロールも不要です。商品カタログを取るためだけに、アマチュアのDevOps担当になる気がない人には大きな違いです。問題が消えるわけではありませんが、あなたが抱え込まなくてよくなります。
ベストプラクティス5: Simplescraperの限界を見極める
2年前の自分に、誰かがこの章を書いてくれていたらよかったのにと思います。
ある時点で、ツールは時間短縮の道具ではなく、時間を食う存在になります。その境目を早めに見抜ければ、「もう15個もレシピを作ったから今さら乗り換えられない」というサンクコストの罠を避けられます。
Simplescraperの実用上の限界
- 従来のページ遷移なしにAJAXでコンテンツを読み込む動的なシングルページアプリ
- すべての項目を読み込むために継続的なスクロールが必要な無限スクロール(標準的なクリック式ページネーションではない)
- サブページの強化: 一覧ページをスクレイピングしたあと、各詳細ページに移って追加データを取る処理。Simplescraperはで対応できますが、設定の複雑さはすぐに増します。
- 既存レシピを壊すレイアウト変更。サイトがHTML構造を更新すると、慎重に調整したCSSセレクタが効かなくなります。
ツールの限界を超えたサイン
次のような状態なら、限界に達している可能性が高いです。
- 自動検出が毎回失敗するので、スクレイピングのたびにCSSセレクタを手作業で調整している
- サイト更新のたびにレシピが壊れ、作り直しが必要になる
- 数十〜数百ページを同時にスクレイピングしたいのに、クレジットや速度の上限に毎回引っかかる
- サブページのデータ取得に、複雑な多段レシピの連鎖が必要になる
- 抽出したデータを使う時間より、スクレイピングの維持に時間を使っている
最後のものが、最も分かりやすいサインです。保守が仕事になった瞬間、ノーコードの便利さによる恩恵は消えます。
AI搭載ワークフローへの移行
ここで、私たちのチームがで作ったものについて触れたいと思います。なぜなら、まさに上で述べた失敗パターンに向けて設計されているからです。

- AIが毎回ページを読み直すので、壊れやすいレシピやCSSセレクタの保守が不要です。サイトのレイアウトが変わっても、次回実行時にAIが適応します。
- サブページスクレイピングで、1クリックでデータ表を拡張できます。一覧を取り、その後各詳細ページを自動訪問して追加項目を取得します。
- スケジュールスクレイピングは、タイミング設定をいじる代わりに自然言語(「毎週月曜の9時」など)で指定できます。
- クラウドスクレイピングを50ページ同時実行できるので、公開サイトでも高速です。
- Google Sheets、Airtable、Notion、Excelへのネイティブ無料エクスポートがあり、webhook設定は不要です。
SimplescraperとThunderbitの比較
全体を一枚にまとめるとこうなります。

| 機能 | Simplescraper | Thunderbit |
|---|---|---|
| フィールド設定 | 手動CSSセレクタ / 視覚選択 | AI Suggest Fields(平易な英語) |
| サブページ強化 | バッチワークフローで可能(設定が複雑) | 1クリックで自動強化 |
| レイアウト変更への自動追従 | 壊れる(手動修正が必要) | AIが毎回ページ構造を読み直す |
| クラウドの同時処理数 | 最大5,000 URLのバッチ(プランにより変動) | 50ページを同時処理 |
| Notion/Airtableへの出力 | webhook経由(有料プラン) | ネイティブ対応、無料 |
| スケジューリング | プリセット + カスタム時間設定 | 自然言語で指定 |
| ボット対策 / CAPTCHA対応 | プロキシモードあり(プラン依存) | 自動対応、設定不要 |
| 無料枠 | クラウド100クレジット + ブラウザ無制限 + 3レシピ | AI機能付き6ページ + 無料エクスポート |
要するに、Simplescraperは、シンプルで視覚的、設定が少なく、たまに手動調整してもよい抽出で強みを発揮します。Thunderbitは、そのモデルが行き詰まるところを引き受けます。ページの解釈、レイアウト変化への対応、ワークフローの複雑さを肩代わりしてくれるのです。
どちらが常に優れているわけではありません。複雑さのカーブ上で、違う位置にいるだけです。それで十分です。
すぐ使える: Simplescraperベストプラクティスのチェックリスト
次のスクレイピングで使えるよう、ブックマークしておいてください。
- 必ず最初は少量でテストする。 2〜3ページで行数とフィールドの完全性を確認してから拡大する。
- スクレイピング前にページを最後までスクロールする。 遅延読み込みコンテンツを呼び出すため。
- 一覧検出が狭すぎるときは「類似項目を含める」を使う。
- スクレイピングモードは意図して選ぶ。 ログイン必須サイトはブラウザ、公開ページや定期ジョブはクラウド。
- リクエスト間の遅延を設定する。 商用サイトでは最低2〜5秒、ボット対策が厳しい対象ではそれ以上。
- 無料枠の計算を理解する。 クラウド100クレジット = JavaScript対応ページ50枚。計画的に使う。
- レシピは安定したページにだけ保存する。 サイト更新が多いと、レシピは壊れやすい。
- 基本的なCSSセレクタを学んでおく。 クラス名とdata属性は位置指定より強い。
- ブロックを先回りして監視する。 結果が空だったりCAPTCHAが出たりしたら、速度を落とすかモードを切り替える。
- 限界を見極める。 保守に使う時間が、データ活用の時間を上回ったら、代替案を検討する。
まとめ: すべてのスクレイピングを無駄にしない
1,000回以上のスクレイピングから得た最大の教訓は、特定のツールそのものについてではありません。大事なのはソフトウェアより、やり方です。 遅延読み込み、誤ったモード選択、強すぎるボット対策、壊れやすいセレクタ――なぜ失敗したのかを理解することのほうが、機能一覧よりずっと価値があります。
Simplescraperは、シンプルな抽出作業なら本当にうまく動きます。ページが整っていて、要求が控えめで、たまの手動調整を気にしないなら、ちゃんと期待に応えてくれます。
でも、使うより戦う時間のほうが長くなっているなら――セレクタのデバッグ、壊れたレシピの作り直し、プロキシ設定、ページの手動スクロール――それは失敗ではなく、サインです。ビジュアルスクレイピングだけではもう対応しきれなくなっている、という意味です。
もし心当たりがあるなら、を試してみてください。AI機能付きで6ページ、Sheets、Airtable、Notionへの無料エクスポートもあります。今のワークフローと比べて、どこがしっくりくるかを見てみてください。ときには、別のツールを使うべきだと見極めることこそ、最良のベストプラクティスです。
FAQ
Simplescraperは無料で使えますか?
はい。Simplescraperには無料プランがあり、ローカルのブラウザスクレイピング無制限、、保存済みレシピ3つ、CSV/JSON出力が含まれます。JavaScript対応のクラウドページは1ページ2クレジットなので、その100クレジットでクラウドモードでは約50ページを処理できます。有料プランは、6,000クレジットのPlusが月39ドル、15,000クレジットのProが月70ドルから始まります。
SimplescraperはJavaScriptが重いWebサイトに対応できますか?
場合によります。SimplescraperのクラウドモードはJavaScriptを描画でき、単一ページアプリにも対応していると案内されています。ただし、複雑なSPA、重い動的描画、無限スクロール、強力なボット対策があるサイトでは、結果が不完全になることがあります。適切な待機時間を入れたクラウドモードを使えば信頼性は上がりますが、動的要素の強いサイトは、どのビジュアルスクレイパーにとっても依然として難所です。
Simplescraperのクラウドスクレイピングとブラウザスクレイピングの違いは何ですか?
ブラウザスクレイピングはChromeブラウザ内でローカル実行されます。現在のセッションを使うので、ログイン必須サイトに向いており、クレジットは消費しませんが、PCを起動したままにする必要があります。はSimplescraperのサーバー上で動作し、高速で無人実行でき、スケジュールや連携にも対応しますが、1ページごとにクレジットを消費し、個人ログインの裏にあるページにはアクセスできません。
SimplescraperからThunderbitのような代替ツールに切り替えるのは、どんなときですか?
最も分かりやすいのは、保守に使う時間が、データ利用に使う時間を上回ったときです。サイト更新のたびに壊れたセレクタを直している、プロキシ設定を毎回いじっている、レシピを作り直している、あるいは分析よりトラブルシューティングに時間を使っているなら、手動のビジュアルスクレイピングでは効率的に対応しきれていません。のように、実行のたびにAIでページ構造を解釈するツールなら、その保守負担の大半をなくせます。
Simplescraperでブロックされないようにするにはどうすればいいですか?
大事なのは3つです。まず、ページ間に2〜5秒の遅延を入れてリクエストのペースを落とすこと(AmazonやYelpのようなボット対策が厳しいサイトではさらに長く)。次に、クラウドIPを強く弾くサイトではブラウザモードを代替手段として使うこと。ブラウザセッションのほうが通常のアクセスに近く見えます。最後に、敏感な対象で大規模バッチを回すならプロキシローテーションを有効にすること。ただし、実際に使えるプロキシオプションがプランに含まれているかは、先に確認してください。
さらに詳しく