ウェブスクレイピングは違法なのか?——これは、創業者、マーケター、データ好きの人たちから毎週のように聞かれる、いわば“1億ドル級”の質問です。
今ではで、しかもその自動トラフィックが人間の利用を初めて上回りました。その中でも大きな割合を占めるのが、ビジネスインテリジェンス、営業、AI学習のためのウェブスクレイピングです。みんなが法的な境界線を知りたがるのも当然でしょう。
ある日は「公開データのスクレイピングは合法」とする判決の見出しを目にする一方で、翌日には「SNSからの違法なデータ収集」に警告を発する規制当局の声明が出る。Thunderbitでを日々作っている私のような人間ですら、わかりにくいと感じるほどです。
では、ウェブスクレイピングは違法なのでしょうか?答えは単純な「はい」「いいえ」ではありません。何を取得するのか、どこから取得するのか、データをどう使うのか、そしてあなたの国の法律がどう定めているかで変わります。
この記事では、法的な全体像を整理し、よくある誤解をほどき、実務で守るべきポイントや少しの失敗談も交えながら、コンプライアンスを守って進める方法を解説します。ひとりの創業者であっても、Fortune 500企業のデータチームであっても役立つ内容です。
ウェブスクレイピングと法律:明確な線引きはあるのか?
ひと言で答えが欲しいなら、先にお伝えしておきます。法律は、ウェブスクレイピングに対して「ここから先は違法」という明快な一本線を引いていません。
実際には、データの所有権、プライバシー、知的財産、アンチハッキング法、そして悪名高い利用規約(ToS)が複雑に重なり合っています。どれが適用されるかはケースバイケースで、結論は具体的な状況次第です()。
まずは、法的に大きく分かれる3つのポイントを見ていきましょう。
- データの所有権: 一般に、事実や公開情報(価格や電話番号など)は著作権の保護対象になりにくいです。ただし、記事や画像のような創作物や独自データベースは保護される可能性があります。特にEUでは「データベース権」という考え方があるため、より注意が必要です()。
- プライバシー: GDPR(欧州)やPIPL(中国)などの現代的なプライバシー法では、公開されていたとしても個人データは規制対象です。氏名、メールアドレス、SNSプロフィールを法的根拠なく収集すると、問題になる可能性があります()。
- 契約(利用規約): 多くのサイトはToSでスクレイピングを明確に禁止しています。ToSは法律そのものではありませんが、裁判所は拘束力のある契約として扱うことがあります。違反すれば訴訟の対象になり、技術的な制限を回避した場合はアンチハッキング法に触れることもあります()。
つまり、ウェブスクレイピングは違法なのか?——場合によってはYES、場合によってはNO、そして多くは「状況次第」です。結局のところ、細部が勝負です。
法的な見方の比較:米国、EU、英国、中国
主要地域がウェブスクレイピングをどう扱っているか、ざっくり比較してみましょう。
| 地域 | 公開データのスクレイピング | 個人データ/非公開データのスクレイピング | 執行・注目ポイント |
|---|---|---|---|
| 米国 | 公開データなら一般に許容される傾向(hiQ v. LinkedIn参照)。ToS違反は民事訴訟のリスク。 | ログイン突破や個人データの不正利用は制限・違法の可能性。州法(CCPAなど)が適用されることも。 | 警告書、IPブロック、訴訟。技術的障壁を回避するとCFAAが問題になる可能性。 |
| EU | 個人でない公開データは条件付きで可。データベース権が適用される場合あり。2026年施行のEU AI法では、AI学習データの透明性要件が追加。 | GDPRで厳しく規制。公開されている個人データでも法的根拠が必要。 | データ保護当局がプライバシー違反に罰金。著作権/データベース権も執行対象。EU AI法はAI向けの顔画像スクレイピングを禁止。 |
| 英国 | EUに近い考え方。公開された非個人データは取得可能だが、データ権利と契約を尊重する必要あり。 | 個人データは厳格。UK GDPRが適用。Computer Misuse Actで無権限アクセスが犯罪化される。 | ICOがデータ保護違反に制裁を科す可能性。裁判所がToSを執行することも。 |
| 中国 | 厳しく管理。公開された非個人データは社内利用目的なら取得可能な場合があるが、全体として慎重な環境。 | 非常に制限的。PIPLにより個人データには同意が必要。反不正競争法も適用される。 | 大規模スクレイピングでは刑事事件化の例も。裁判所は不正競争法で無断取得を止めることがある。 |
(, )
ウェブスクレイピングは違法?判断を左右する主要な要素
では、実際にあなたのスクレイピング案件が合法か、それともリスクが高いのかは何で決まるのでしょうか。重要なのは次のポイントです。
- 公開データか非公開データか: 誰でも見られるオープンウェブ上のデータを取得するほうが、一般的には安全です。ログイン、課金、技術的制限の向こう側にあるデータをスクレイピングするのは、違法の可能性が高いです()。
- データの性質: 個人データ(氏名、メール、プロフィール)はプライバシー法の対象になります。著作物(記事、画像)はそのまま複製できません。純粋な事実(価格、天気など)は、一般に扱いやすいです()。
- 利用目的: 社内分析や調査は、再公開や販売よりも寛容に見られやすいです。取得したデータを元サイトと直接競合する形で使うと、訴訟リスクが一気に高まります()。
- サイトルールの順守: robots.txt と ToS は必ず確認しましょう。robots.txt は法的拘束力はありませんが、守るのが基本です。ToS違反は民事訴訟などにつながる可能性があります()。
- 技術的対策への配慮: 人間に近い速度でアクセスし、セキュリティ対策を回避しないことが重要です。サーバーに負荷をかけすぎたり、CAPTCHAを迂回したりすると、ハッキング扱いに近づきます()。
2024〜2026年に何が変わったのか:重要判例と規制の動き
2023年以降、ウェブスクレイピングを取り巻く法環境は大きく変わりました。スクレイパーなら知っておくべき動きを整理します。
主要判例
-
Meta v. Bright Data(2024): 米国連邦裁判所は、と判断しました。判事は「アカウントを持たない訪問者は『ユーザー』とはみなされない」と指摘。その後、Metaは残りの請求を取り下げました。公開データスクレイピングにとって画期的な勝利です。
-
X Corp v. Bright Data(2024): Twitter(現X)も同様の訴訟で敗訴し、同じ原則が補強されました。つまり、ログインせずにアクセス可能なデータをスクレイピングしてもToS違反には当たらない、なぜならスクレイパーはその規約に同意していないからです。
-
Reddit v. Perplexity AI(2025年10月): Redditは。DMCAを持ち出し、ボット対策システムの回避を主張しました。これは新しい法的戦略の兆しで、プラットフォーム側はCFAAよりも著作権や回避防止規定に軸足を移しつつあります。
-
NYT v. OpenAI(2025年3月): 連邦判事が、、OpenAIの却下申立てを退けました。これは、スクレイピングしたコンテンツをAIモデルの学習に使うことが「フェアユース」かどうかに大きな前例を作る可能性があります。
-
Anthropicの和解(2025年9月): Anthropicは、AIモデル学習のために著作権のあるテキストを使用した件で、米国の著作権集団訴訟を和解するために15億ドルを支払うことで合意しました。AI学習目的のスクレイピングには、現実的なコストが伴うことを示しています。
大きな流れ:CFAAから契約法・著作権法へ
流れは明確です。CFAA(Computer Fraud and Abuse Act)は、公開データのスクレイパーに対する武器としての効力を失いつつあります。 Meta、X、LinkedInなどが公開データスクレイピングにCFAAを使おうとしても、概ねうまくいっていません。その代わり、法廷での争点は次に移っています。
- 契約法(ToS違反。ただし裁判所は「同意していない非ユーザーにはToSは及ばない」としつつある)
- 著作権請求(特にAI学習データ)
- 回避防止規定(DMCA第1201条)
スクレイパーにとって、法的リスクが消えたわけではありません。単に場所が変わっただけです。
規制の変化
- CCPA 2026年改正: カリフォルニア州の改訂CCPA規則がされ、自動意思決定技術(ADMT)、リスク評価、データブローカー義務に関する新ルールが追加されました。
- 米国の新しい州プライバシー法: インディアナ、ケンタッキー、ロードアイランドが2026年施行の包括的プライバシー法を制定しました。
- EU AI法: から本格施行。AI開発者に学習データの出所開示、著作権のオプトアウト尊重、顔画像スクレイピングの禁止を求めます。
- AI Accountability for Publishers Act(2026年2月): AI企業に、コンテンツをスクレイピングする前に出版社の許可を得て対価を支払うよう求める米国法案案です。
主要プラットフォームのスクレイピング方針:知っておくべきこと
すべてのサイトがスクレイピングを同じように扱うわけではありません。主要プラットフォームごとに、何が許容され、何がブロックされ、裁判所がどう判断してきたかを見ていきましょう。
| プラットフォーム | ToS上の扱い | 技術的防御 | 法的執行 | 実務上の安全ライン |
|---|---|---|---|---|
| Google(検索 & Maps) | ToSで自動アクセスを禁止。Maps Platformには明確な「No Scraping」条項あり。 | SearchGuard、CAPTCHA、レート制限。2025年にrobots.txtを更新し、AIクローラーをブロック。 | 2025年12月にDMCAを用いてスクレイパーを提訴。AIクローラー(Anthropic、Meta、OpenAI)を積極的に遮断。 | Google Mapsの公開ビジネスデータのスクレイピングは法的には主張可能(hiQの前例)だが、技術的ブロックは覚悟すべき。可能なら公式APIを使う。 |
| Amazon | 利用規約であらゆるスクレイピングを明示的に禁止("no robot, spider, scraper, or other automated means")。 | 強力なボット検知、CAPTCHA、IPブロック。robots.txtでGooglebot/Bingbot以外を遮断。2025年以降はAIクローラーも明示的にブロック。 | 2025年11月にPerplexity AIを提訴。定期的に警告書を送付。2026年3月にはAIエージェント向けルールを含むBSA改訂。 | 商品データ(価格、商品一覧)は事実情報であり米国法上は取得可能性があるが、Amazonは強硬に対抗する。アクセス頻度を抑え、個人データは避ける。 |
| ToSでスクレイピングを禁止。利用にはユーザー同意が必要。 | 多くのプロフィールデータにログイン壁、ボット検知、レート制限。 | hiQ事件で公開プロフィールのスクレイピングはCFAA違反ではないと確認されたが、偽アカウント利用では契約違反・不正競争でLinkedIn側が勝訴。 | ログインなしで見える公開プロフィールは、法的には比較的主張しやすい。偽アカウント作成やログイン後データの取得は避ける。 | |
| Meta(Facebook & Instagram) | ToSでスクレイピング禁止。ログイン状態/非ログイン状態でルールが分かれる。 | 多くのコンテンツにログイン壁、高度なボット検知。 | 2024年にBright Dataに敗訴。裁判所は、非ログインのスクレイパーにはToSは適用されないと判断。残りの請求も取り下げ。 | ログインせずに見える公開データ(ビジネスページ、公開投稿)は比較的安全。非公開プロフィールやログイン後データは絶対に避ける。 |
| X(Twitter) | 2023年にToSを更新し、書面同意なしのスクレイピングとクロールを全面禁止。旧robots.txt例外も削除。 | robots.txtで全クローラーを遮断(Disallow: /)。Cloudflare Turnstile、厳しいレート制限(300 req/hr)、IP評価スコア。 | 公開データではBright Dataに敗訴したが、技術的アクセス制限は非常に強い。 | 公開ツイートやプロフィールは法的には主張可能だが、2026年時点でXは最難関クラス。プレミアムなプロキシ基盤なしではブロックされる可能性が高い。 |
結論: 裁判所は一貫して、ログインせずに公開表示されているデータのスクレイピングはCFAA違反ではないと判断してきました。とはいえ、プラットフォーム側は契約法、著作権、回避防止の観点から攻めてくる可能性があり、技術的な障壁で作業をかなり難しくしてきます。常に責任ある方法で行いましょう。
AI学習データとウェブスクレイピング:新たな法的最前線
2026年のニュースを追っていれば、AIモデル学習のためのデータスクレイピングが今もっとも熱い法廷闘争のテーマになっているのはご存じでしょう。現状はこうです。
- 著作権訴訟が急増しています。 The New York Times、著者、出版社はOpenAIやAnthropicなどを提訴し、大量の著作物スクレイピングをLLM学習に使うのは「フェアユースではない」と主張しています。Anthropicは2025年に15億ドルの大型和解に合意し、AI学習目的のスクレイピングには実際のコストがあることを示しました。
- 「フェアユース」論は不安定です。 米国裁判所は、スクレイピングデータでAIを学習させることがフェアユースかどうかについて、まだ決定的な判断を下していません。初期の判断を見る限り、データの取得方法とAI出力の使い方が大きく左右します。
- 新しい法整備が進んでいます。 (2026年2月提出)は、AI企業に対し、コンテンツをスクレイピングする前に出版社の許可取得と支払いを求める法案です。
- EU AI法()では、AI開発者に学習データの出所開示、機械可読な著作権オプトアウトの尊重(著作権指令のTDM例外に基づく)、AI生成コンテンツの表示を求めています。また、インターネット上の顔画像をスクレイピングするAIシステムは禁止です。
- AI/LLMクローラーが急増しています。 AIクローラーのウェブトラフィック比率は、わずか8か月で2.6%から10.1%へと4倍に増えました。OpenAIのGPTBot単体でも305%増加。これを受けて、Amazon、Reddit、NYTなどの大手サイトはrobots.txtを更新し、AIクローラーを明示的にブロックしています。
あなたにとっての意味: もし従来型のビジネス用途(リード獲得、価格監視、市場調査)でスクレイピングしているなら、これらのAI特有の規制は直接は当てはまらないこともあります。ただし、取得データをAIモデルに投入するなら、非常に慎重に進め、法的助言を受けるべきです。
世界のウェブスクレイピング法をざっくり比較
世界全体で見ると、ルールはどう整理できるでしょうか。
- 米国: 一律禁止ではありません。公開サイトのスクレイピングは一般に合法とされる傾向があり()、2024年のMetaおよびX Corpの判決で公開データのスクレイピングはさらに有利になりました。ただし、ログイン後や技術的ブロックの向こう側にあるデータを取得するとCFAAが問題になる可能性は残ります。現在は、企業が契約法や著作権請求で対抗する流れが強まっています。プライバシー法も急速に拡大しており、CCPAは2026年1月1日施行で大きく改正され、自動意思決定やデータブローカー義務に関する新ルールが加わりました。インディアナ、ケンタッキー、ロードアイランドでも2026年に包括的プライバシー法が施行されています。
- 欧州連合: プライバシー規制が非常に厳格です。GDPRは公開された個人データにも適用されます。データベース権により、構造化データの大規模スクレイピングが制限されることもあります()。新たに、が2026年8月2日に本格施行され、AI開発者は学習データの出所を開示し、著作権オプトアウトを尊重しなければなりません。AI用途の顔画像スクレイピングも禁止です。
- 英国: Brexit後もEUに近いルール体系です。公開データは取得できますが、個人情報のスクレイピングは厳しく規制されます。Computer Misuse Actで無権限アクセスが犯罪になることがあります。
- 中国: 非常に厳しい環境です。PIPLとデータ安全法により、個人データには同意が必要です。裁判所は、不正競争法を使って企業に損害を与えるスクレイピングを止めることがあります()。

結論として、社内利用のために公開・非個人データをスクレイピングするのが、一般に最も安全です。それ以外は、現地法を確認し、慎重に進めてください。
ウェブスクレイピングの合法性に関するよくある誤解
よく耳にする誤解をいくつか整理しましょう。
- 誤解1:「ウェブスクレイピングは全面的に違法」
これは誤りです。ウェブスクレイピング全般を禁止する法律はありません。重要なのは、何を、どう取得するかです()。 - 誤解2:「公開データなら好きに使っていい」
そこまで単純ではありません。公開データでも、プライバシー法や著作権法の保護を受けることがありますし、ToSで用途が制限されることもあります()。 - 誤解3:「ウェブスクレイピングはハッキングと同じ」
違います。公開Webページを取得することはハッキングではありません。ログインや技術的障壁の回避は別問題です()。 - 誤解4:「バレなければ問題ない」
かなり危険な考え方です。多くのサイトはボット対策を導入しており、必ず気づかれるとは限りませんが、黙認は同意ではありません。 - 誤解5:「クレジットを付ければ、社内利用ならOK」
出典表示だけでは、著作権法やプライバシー法を無効化できません。社内利用のほうが安全ですが、免罪符ではありません。 - 誤解6:「ウェブスクレイピングはすべてプライバシー違反」
すべてのスクレイピングが個人データを扱うわけではありません。ただし、十分な保護なしに大量の個人情報を収集するのは、ほぼ確実に違法になります()。 - 誤解7:「サイトのToSがスクレイピング禁止なら、常に違法」
必ずしもそうではありません。2024年のMeta v. Bright DataやX Corp v. Bright Dataでは、同意していないユーザーにToSは拘束力を持たないと判断されました。つまり、ログインせず、アカウントも作らずに取得しているなら、そのサイトのToSはあなたに適用されない可能性があります。まだ発展途上の分野ですが、大きな変化です。
法的に安全にデータをスクレイピングする方法:コンプライアンスのベストプラクティス
法的・倫理的に安心してウェブスクレイピングを行うための、私の定番チェックリストです。
- サイトの利用規約を読み、守る。 「スクレイピング禁止」とあるなら、止めるか許可を取ることを検討しましょう()。
- 公開データに限定する。 パスワードが必要なら、それは制限付きです。スクレイピングしないでください()。
- robots.txt を確認し、丁寧にクロールする。 法的拘束力はありませんが、マナーとして守るのが基本です。サーバーに負荷をかけすぎず、リクエスト間隔を空けましょう()。
- 法的根拠がない限り個人データは避ける。 必要な場合でも、GDPR/CCPAに準拠し、最小限に絞って収集してください。
- スクレイピングした内容を丸ごと再公開しない。 付加価値や分析を加えるか、許可を取りましょう()。
- 著作権の確認なしにスクレイピングデータをAIモデルへ投入しない。 法的環境は急速に変わっています。用途がこれなら、必ず助言を受けましょう。
- 公式APIやデータエクスポートがあるなら、それを使う。 こうした手段はその目的のために用意されており、通常はより安全です()。
- 透明性と説明責任を持つ。 個人データを扱うなら、本人に知らせ、作業ログも残しましょう。
- データは最小限にし、安全に保管する。 必要なものだけを集め、正確性を保ち、適切に保管してください。
- 最新情報を追い、グレーゾーンでは法務相談をする。 法律や判例は急速に変化しています。特にEU AI法や米国の州プライバシー法は要注目です。不明点があれば専門家に相談しましょう。
ウェブスクレイピングツールを合法的に使うには:企業が知っておくべきこと
のようなウェブスクレイピングツールを使えば、ノーコードでもデータ収集がしやすくなります。ただし、使い方は責任あるものでなければなりません。
- コンプライアンス重視のツールを選ぶ。 Thunderbitは、ブラウザ上で見えている内容だけを取得します。こっそりAPIを突破したり、無断アクセスしたりはしません()。
- 正当な用途に限定する。 社内分析、市場調査、競合価格の監視は、一般に安全です。再公開や販売は、はるかにリスクが高くなります。
- コンプライアンスに合わせて設定する。 クロール遅延を設定し、robots.txt を守り、必要な項目だけを集めるテンプレートを使いましょう。
- 社内利用にとどめる。 スクレイピングデータは、再公開より社内活用のほうが安全です。
- チームを教育する。 全員がルールとベストプラクティスを理解している状態にしましょう。
- 内蔵のコンプライアンス機能を活用する。 Thunderbitは、リスクの高いサイトを警告し、人間に近い速度でスクレイピングし、データをサーバーに保存しません。
- 無理に突破しようとしない。 ツールで取得できないサイトを、力技で回避しようとしないこと。すべてのデータがリスクなく取れるわけではありません。
Thunderbitの考え方:コンプライアンスに配慮したAIウェブスクレイピングを実現する
では、コンプライアンスについて長い時間をかけて考えてきました。AI Web Scraper が、どのようにユーザーを法的リスクから守るのかをご紹介します。
- 見えているものだけを取得。 Thunderbitはブラウザのセッション内で動作するため、手動でコピーできないデータにはアクセスしません。
- 警告で注意喚起。 スクレイピング禁止が厳しいサイトを取得しようとすると、Thunderbitが警告します。
- 人間らしい速度で取得。 ローカルでもクラウドでも、サーバーに負荷をかけすぎない設計です。
- 取得項目を柔軟に選べる。 AIが関連カラムを提案し、必要なデータだけを集めやすくします。
- サブページやページネーションに対応。 実際のユーザーのようにサイト構造に沿って進みます。
- プライバシーとセキュリティ。 データはあなたの手元に残り、Thunderbitが保存・再利用することはありません。
- コンプライアンスに配慮したエクスポート。 Google Sheets、Airtable、Notion、CSVへ直接出力でき、社内利用にも安心です。
- スケジュール実行と自動化。 責任ある間隔で定期スクレイピングを設定できます。
- 多言語対応。 ThunderbitのUIは34言語に対応しており、世界中でコンプライアンス運用をしやすくしています。
- テンプレートの定期更新。 人気サイト向けの即時テンプレートは、法的・技術的変更に合わせて更新されています。
製品にコンプライアンスを組み込むことで、Thunderbitはチームが必要なデータを取得できるようにしつつ、法務上の面倒を減らします。
一歩先へ:ウェブスクレイピングの法的・技術的変化にどう対応するか
ウェブスクレイピングは、一度設定したら終わり、というものではありません。法律もサイト構造も常に変わります。先手を打つためのポイントはこちらです。
- 法改正の動きを追う。 2024〜2026年は変化のスピードが加速しました。テック法務ニュース、規制当局の更新、業界ブログ( など)をチェックしましょう。EU AI法の施行(2026年8月)、米国の新たな州プライバシー法、進行中のAI著作権訴訟は特に重要です。
- 技術的変更に適応する。 サイトのレイアウトやボット対策は常に変わります。Amazon、X、Googleのような大手は、2025〜2026年に防御を大幅に強化しました。ThunderbitのAIとテンプレートは、それに自動で追随するよう設計されています。
- 公式APIがあるなら積極的に使う。 サイトが有料APIに移行したなら、信頼性とコンプライアンスのために切り替えを検討しましょう。
- スクレイピングを定期監査する。 データソースを記録し、ToSやポリシー変更を確認し、必要に応じて戦略を見直しましょう。
- Thunderbitのテンプレート更新を活用する。 チームがテンプレートを最新に保つので、仕様変更や新しいコンプライアンス要件を気にしなくて済みます。
- 柔軟でいる。 データソースが危険すぎるなら、別のソースに切り替えるか、提携を検討しましょう。
適切なツールと考え方があれば、法的な落とし穴を踏まずに、データパイプラインを止めずに済みます。
まとめ:ウェブスクレイピングの法的環境をどう進むか
ウェブスクレイピングは本質的に違法ではありません。ビジネス、研究、イノベーションに役立つ強力な手段です。ただし、どんなツールにもルールがあります。大切なのは、何を取得し、どう取得し、データをどう使うのかを理解することです。現地法を尊重し、サイトのポリシーを守り、 のようなコンプライアンス重視のツールを使って、運用を適法な範囲に保ちましょう。
2024〜2026年の判決(Meta v. Bright Data、X Corp v. Bright Data)は、公開データのスクレイピングに追い風を与えましたが、AI学習データ、著作権請求、EU AI法をめぐる新たなリスクも浮上しています。Google、Amazon、LinkedIn、Meta、X など、プラットフォームごとに運用は大きく異なるため、取得前に状況を把握しておくことが重要です。
少しでも不安があるなら、特に大規模案件や機微な案件では、法務の専門家に相談してください。そして、法環境は常に変わるので、情報収集と柔軟性を忘れないでください。
ウェブスクレイピング、コンプライアンス、自動化についてもっと知りたいですか? でさらに詳しいガイドを読むか、 をぜひ試してみてください。
よくある質問
1. ウェブスクレイピングはどこでも違法ですか?
いいえ。ウェブスクレイピング自体が違法なのではなく、何をどのように、どの地域で行うかによって変わります。公開された非個人データを社内利用のために取得するのは多くの地域で一般に許容されますが、個人データや著作物の取得、サイト規約違反は違法になることがあります()。
2. robots.txt を無視すると、スクレイピングは違法になりますか?
robots.txt に法的拘束力はありませんが、尊重するのがベストプラクティスです。無視しただけで自動的に訴えられるわけではありませんが、紛争になった際に「悪質」と見なされやすくなります()。
3. Google、Amazon、LinkedIn はスクレイピングできますか?
簡単ではありません。3社ともToSでスクレイピングを禁止していますが、裁判所はログインしていないユーザーにはToSが拘束力を持たない場合があると判断しました(2024年のMeta v. Bright Data と X Corp v. Bright Data 参照)。公開表示されているデータ(商品価格、ビジネス一覧、公開プロフィール)のスクレイピングは、米国では一般に法的主張がしやすいです。ただし各社の執行方法は異なり、Amazonは法的措置が最も強硬(2025年11月にPerplexity AIを提訴)、LinkedInは技術的障壁と契約請求が中心、GoogleはDMCAベースの執行を強めています。常に責任ある方法で行い、技術的な対抗策を想定してください。
4. Facebook や Instagram はスクレイピングできますか?
2024年のMeta v. Bright Data以降、FacebookやInstagramの公開データをログインせずにスクレイピングする行為は、法的により強い立場にあります。裁判所はMetaのToSは非ユーザーには適用されないと判断しました。ただし、偽アカウントを作ったり、ログイン壁の向こう側を取得したりするのは絶対に避けてください。
5. X(Twitter)はスクレイピングできますか?
Xは2023年にToSを更新し、書面同意なしのスクレイピングを全面禁止しました。さらに、Cloudflare Turnstile、300 req/hourのレート制限、IP評価スコアなど強力な技術的防御も導入しています。ただし、Bright Dataは同様の論点で法廷勝訴しており、アカウントなしで取得した公開データはXのToSに拘束されないとされています。技術面では、2026年時点で最も難しいプラットフォームの一つです。
6. AIモデル学習のためのデータスクレイピングは合法ですか?
2026年時点で最大の未解決論点です。NYT v. OpenAI や Anthropic の15億ドル和解など、大型訴訟はかなりの法的リスクを示しています。EU AI法では、学習データの出所開示と著作権オプトアウトの尊重が求められます。提案中のAI Accountability for Publishers Actでは、許可と支払いが必要になります。AI学習目的でスクレイピングするなら、事前に法的助言を受けてください。
7. Thunderbit のようなツールを安全に使う最善の方法は?
公開データだけを取得し、サイト規約を守り、法的根拠がない限り個人情報は避け、データは社内で使いましょう。Thunderbit は、ブラウザに見えている範囲だけを取得し、リスクの高いサイトには警告を出すことで、コンプライアンス遵守を支援するよう設計されています()。
8. 商用利用のためにデータをスクレイピングできますか?
場合によります。社内分析や調査目的なら一般に安全です。再公開や販売は、特に著作物や個人データの場合、かなりリスクが高く、許可やライセンスが必要になることがあります。
9. ウェブスクレイピングの法的・技術的変化にどう追いつけばいいですか?
テック法務ニュースを追い、対象サイトのToSやポリシー変更を監視し、テンプレートやコンプライアンス機能を定期更新するThunderbitのようなツールを使いましょう。2026年の注目点は、EU AI法の施行(8月)、進行中のAI著作権訴訟、新しい米国州プライバシー法です。迷ったら専門家に相談してください。