数か月前、営業チームの同僚から、何度も聞かれてきたあの質問を受けました。「公開サイトから競合の価格をスクレイピングしたら、本当にまずいことになるの?」彼は仕入先の連絡先ディレクトリを見つけ、価格がきれいに並んでいるのを見て、あとはスプレッドシートにまとめたいだけでした。ためらうのには十分な理由があります。正直、その感覚はもっともです。
英国には、単独の「Webスクレイピング法」はありません。その代わり、4つの重なり合う法的枠組みが、あるスクレイピング行為が適法かどうかを左右します。つまり答えはどうしても「場合による」になるのですが、だからといって身動きが取れなくなる必要はありません。このガイドでは、法律が実際に何を言っているのか、実務上のケースにどう当てはまるのか、どんな罰則があるのか、そしてどうすればコンプライアンスを維持できるのかを解説します。
私はのチーム向けにこのテーマをかなり調べてきました。5つの法律事務所のブログやRedditのスレッドをつぎはぎしなくても済むように、分かったことを共有したいと思います。
Webスクレイピングとは何か(そして英国企業が使う理由)
Webスクレイピングとは、ソフトウェアを使ってWebサイトからデータを自動収集することです。Webページからスプレッドシートへ延々とコピー&ペーストする、あの面倒な作業を置き換えます。
この手法自体は中立です。最初から合法でも違法でもありません。重要なのは、何をスクレイピングするのか、どうやって取得するのか、その後データをどう使うのかです。
英国企業は、さまざまな正当な目的でスクレイピングを使っています。
- 価格比較: たとえばPriceSpy UKは、しています。
- リード獲得: 営業チームが公開ディレクトリから会社名、メールアドレス、電話番号を取得するケース。
- 市場調査: 分析担当者が不動産掲載情報、求人サイト、競合製品のラインナップを監視するケース。
- 学術研究: 英国国家統計局は、2014年から2015年にかけてスーパーマーケットのWebサイトからを収集しました。
- AIモデルの学習: 急速に拡大している一方で、法的にはまだ不安定なユースケースです。
この傾向は明確です。では、英国の200人を含む500人の意思決定者のうち、が公開Webデータを世界経済にとって重要、または非常に重要と考えており、が少なくとも毎日それを利用していました。
それでも、は、規制が明確でないことに自社が不安を感じているとも答えています。まさにその不安こそが、この記事を書いた理由です。
英国でWebスクレイピングは合法か? 率直な答え
英国法には、Webスクレイピングを全面的に禁止する法律はありません。ただし、どのように行うかは複数の法律で規制されており、個々のプロジェクトが適法かどうかは4つの要素に左右されます。

- どんなデータをスクレイピングするか(個人データか、事実ベースの非個人データか)
- どうやってアクセスするか(公開ページか、ログイン制御やCAPTCHAを回避するか)
- サイトの利用規約に何が書かれているか(自動アクセスを禁止しているか)
- 取得後にデータをどう使うか(社内分析か、商用再販か)
私が見つけた中でいちばん分かりやすいたとえは、Webスクレイピングは公共の場での写真撮影に似ている、というものです。公共の場で写真を撮ることは、直ちに違法ではありません。ただし、被写体、場所、方法、使い方によっては法的リスクが生じます。スクレイピングも同じです。公開されていることは重要ですが、それだけで全てが決まるわけではありません。
ICOによる最近の生成AIに関する協議は、スクレイピングされた個人データに関する英国の公式見解として、最も明確なものの1つです。そこでは、生成AIモデルの学習にWebスクレイピングした個人データを使う場合、利用可能な唯一の適法根拠は正当な利益であるとしつつも、開発者が厳格な3要件テストに合格することが条件だと述べています。これは非常に高いハードルであり、英国の規制当局がスクレイピングデータをいかに重く見ているかを示しています。
Webスクレイピングに適用される英国の4つの法律
4つの重なり合う観点があります。どのスクレイピング案件も、そのうち1つ、2つ、または4つすべてに引っかかる可能性があります。
UK GDPR と 2018年データ保護法
氏名、メールアドレス、電話番号、IPアドレス、SNSプロフィールなどの個人データをスクレイピングする場合、UK GDPRが適用されます。「公開されている」ことは「自由に使ってよい」ことを意味しません。
公開されている個人データも、依然として個人データです。
商用スクレイピングで最も関係する適法根拠は、正当な利益(第6条)です。ただし、この言葉を唱えるだけでは足りません。次の要件が必要です。
- 具体的で正当な目的を特定する
- その目的のために処理が必要であることを示す
- 自分の利益と、収集対象者の権利を比較衡量する
ICOの生成AIに関する協議回答は特に示唆的です。広範な社会的便益だけで足りると考えるべきではないこと、スクレイピング以外の代替手段が不適切である理由を証拠で示すべきこと、そして個人が自分の権利を理解し行使できる透明性の仕組みを用いるべきことを明言しています。出典: 。
B2Bのリード獲得でも、考え方は同じです。営業チームは、公開されている業務用連絡先情報の収集について正当な利益に依拠できる場合がありますが、それでも正当な利益を文書化し、収集項目を最小限に抑え、特別なカテゴリのデータを避け、可能な範囲でプライバシー情報を提供し、オプトアウトを尊重する必要があります。
著作権、データベース権、TDM例外
著作権は、テキスト、画像、商品説明、記事などのオリジナルなWebサイトコンテンツを保護します。価格のような事実データは、単体では通常、著作権の影響を受けにくいです。ただし、保護された表現をコピーして再公開すれば、侵害の問題になります。
データベース権は、多くの人が考える以上にスクレイピングと関係があります。英国はEU型の独自データベース権をBrexit後も維持しており、保護されたデータベースの「実質的部分」を抽出すると、個々のデータが事実情報であっても侵害になる可能性があります。キュレーションされたディレクトリ、商品カタログ、マーケットプレイス掲載情報などが典型例です。
の下でのテキスト・データマイニング(TDM)例外は、利用者が適法にアクセスしており、目的が非商用研究である場合に限って、複製を認めます。これはかなり限定的です。商用スクレイピング、商用AI学習、商用データセット再販は対象外です。
英国政府はAI学習向けにこの例外を拡張することを検討しましたが、の時点では、創作者、AI開発者、英国経済の各目的を十分に満たせると確信できるまで改革は導入しないと判断しました。現状では、既存の例外が適用されない限り、AI学習のために保護作品をコピーするには通常、許可が必要です。
Webサイト利用規約と契約法
多くのWebサイトには、自動スクレイピングを禁止または制限する利用規約があります。サイトにアクセスした時点で、すでにその規約に同意したことになる場合があります。特に、同意画面をクリックする方式(clickwrap)ではその傾向が強いです。フッターリンクの奥にある規約(browsewrap)は事実関係への依存度が高いものの、英国裁判所はスクレイピングに対する利用規約制限を執行する姿勢を示しています。の紛争では、裁判所は表示されたWebサイト規約をスクリーンスクレイピングの文脈で拘束力あるものとして扱いました。
robots.txtは法律ではありません。サイト所有者からの機械可読なシグナルです。典型的なファイルは次のようになります。
1User-agent: *
2Disallow: /account/
3Disallow: /checkout/
4Disallow: /private/
5Crawl-delay: 10
robots.txtを無視しても、直ちに違法になるわけではありません。ただし、裁判所やICOはこれをサイト所有者の意思を示す証拠として扱います。これを無視すると、特に利用規約違反や大量アクセスが重なる場合、法的リスクは高まります。
1990年コンピュータ不正使用法
これは多くの人を不安にさせる法律で、理由があります。刑事罰を定めているからです。第1条は、コンピュータ情報への無権限アクセスを規定し、最高です。第3条は、コンピュータの動作を妨げる無権限行為を規定し、最高です。
CMAのリスクが最も低いのは、データが本当に公開されていて、スクレイパーが技術的障壁を回避しない場合です。次のような場合はリスクが上がります。
- ログイン制御、CAPTCHA、IPブロックを回避する
- 盗まれた認証情報を使う、または偽アカウントを作成する
- 対象サービスを妨害するほどのトラフィックを送る
英国には、米国のような「公開データなら自由に使ってよい」という明確なルールはありません。そのため、英国での助言はより慎重になります。公開アクセスはCMAリスクを大幅に下げますが、利用規約、技術的制御、そしてスクレイパーが制限を知っていたかどうかは、依然として重要です。
「これを合法的にスクレイピングできる?」 — 簡易判断フロー
何かをスクレイピングする前に、次の5つの判断ポイントを確認してください。法律相談ではなく、60秒でできるリスク仕分けです。
| 判断ポイント | YESなら | NOなら |
|---|---|---|
| データは個人データ(氏名、メールなど)か? | UK GDPRが適用されます。適法根拠を特定し、LIAを実施し、項目を最小化し、透明性の計画を立てます。 | GDPRの層は適用されない可能性がありますが、他の確認は続けてください。 |
| サイトの利用規約でスクレイピングが明示的に禁止されているか? | 契約違反リスクがあります。API、ライセンス、または法的レビューを検討してください。 | 契約リスクは低めですが、robots.txtを確認してください。 |
| データベースの実質的部分を抽出するか? | 独自データベース権を侵害している可能性が高いです。ライセンス取得か、より限定的な抽出を検討してください。 | それでも、個別にコピーしたコンテンツには著作権が及ぶ可能性があります。 |
| ログイン、CAPTCHA、アクセス制御を回避しているか? | 1990年CMA上の刑事罰に該当する可能性があります。中止して法的レビューを受けてください。 | アクセスが本当に公開されているなら、CMAリスクは下がります。 |
| 目的は非商用研究か? | 適法アクセスがあるなら、第29A条のTDM例外が適用される可能性があります。 | 英国には商用TDMの広いセーフハーバーはありません。IPと契約の全面的な分析が必要です。 |
ああ、これが私が最初にチームのスクレイピング・コンプライアンスを調べ始めたときにあればよかったのに、と思います。法的な複雑さを、1分未満で実行できる構造化された自己診断に変えてくれます。
実例で見る:あなたのスクレイピングは英国で合法か?
抽象的な法律の話は一つのことです。みんなが本当に知りたいのは、「自分の案件が本当にまずいことになるのか?」という点です。
もっともです。ここでは、英国でよくある5つのスクレイピング用途について、それぞれ簡単な法的リスク評価を示します。
商品価格を比較用にスクレイピングする
最も一般的で、しばしばリスクの低い業務用途の1つです。価格は事実データであり、PriceSpyのようなサイトは自動価格収集で動いています。
ただし、リスクが完全になくなるわけではありません。対象サイトの利用規約でスクレイピングが禁止されている場合、商品説明や画像をコピーしている場合、あるいはキュレーションされた商品データベースの実質的部分を抽出している場合には、契約、著作権、データベース権の問題が生じる可能性があります。
リスクレベル: 低〜中
重要な対応策: 事実ベースの価格項目だけを収集し、商品説明をそのままコピーしない、利用規約とrobots.txtを尊重する、レート制限をかける、競合カタログの生データをそのままミラー再公開しない。
データを商用再販するためにスクレイピングする
はっきり言って、最もリスクの高い商用シナリオです。あなたは他者のデータ投資を販売用商品へと変えていることになり、4つの法的柱すべてに同時に触れる可能性があります。
リスクレベル: 高
重要な対応策: 法務レビューは必須です。データ所有者とのライセンス契約を検討してください。商品に個人データが含まれるなら、データ保護影響評価も追加してください。
リード獲得のために業務連絡先情報を抽出する
私が会った営業チームはみな、何らかの形でこれをしています。ディレクトリからメールアドレス、電話番号、会社名をスクレイピングするのです。難点は、業務連絡先データにも個人データが含まれがちだということです。公開されていても、特定の従業員のメールアドレスは個人データです。
リスクレベル: 中
重要な対応策: 正当な利益評価を実施する、可能な限り業務用の連絡先データのみに限定する、適法根拠を文書化する、オプトアウト手段を用意する。のようなツールは、がユーザーのブラウザ内で動作するため、アクセスリスクを下げられます。アクセス制御を回避せず、ユーザーがすでに見えている範囲のみにアクセスします。
学術研究やポートフォリオ向けのデータ分析
本当に非商用の研究であれば、著作権例外として最も強い立場があります。適法アクセスがある限り、第29A条のCDPAが使えるからです。
リスクレベル: 低(本当に非商用なら)
重要な対応策: 非商用目的であることを記録する、出典を明記する、可能なら匿名化または集計する、著作権コンテンツや個人データを再配布しない。
AIモデル学習のためにコンテンツをスクレイピングする
2026年になっても、みんなが一番気にしているテーマですが、答えは依然としてすっきりしません。ICOは、Webスクレイピングした個人データを学習に使うことを、見えにくい高リスク処理として扱っています。英国政府の2026年報告書でも、商用TDMの広い例外は導入されませんでした。
リスクレベル: 中〜高
重要な対応策: ライセンス取得、データセットの出所確認、著作権分析、個人データのフィルタリング、適法根拠の文書化、英国の政策変更を継続監視すること。
シナリオ要約表
| シナリオ | 主に関係する法律 | リスクレベル | 重要な対応策 |
|---|---|---|---|
| 商品価格の監視 | 利用規約、データベース権、著作権 | 低〜中 | 事実項目のみ収集し、サイトのシグナルを尊重する |
| 商用データ再販 | 4つすべて | 高 | 法務レビューとライセンス取得が必須 |
| B2Bリード獲得 | UK GDPR、利用規約 | 中 | LIAを実施し、個人データを最小化する |
| 学術研究 | 著作権(TDM例外)、個人データがあればGDPR | 低 | 非商用目的を維持し、再公開しない |
| AIモデル学習 | UK GDPR、著作権、データベース権 | 中〜高 | データをライセンス取得し、適法根拠を文書化し、政策を監視する |
英国・米国・EUでWebスクレイピング法はどう違うか
英国だけで運用しているなら、この節は飛ばして構いません。ただ、多くの企業は私が話す限り国際的にスクレイピングしているか、少なくとも他法域にホストされたWebサイトをスクレイピングしています。違いは思った以上に重要です。
| 法的論点 | 🇬🇧 英国 | 🇺🇸 米国 | 🇪🇺 EU |
|---|---|---|---|
| 主なデータ保護法 | UK GDPR + DPA 2018 | 連邦法の同等規定なし(州法はまちまち) | EU GDPR |
| 主要なスクレイピング判例 | Clearview AI(ICOによる750万ポンドの罰金) | hiQ対LinkedIn(公開データのスクレイピングは可、9巡回区。ただしhiQは恒久的差止めを受け、最終同意判決で50万ドルを支払った) | Ryanair対PR Aviation(CJEU, C-30/14、データベース権) |
| コンピュータアクセス法 | 1990年コンピュータ不正使用法 | CFAA(2021年のVan Burenで範囲縮小) | 加盟国ごとに異なる |
| 著作権 / TDM例外 | 狭い:非商用研究のみ(第29A条) | フェアユース理論(より広く、個別判断) | DSM指令第3条・第4条(権利留保付きのより広いTDM権) |
| データベース権 | あり(EUデータベース指令から継承) | 連邦レベルの同等権利なし | データベース指令に基づく独自権 |
| 利用規約の執行可能性 | 契約法が適用、browsewrapは議論あり | 混在:browsewrapは執行困難なことが多い | 変動あり。Ryanairで利用規約の立場が強化された |
実務上の要点はこうです。複数法域にまたがってスクレイピングするなら、適用される中で最も厳しい法律に従ってください。米国はhiQ判例の下で公開データアクセスに比較的寛容ですが、hiQが包括的な許可証だったわけではありません(最終的にLinkedInのスクレイピングを差し止められ、50万ドルを支払いました)。EUはDSM指令によって、TDMの仕組みがより広くなっています。英国はその中間です。広い商用TDM例外はなく、強いデータベース権があり、規制当局も सक्रियです。
罰則と執行:実際に摘発されたら何が起きるか

「罰金」や「法的トラブル」という曖昧な警告では、誰の役にも立ちません。ここでは実際の数字を示します。
UK GDPRの罰金
上限はのいずれか大きい方です。
実例として、Clearview AIは英国のSNSから顔画像をスクレイピングしたことで、2022年にICOからの罰金を科されました。第一審審判所は管轄を理由にこれを取り消しましたが、はICOの控訴を認め、事件を差し戻しました。ICOは、2025年12月時点でClearviewがと述べています。
1990年コンピュータ不正使用法の刑事罰
- 第1条(無権限アクセス): まで
- 第3条(無権限による障害): まで
通常の公開ページのスクレイピングが刑事訴追されることは、極めてまれです。
ただし、行為がハッキング、認証情報の不正使用、CAPTCHA回避、サービス妨害に近づくと、リスクは大きく変わります。
著作権とデータベース権
民事上の損害賠償と差止命令です。故意の商用侵害では刑事罰の可能性もありますが、多くのスクレイピング紛争は民事請求として進みます。
契約違反(利用規約違反)
民事上の損害賠償、アカウント停止、IPブロック。これは実務上もっとも一般的な執行手段であり、たいてい最初に起こることです。
罰則の重さのまとめ
| 法的枠組み | 最大罰則 | 一般的な業務用スクレイピングでの起こりやすさ | 実例 |
|---|---|---|---|
| UK GDPR | 1,750万ポンドまたは世界売上高の4% | 個人データを大量に扱う場合は中、非個人データなら低 | Clearview AIへの750万ポンドの罰金 |
| CMA 第1条 | 懲役2年 | 公開ページでは低いが、回避行為があると高くなる | 無権限アクセスに関するCPSのガイダンス |
| CMA 第3条 | 懲役10年 | システムを妨害するほどのトラフィックがなければ低い | DDoS型の障害事例 |
| 著作権 / データベース権 | 損害賠償と差止命令 | 保護コンテンツやキュレーション済みDBのコピーで中 | RyanairやBHBの一連の判例 |
| 利用規約違反 | 損害賠償、アカウント停止、ブロック | 実務上の執行手段としては高い | Ryanairのスクリーンスクレイピング紛争 |
適切なスクレイピングツールが法的リスクをどう下げるか
ツールを選んだからといって、違法なスクレイピングが合法になるわけではありません。ただし、避けられるリスクは取り除けます。
私の経験では、サイトのシグナルを尊重するツールと、何でも強引に回避するツールの違いは、単なるデータ案件と法的な頭痛の種の違いになることが多いです。
robots.txt とサイトのシグナルを尊重する
責任あるツールは、スクレイピング前にrobots.txtを確認し、尊重しやすくするべきです。法的拘束力はないものの、robots.txtに従うことは、裁判所やICOから誠実性の証拠として見られます。Thunderbitのでは、公開されているデータをスクレイピングし、robots.txtと利用規約を守るよう案内しています。
ブラウザスクレイピングとクラウドスクレイピングの使い分け
この違いは法的にも重要です。ブラウザスクレイピングは、ユーザーが認証済みセッションで見えている範囲だけにアクセスします。要するに、手作業を自動化するものです。クラウドスクレイピングはサーバーからリクエストを送るため、公開サイトでは速い一方、サイト側からは「自動アクセス」と見えやすくなります。
は両方のモードを提供しています。ログインが必要なサイトにはブラウザスクレイピングが適しており(CMA上の「無権限アクセス」リスクを下げる)、一方で公開されているECページなど速度が重要な場面ではクラウドスクレイピングが向いています。この二刀流により、ユーザーは各サイトの法的リスクに合わせて手法を選べます。
アクセス制御を回避しない
ブラウザ内で動作し、CAPTCHAを破ったりログイン制御を迂回したりしないツールは、コンピュータ不正使用法の観点から本質的に低リスクです。ThunderbitのChrome拡張機能はユーザーのブラウザセッション内で動作し、ユーザーがすでに見えているものだけにアクセスします。
透明なデータ出力(GDPR対応を支える)
ThunderbitはExcel、Google Sheets、Airtable、Notionへ直接エクスポートできます。データの送り先はユーザーが管理します。これはGDPRの透明性と適法根拠の文書化を支えます。何を収集し、どこへ送ったかが明確だからです。ツール側で隠れた処理やデータ保持はありません。
レート制限と責任あるアクセス
過度なリクエスト量はCMA第3条(無権限による障害)を引き起こす可能性があります。レート制限は単なる技術ベストプラクティスではなく、法的セーフガードです。責任あるツールはサーバーに負荷をかけすぎないため、法的リスクとIPブロックの可能性の両方を下げます。

英国でのWebスクレイピングに向けた実践的コンプライアンスチェックリスト
何かをスクレイピングする前に、次を確認してください。
- 対象サイトの利用規約と利用可能範囲ポリシーを読む。
- robots.txtファイルを確認し、関連パスが禁止されているか記録する。
- 欲しいデータが個人データかどうかを判断する。該当するなら、UK GDPR上の適法根拠を特定する。
- データベースの「実質的部分」を抽出していないかを評価する。
- 技術的アクセス制御(CAPTCHA、ログイン、レート制限)を回避していないことを確認する。
- 目的が非商用研究なら、TDM例外の適用を受けられるよう、その事実を文書化する。
- レート制限を使う。 対象サーバーに過負荷をかけない。
- すべてを文書化する: 適法根拠、利用規約の確認内容、収集データ項目、出力先、保持期間。
- 迷ったら、 データ保護と知的財産を専門とする弁護士に相談する。
このチェックリストは弁護士の意見に代わるものではありませんが、確かな出発点になり、何か聞かれたときにも誠実に対応していたことを示せます。
重要なポイント
- Webスクレイピングは英国で違法ではありません。ただし、UK GDPR、著作権・データベース権、契約法、1990年コンピュータ不正使用法という4つの重なる法的枠組みによって規制されています。
- スクレイピングの適法性は、何をスクレイピングするか、どうアクセスするか、サイト規約に何が書かれているか、その後データをどう使うかで決まります。
- 個人データのスクレイピングは、もっとも高いコンプライアンス負担を伴います。通常、正当な利益が唯一の現実的な適法根拠であり、文書化された衡量テストが必要です。
- 英国には広い商用TDM例外はありません。商用AI学習とデータセット再販は、ライセンスなしでは高リスクです。
- 上の判断フローとシナリオ表を使って、始める前に自分の状況を評価してください。
- コンプライアンスのベストプラクティスに合うツールを選んでください。ブラウザベースのアクセス、CAPTCHA回避なし、透明なデータ出力、レート制限です。はこれらを前提に設計されていますが、コンプライアンス責任は常にユーザー側にあります。
- 迷ったら、理由を文書化し、弁護士に相談してください。法的意見の費用は、ICOの調査コストよりほぼ必ず安く済みます。
よくある質問
英国で公開されているデータをスクレイピングするのは合法ですか?
一般的には、はい。公開データのスクレイピングは、アクセス制限のあるデータや非公開データをスクレイピングするよりリスクが低いです。ただし、「公開されている」ことは「好きなように自由に使える」という意味ではありません。UK GDPRは公開個人データにも適用されうるし、著作権はコピーされた表現を保護し、データベース権はキュレーションされた集合を保護し、利用規約は自動アクセスを制限できるからです。
英国のWebサイトからメールアドレスや電話番号をスクレイピングしてもよいですか?
そのデータが個人データである場合(メールや電話番号は通常そうです)、UK GDPR上の適法根拠が必要です。B2Bリード獲得では正当な利益が最も一般的な根拠ですが、衡量テストを行い、収集データを最小限にし、オプトアウト手段を用意しなければなりません。業務用ディレクトリ掲載情報よりも、私生活の連絡先データ(携帯番号、個人メール)をスクレイピングする方がはるかにリスクが高いです。
英国法上、WebスクレイピングとWebクローリングの違いは何ですか?
法的には、実質的な違いはありません。法律が見るのはラベルではなく行為です。クローリングは通常、ページの発見や索引作成を意味し、スクレイピングは通常、構造化データの抽出を意味します。どちらもWebサイトへの自動アクセスであり、同じ法的枠組みの対象です。
robots.txt があると、スクレイピングは違法になりますか?
いいえ。robots.txtは法的拘束力を持ちません。ただし、無視すると法的リスクは高まります。裁判所やICOはそれをサイト所有者の意思を示す証拠として扱うからです。robots.txtを無視し、さらにサイトの利用規約でもスクレイピングが禁止されているなら、リスク要因を積み重ねていることになり、防御はずっと難しくなります。
英国でWebスクレイピングをすると刑事訴追されることはありますか?
アクセス制御(CAPTCHA、ログイン、IPブロック)を回避した場合か、の下でコンピュータシステムに損害を与えた場合に限られます。本当に公開されているデータを、妥当な量で、技術的回避なしに通常の方法でスクレイピングしても、刑事告発につながる可能性は極めて低いです。行為がハッキングや意図的なサービス妨害に近づくと、リスクは大きく変わります。
さらに詳しく知る
