2024年5月1日、オランダの個人データ保護庁が、ヨーロッパ中のあらゆるデータチームをざわつかせる見出しを出しました。 というのです。営業、eコマース、不動産など、要するにウェブデータに依存している人なら、思わずヒヤッとしたのではないでしょうか。
その気持ちはよく分かります。 では、価格監視、リード獲得、市場調査のためにウェブデータが必要なビジネスチームと毎日のように話しています。悩みはいつも同じです。みんな「ヨーロッパでウェブスクレイピングは合法か」と検索するのですが、返ってくる答えはどれも「場合による」の一言ばかり。締め切りが迫っていて、スクレイピングしたいURLがずらっと並んでいるときに、それでは役に立ちません。
そこで私は数週間かけて、実際の規制、DPAのガイダンス、執行記録、判例を掘り下げ、もっと実用的なものを作りました。判断用のチェックリスト、主要な保護策をまとめた表、実際の罰金額、そして規制当局の逆鱗に触れずにヨーロッパのWebサイトをスクレイピングするための手順ガイドです。Amazonの商品価格を取得する場合でも、ディレクトリからB2Bの連絡先を抽出する場合でも、この記事を読めば、どこが境界線なのか、そしてその内側にどうとどまるかが分かります。
ウェブスクレイピングとは? なぜ欧州の企業が気にすべきなのか?
ウェブスクレイピングとは、Webサイトからデータを自動で抽出し、スプレッドシート、データベース、CRMなどの構造化された形式に落とし込むことです。200ページ分の商品名や価格をコピペする代わりに、スクレイパーが各ページを巡回し、必要な項目をきれいな列にまとめて取り出します。
非エンジニアのチームにとって、なぜこれが重要なのでしょうか。ウェブデータは実際のビジネス判断を支えているからです。営業チームはディレクトリをスクレイピングしてリードを探し、eコマース担当者は競合価格を毎日監視し、不動産アナリストはポータル全体の掲載動向を追い、市場調査担当者は公開レビューや評価を大規模に収集します。 は急速に成長しており、企業は毎日何百万ものデータポイントをスクレイピングしています。
ただし、欧州の規制環境は米国とは異なります。GDPR、データベース指令、そして進化するDPAのガイダンスにより、「公開されている」ことは「自由に使える」ことを意味しません。オランダDPAのアレイド・ヴォルフゼン議長が言うように、「公開されているからといって、自動的にスクレイピングの許可になるわけではない」のです。始める前にルールを理解しておくことは任意ではありません。きれいなデータセットで済むか、6桁ユーロの罰金を払うか、その分かれ道です。
ヨーロッパでウェブスクレイピングは合法? 簡潔な答え
ウェブスクレイピング自体がヨーロッパで違法というわけではありません。ただし、合法かどうかは 何を スクレイピングするか、どのように スクレイピングするか、そして なぜ するかで決まります。
EUでスクレイピングを規律する法的レイヤーは3つあります。
- GDPR — 個人データ(氏名、メールアドレス、電話番号、IPアドレス、仮名化された識別子も含む)をスクレイピングする場合に適用されます。
- EUデータベース指令 — データを整理するために「実質的な投資」を行った作成者のデータベースを保護します。
- 契約法/利用規約法 — 多くのWebサイトは利用規約でスクレイピングを明示的に禁止しており、EUの裁判所もそれを執行してきました。
重要なのは、「公開」=「規制なし」ではないということです。個人データでなくても、データベース権や契約法の保護対象になることがあります。スクレイピングの案件では、この3層をまとめて確認する必要があります。
ウェブスクレイピングを規律するEUの主要法令
GDPR: 個人データをスクレイピングする場合
識別可能な個人に結びつくデータは、すべてGDPR上の義務を発生させます。氏名、メールアドレス、電話番号、IPアドレス、写真、そして再識別可能な仮名化データまで含まれます。個人データをスクレイピングした瞬間に、あなたはGDPR上の義務を負う「データ管理者」になります。
- 適法な根拠(第6条): データを処理する法的理由が必要です。大量スクレイピングで同意を取るのは、ほぼ現実的ではありません。公開情報を集める前に何百万人もの人に許可を求めることはできないからです。最もよく挙げられる根拠は 正当な利益(第6条1項f)ですが、文書化された3要素のテストが必要です。(1) あなたの利益が正当であること、(2) 処理がその利益のために必要であること、(3) データ主体の合理的な期待を踏まえても、その権利を不当に上回らないこと。
- 透明性(第14条): 本人から直接収集していないため、通常は1か月以内に、何を収集したのか、なぜ収集したのか、どう権利を行使できるのかを通知しなければなりません。個別通知が不釣り合いな場合は、第14条の内容をすべて含む一般通知を公開する必要があります。
- データ最小化: 実際に必要なものだけを収集します。商品価格が目的なら、販売者のメールアドレスまで取る必要はありません。
- 保存期間と権利管理: 保持期間を設定し、削除要求に応じ、出典情報へのアクセスを提供します。
(2024年5月採択)は、さらに一段階踏み込みました。収集、前処理、学習、プロンプト、出力という各処理段階ごとに、個別に法的根拠の分析が必要だとしたのです。EDPBはウェブスクレイピングに正当な利益を否定したわけではありませんが、適切な保護策を伴う完全な3要素テストを求めました。
EUデータベース指令: データの整理方法を保護する仕組み
データベース指令は、データの取得、検証、提示に「実質的な投資」を行ったデータベース作成者に sui generis の権利を与えます。スクレイピングがそのデータベースの「実質的部分」を抽出する場合、その権利を侵害するおそれがあります。
実務上、このハードルは比較的高めです。大規模小売業者から数百件の商品価格をスクレイピングするだけでは、通常は該当しません。しかし、競合他社のカタログ全体を一括ダウンロードするような、何万件もの掲載情報をまとめて取得する行為は、特に作成者が投資回収できなくなる場合に、境界を越える可能性があります。EU司法裁判所はこの基準について複数の判決を出しており、常に重要なのは比例性です。
多くのビジネス向けスクレイピング、たとえば商品ページから特定項目を取得したり、カテゴリ内で掲載情報を比較したりするケースでは、データベース指令のリスクは比較的低めです。ただしリスクがゼロではないため、スクレイピング範囲を設計するときには意識しておく価値があります。
利用規約: 契約法という落とし穴
ここで多くの人がつまずきます。多くのWebサイトは、利用規約でスクレイピングを禁止しています。ヨーロッパでは、利用規約違反は民事上の問題であって刑事ではありませんが、それでも差止め命令や契約訴訟、現実的な金銭的リスクにつながり得ます。
知っておくべき2種類があります。browsewrap(ページ下部などにひっそり置かれた受動的な規約)は、ユーザーが積極的に同意していないため、執行しにくい傾向があります。一方、clickwrap(チェックボックスを入れる、または「同意する」をクリックする形式)は、より執行されやすいです。
代表的なEU判例は Ryanair v. PR Aviation です。ここではデータベース権が適用されなかったにもかかわらず、スクレイパーが利用規約に同意していたため、Ryanairの規約がスクレイパーに対して執行されました。したがって、スクレイピング前には必ず対象サイトの利用規約を確認してください。スクレイピングを明示的に禁じるclickwrap契約なら、慎重に進めるか、代わりにAPI利用を検討すべきです。
DSM指令とAI法: 研究・テキスト/データマイニングの例外
すべてのスクレイピングに同じ制限がかかるわけではありません。デジタル単一市場(DSM)指令(2019年)は、2つのテキスト・データマイニング(TDM)例外を導入しました。
- 第3条: 研究機関および文化遺産機関は、適法にアクセスしたコンテンツに対してTDMを実施できます。
- 第4条: 権利者が明示的にオプトアウトしていない限り(robots.txt、ai.txt、TDMRepヘッダーなどで示される)、商業企業を含む誰でもTDMを実施できます。
EU AI法(第53条) は、AIモデル提供者に対して、TDMのオプトアウト機構を遵守し、学習データの出典を文書化する義務を追加します。
ただし注意点があります。これらの例外が対象とするのは 著作権とデータベース権 であり、GDPRではありません。TDMに個人データが含まれるなら、別途GDPR上の法的根拠が必要です。

「これはスクレイピングしていい?」と判断するための欧州向けチェックリスト
このトピックを調べ始めた当初に、こういう章があればよかったのにと思っていました。法律記事はどれも「場合による」と書きますが、実際の判断フローはどうなっているのでしょうか。ここでは、明確な分岐点を持つコンプライアンス用の手順チェックリストを示します。各ステップの結果は、✅ 続行、⚠️ 保護策を追加、🛑 停止 のいずれかです。
ステップ1: データは個人データか、それとも非個人データか?
非個人データ(商品価格、SKU番号、個人に紐づかない事業所住所など): 規制上の負担は比較的軽めです。データベース指令と利用規約は確認する必要がありますが、GDPRは適用されません。✅ ステップ3へ進む。
個人データ(氏名、メールアドレス、電話番号、写真、人に結びつく識別子など): GDPRが適用されます。⚠️ ステップ2へ進む。
ステップ2: どのGDPR上の法的根拠が適用されるか?
- 同意: 大量スクレイピングでは、ほぼ実行不可能です。🛑 かなり狭く特定されたケースを除きます。
- 正当な利益(第6条1項f): 最も一般的な根拠です。ただし、文書化された3要素のテストが必要です。
- あなたの利益が正当であること( によれば、商業的利益も該当し得ます)。
- その利益のために処理が必要であること。
- データ主体の合理的な期待を踏まえても、あなたの利益が権利を上回らないこと。
- スクレイピング前にバランステストを文書化する。 スクレイピングする人たちが、その用途を合理的に予想していたと言えないなら、それは危険信号です。⚠️ 文書化した正当な利益で進める。
ステップ3: サイトの利用規約でスクレイピングが制限されているか?
- スクレイピングを禁じるclickwrap契約: 🛑 高リスクです。別のデータソースや公式APIの利用を検討してください。
- browsewrap、またはスクレイピング制限なし: ⚠️ リスクは低めですが、robots.txtや技術的な拒否シグナルは必ず尊重してください。
ステップ4: データベース指令は適用されるか?
- 対象は、データ整理に大きな投資が行われたデータベースですか?
- スクレイピングは、そのデータベースの「実質的部分」を抽出しますか?
- 両方が yes なら: ⚠️ sui generis権侵害のリスクがあります。抽出範囲を絞ってください。
ステップ5: 研究またはTDMの例外に当てはまるか?
- 登録済みの研究機関、または文化遺産機関ですか? DSM指令第3条が適用される可能性があります。✅
- 商業目的のTDMですか? 第4条のオプトアウトシグナル(robots.txt、ai.txt、TDMRep)を確認してください。対象サイトがオプトアウトしているなら、🛑 そのソースは停止。
ステップ6: DPA推奨の保護策を実施したか?
上記のゲートを通過したら、最後のステップはCNIL、オランダDPA、EDPBが推奨する保護策を実装することです。詳細は次の章で説明します。✅ 保護策を整えたうえで進める。

DPA準拠の保護策: CNIL、オランダDPA、EDPBが推奨する内容
スクレイピングについて、ヨーロッパで最も積極的に動いている3つの規制当局の保護策をまとめた競合記事は、私が見つけた限りでは1つもありませんでした。そこで、、、 を突き合わせて、この表を作りました。
| 保護策 | CNIL | オランダDPA(AP) | EDPBタスクフォース | 実装のヒント |
|---|---|---|---|---|
| 第14条の透明性通知 | ✅ 必須 | ✅ 必須 | ✅ 必須 | ソースの種類、目的、法的根拠、保持期間、権利行使窓口、DPO連絡先を記載した公開通知を出す |
| スクレイピング前のDPIA | ✅ 推奨(高リスクなら必須) | ✅ 必須 | ✅ 必須 | 開始前に、バランステスト、データ種別、リスク、緩和策を文書化する |
| データ最小化 | ✅ 必須(収集基準を明確化) | ✅ 必須 | ✅ 必須 | 必要な項目だけを抽出するようスクレイパーを設定し、不要データはすぐ削除する |
| レート制限/robots.txtの尊重 | ✅ 必須(robots.txtやCAPTCHAで拒否するサイトは除外) | — | — | robots.txtを解析し、リクエスト間に遅延を入れ、User-Agentを明示する |
| 仮名化/匿名化 | ⚠️ 推奨(収集直後) | ✅ 強く推奨 | ✅ 推奨 | IDをハッシュ化またはランダム化する、プロフィールURLを削除する、本人特定が不要なら顔をぼかす |
| 保持期間 | ✅ 上限を定義 | ✅ できるだけ短く | ✅ 上限を定義 | 削除スケジュールを自動化し、生データのキャッシュと抽出済み事実を分ける |
| オプトアウト/ブラックリスト機構 | ✅ 推奨(裁量による事前異議申立て) | ✅ 必須(第21条の異議申立て) | ✅ 必須 | オプトアウトフォーム、ドメインのブラックリスト、個人単位の除外設定を用意する |
| センシティブなソースを除外 | ✅ 必須(健康関連フォーラム、未成年者向けサイト、ポルノサイト、家系図関連サイトなど) | ✅ 必須 | ✅ 必須 | 健康、宗教、政治、生体認証、未成年者に関するデフォルトのブロックリストを維持する |
Thunderbit側からの実践的な補足として、 機能を使えば、価格、SKU、商品名など、抽出する列を正確に指定できます。つまり、スクレイパーが集めるのは必要なものだけで、ページ全体をまとめてダウンロードするわけではありません。目的限定とデータ最小化の原則に沿った、構造化された項目だけを選べるのです。ただし、どんなツールでも非準拠のスクレイピングが合法になるわけではありません。法的な分析が先です。

あなたのユースケースで、ヨーロッパのウェブスクレイピングは合法か? 業界別ガイダンス
フォーラムでよく見る質問は、「スクレイピングは合法か?」ではなく「自分の スクレイピングは合法か?」です。抽象的なGDPR理論では答えになりません。そこで、よくあるビジネス用途ごとに整理しました。
| ユースケース | データ種別 | 主な法的リスク | 想定される結果 |
|---|---|---|---|
| eコマースの価格監視(公開商品一覧) | 非個人データ(価格、SKU、商品名) | データベース指令のsui generis権、利用規約違反 | 個人データがなく、データベースの「実質的部分」を体系的に抽出しないなら、一般に低リスク |
| B2Bリード獲得(ディレクトリからの連絡先情報) | 個人データ(氏名、メール、電話番号) | GDPR第6条の法的根拠、第14条通知、電子連絡に関するePrivacy | リスク高め。文書化した正当な利益のバランステストと通知義務が必要 |
| 不動産掲載情報(ポータルの物件データ) | 混在(住所は非個人、所有者名は個人データの可能性) | データベース指令、利用規約、所有者に紐づく場合はGDPR | 中程度のリスク。所有者データを匿名化し、利用規約を確認し、robots.txtを尊重する |
| AI学習データ(大規模なWebコンテンツのスクレイピング) | フィルタしなければ個人データを含み得る | GDPR + EU AI法第53条のTDM義務 | 高リスク。GDPRとAI法の両方に対応し、オプトアウト機構と堅牢なフィルタリングが必要 |
公開eコマースデータのような低リスクのケースでは、Thunderbitの のような構造化テンプレートを使うと、不要な内容を集めずに、特定の非個人データ項目だけを抽出できるため、リスクを抑えられます。リード獲得のように個人データを扱う高リスクのケースでは、法的な分析が先です。どんなに賢いスクレイパーでも、非準拠の収集を準拠に変えることはできません。

EU vs 米国 vs 英国: ウェブスクレイピング法の違い
国境をまたいで事業を行うなら、ルールの違いを理解する必要があります。これを見やすい横並びの表で示した競合記事は見つからなかったので、ここにまとめます。
| 観点 | EU | 米国 | 英国(Brexit後) |
|---|---|---|---|
| 主な法令 | GDPR + データベース指令 + ePrivacy | CFAA + 州法(連邦レベルのデータプライバシーは限定的) | UK GDPR + 2018年データ保護法 |
| 公開データのスクレイピング | 個人データが含まれる場合は、依然としてGDPRの法的根拠が必要 | hiQ v. LinkedIn 以降、一般に合法(公開データ) | EUに近い。ICOのガイダンスが適用 |
| 利用規約の執行 | 民事上の問題。Ryanair v. PR Aviation でsui generis権が執行 | Van Buren でCFAAが狭く解釈。利用規約違反 = 刑事ではない | 民事上の問題で、EUに近い |
| データベース保護 | sui generis権あり(強い) | 同等の連邦権利なし | 継続されたsui generis権あり |
| AI/TDM例外 | DSM指令第3〜4条、AI法第53条 | 連邦のTDM例外なし(フェアユース法理) | 英国はTDM例外を検討中(2026年時点で停滞) |
| 主な執行機関 | 各国DPA(CNIL、オランダAPなど) | FTC + 州司法長官 | ICO |
| 最近の傾向 | 厳格化(オランダAP: 個人データでは「ほとんど常に違法」) | hiQ 後は比較的寛容 | 中程度。概ねEUの方向に追随 |
ヨーロッパのWebサイトや、ヨーロッパ居住者に関するデータをスクレイピングするなら、会社が米国や英国にあってもEUルールが適用されます。
実際の罰金と事例: 捕まったら本当に何が起こるのか(2022〜2026年)
ここは、問いの裏にある本当の問い、「実際のリスクは何か」に答える章です。2022年から2026年4月までに、ウェブスクレイピングやスクレイピングされた個人データに関わる公開DPA執行事例をすべて集めました。
| 年 | 執行機関 | 対象 | 違反内容 | 罰金/結果 |
|---|---|---|---|---|
| 2022 | イタリアGarante | Clearview AI | 法的根拠なしに顔画像をスクレイピング | 2,000万ユーロの罰金 + 利用禁止 + 削除命令 |
| 2022 | ギリシャDPA | Clearview AI | 同上 — 顔認識のスクレイピング | 2,000万ユーロの罰金 + 利用禁止 + 削除 |
| 2022 | CNIL(フランス) | Clearview AI | 顔認識データベース | 2,000万ユーロの罰金 + 1日10万ユーロの追加制裁の可能性 |
| 2023 | CNIL(フランス) | Clearview AI | 2022年命令への不遵守 | 520万ユーロの制裁金 |
| 2023 | オーストリアDSB | Clearview AI | 公開Webから300億件超の顔画像 | 削除 + EU代表者の指名命令(公表された罰金なし) |
| 2024 | オランダAP | Clearview AI | 違法な顔認識データ収集 | 3,050万ユーロの罰金 + コンプライアンス命令 |
| 2024 | CNIL(フランス) | KASPR | リード獲得のためのLinkedIn連絡先データのスクレイピング | 24万ユーロの罰金 — 1億6,000万件の連絡先、閲覧制限データ、5年間の保持 |
| 2024 | アイルランドDPC | X / Grok | AI学習に使われた公開投稿 | 停止合意。2025年に法定調査を開始 |
| 2024 | アイルランドDPC | Meta | 公開Facebook/Instagramコンテンツを使ったLLM学習の計画 | MetaがEUでのAI学習計画を停止 |
| 2024 | イタリアGarante | OpenAI | ChatGPTの学習データ + 透明性 | 1,500万ユーロの罰金が発行されたが、2026年3月にローマ地裁で無効化 |
スクレイピングやオープンWeb分野におけるEU/EEAの金銭的制裁総額は、9,500万ユーロ超 です(無効化されたOpenAIの罰金は除く)。
これらの大きな罰金はいずれも、法的根拠なしに生体認証データや個人データを大量にスクレイピングしたケース を対象にしています。Clearviewは何十億もの顔画像をスクレイピングしました。KASPRは、閲覧制限のあるLinkedInプロフィールのデータを含む1億6,000万件の連絡先をスクレイピングし、5年間保持していました。
商品価格やSKU番号のような、公開されている非個人データを対象とした、比例的で狙いを絞ったスクレイピングは、これまで執行対象になっていません。それで無リスクになるわけではありませんが、数字の見え方を理解する助けにはなります。
ヨーロッパのWebサイトを安全にスクレイピングする方法: 手順ガイド
- 難易度: 初級
- 所要時間: 約15分(コンプライアンス確認を含む)
- 必要なもの: Chromeブラウザ、(無料プラン可)、対象URL、そして上記チェックリストの簡単な確認
ステップ1: 目的と必要データを定義する
ツールを開く前に、なぜそのデータが必要なのか、そしてどの項目が本当に必要なのかを書き出してください。これは単なる良い習慣ではなく、GDPRの目的限定とデータ最小化の原則の土台です。
たとえば、「競合価格表を更新するために、50件のAmazon商品ページから商品名、価格、在庫状況が必要」といった具合です。具体的ですよね。これに対して、「Amazonの情報を全部スクレイピングしたい」はどうでしょう。前者は最小化テストに合格しますが、後者は通りません。
ステップ2: コンプライアンスチェックリストを実行する
上で示した6ステップの「これはスクレイピングしていい?」チェックリストを順番に確認してください。どこかで🛑 が出たら、続行せず法務に相談してください。
Amazonの価格取得の例でチェックすると、データは非個人データ(価格、SKU、商品名)なので✅、GDPR上の個人データ問題も✅、Amazonの利用規約は確認が必要(スクレイピングは制限されているため、利用可能なら公式商品データAPIを検討)なので⚠️、そして50商品程度ならデータベース指令のリスクは低めなので✅です。
ステップ3: 適切なスクレイピング方法を選ぶ
| 方法 | 使いやすさ | コンプライアンス支援 | 保守性 | 精度 |
|---|---|---|---|---|
| 手動コピペ | 低い | N/A(コピーする内容を自分で管理) | 高い(時間がかかる) | ミスが起きやすい |
| コードベースのスクレイパー(Python、Scrapy) | 低い(コーディング必須) | なし | 高い(サイト変更で壊れやすい) | 保守できれば高い |
| Thunderbit(AI搭載) | 非常に高い | フィールド単位の最小化を標準搭載 | 低い(AIがページ変更に適応) | 高い |
| 公式API | 中程度 | 最も高い(構造化され、認可されたアクセス) | 低い | 最も高い |
開発チームがないビジネスユーザーにとって、 は最短ルートです。公式APIがあるサイト(Amazon Product Advertising API など)では、APIが常に最も安全な方法です。ただし、データ量や取得項目に制限があることが多いです。
ステップ4: コンプライアンスに合わせてスクレイパーを設定する
Thunderbitでは次のように設定します。
- 対象ページ(例: Amazonの商品一覧ページ)に移動します。
- ChromeツールバーのThunderbitアイコンをクリックし、「AIでフィールドを提案」を選びます。AIがページを解析し、「商品名」「価格」「評価」「在庫状況」などの列を提案します。
- 不要なフィールドは削除します。 もしAIが「販売者名」や「販売者メールアドレス」を提案していて、価格データだけ必要なら、その列は消してください。これが実践的なデータ最小化です。
- Field AI Prompt を使って、「個人識別子を除外する」「公開価格データのみ抽出する」などの指示を追加します。
- 公開eコマースサイトでは Cloud Scraping を、認証が必要なサイトでは Browser Scraping を選びます。
- 「Scrape」をクリックする前に、robots.txt がその用途のスクレイピングを禁止していないか確認します。ブラウザで
[ドメイン]/robots.txtを開けば確認できます。
これで、設定した項目だけが入ったテーブルのプレビューが表示されるはずです。不要な個人データも、余計なメタデータもありません。
ステップ5: 責任を持ってエクスポート・保存・管理する
スクレイピング後は、データを にエクスポートします。Thunderbitはこれらすべてに無料で対応しています。
その後は次のように進めます。
- 保持期間を設定する。 スクレイピングしたデータを無期限で保存しないでください。毎週の価格監視なら、先月分の生データは不要なはずです。
- 個人データを収集した場合(例: リード獲得)、法的根拠を文書化し、第14条の透明性通知を公開し、オプトアウトや削除要求への対応手順を整えます。
- 可能な範囲で削除スケジュールを自動化する。 Thunderbitの なら、同じフィールド設定を保ったまま、決まった間隔で繰り返しスクレイピングを自動化できます。これにより、毎回コンプライアンスの範囲内に収めやすくなります。
ヨーロッパでスクレイピングしながらコンプライアンスを保つコツ
このテーマを調べ、コンプライアンス意識の高いチームと話す中で学んだ実践的なコツです。
- 新しいサイトをスクレイピングする前に、必ず利用規約を確認する。 2分で終わり、何か月もの法的トラブルを避けられるかもしれません。
- 使えるならAPIを使う。 構造化され、認可された、最も安全な方法です。スクレイピングはデフォルトではなく、あくまで代替手段です。
- 個人データを大規模に扱う案件ではDPIAを実施する。 CNILによれば、AI学習データセットは高リスクになり得ますし、DPIAは説明責任の証拠になります。小規模案件でも、分析を文書化しておくのは賢明です。
- スクレイピングログを残す。 何を、いつ、どこから、どの法的根拠で、どの保持期間でスクレイピングしたかを記録してください。DPAから問い合わせが来たとき、残しておいてよかったと思えるはずです。
- 規制の更新を追う。 DPAのガイダンスは急速に変化しています。CNILは2026年1月に新しいAIスクレイピング解説シートを公開し、EDPBも追加見解を出す見込みです。今日のルールが明日には厳しくなるかもしれません。
- 制限されたソースやセンシティブなソースはスクレイピングしない。 CNILの には、健康関連フォーラム、未成年者が主に使うサイト、ポルノサイト、家系図サイト、高度に構造化された個人データサイトが含まれます。スクレイピング案件を組むなら、デフォルトのブロックリストを維持してください。
- 自動トラフィックは運用上かなり重要です。 2024年の全Webトラフィックの42%がボットだったと報告し、 自動ボットトラフィックが初めて人間のトラフィックを上回り、2024年には51%に達しました。規制当局は、ボットの挙動、頻度、回避行動を、リスクや不公正の証拠としてますます重視しています。責任あるスクレイパーのように振る舞うこと、つまりUser-Agentを明示し、レート制限をかけ、拒否シグナルを尊重することは、単に礼儀正しいだけでなく、法的にも意味があります。
結論
ウェブスクレイピングは、ヨーロッパでは違法ではありません。ただし、特に個人データが関わる場合は、規制されています。
法的な結論は、何を スクレイピングするか(個人データか非個人データか)、どのように スクレイピングするか(利用規約、robots.txt、レート制限、フィールド単位の最小化)、そして なぜ 行うか(文書化された目的と法的根拠)で決まります。執行記録は明確です。法的根拠なしに個人データを大量かつ無差別にスクレイピングした場合、企業は7桁、8桁ユーロの罰金に直面します。一方、保護策を整えたうえで、公開されている非個人データを比例的かつ狙いを絞ってスクレイピングする行為は、まったく違うリスク領域にあります。
実務フレームワークは次のとおりです。
- すべてのスクレイピング案件の前に判断チェックリストを使う。
- DPA推奨の保護策を適用する。(透明性、最小化、保持期間の制限、オプトアウト機構)
- コンプライアンスを前提に設計されたツールを選ぶ。 ThunderbitのAIによるフィールド選択、構造化抽出、そして を使えば、必要なデータだけを簡単にスクレイピングできます。多すぎず、少なすぎず、ちょうどよく。
- すべてを文書化する。 バランステスト、ソース一覧、保持スケジュール、DPIA。規制当局に聞かれたとき、そのファイルがあなたの دفاعになります。
なお、当然ですが、この記事は情報提供を目的としたもので、法的助言ではありません。大規模な個人データを扱う高リスク案件では、必ず資格のあるプライバシー弁護士に相談してください。規制は進化しており、判断を誤るコストは現実です。
自分で準拠したターゲット型ウェブスクレイピングを試してみませんか? なら、小規模で構造化抽出を試せます。項目を定義し、必要なものだけをスクレイピングし、数クリックでエクスポートできます。 では、手順ごとの解説もご覧いただけます。
よくある質問
1. データが公開されていれば、ヨーロッパでウェブスクレイピングは合法ですか?
公開されているだけでは、個人情報を含む場合にGDPRの適用がなくなるわけではありません。オランダDPAが述べたように、「公開されているからといって、自動的にスクレイピングの許可になるわけではない」のです。公開されている非個人データ(商品価格、SKUなど)は一般にリスクが低めですが、それでもデータベース指令とサイトの利用規約は確認する必要があります。
2. ヨーロッパのWebサイトからメールアドレスや電話番号をスクレイピングできますか?
メールアドレスと電話番号は、GDPR上の個人データです。必要なのは法的根拠です。通常は、文書化されたバランステストを伴う正当な利益が使われます。また、第14条に基づき、本人に通知する必要があります。CNILは2024年、透明性や法的根拠が不十分なままLinkedInの連絡先データをスクレイピングしたKASPRに24万ユーロの罰金を科しました。つまり、この領域では執行がすでに活発です。
3. ヨーロッパで違法なウェブスクレイピングに対する最大の罰金はいくらですか?
オランダDPAは2024年、公開Webから違法に顔認識データを収集したとしてClearview AIに を科しました。ほかのEU DPAもClearviewにそれぞれ2,000万ユーロの罰金を科しています。2022〜2026年のEU/EEAにおけるスクレイピング関連の罰金総額は9,500万ユーロを超えています。
4. robots.txtを守れば、ヨーロッパでのウェブスクレイピングは合法になりますか?
robots.txt を尊重するのはベストプラクティスであり、 にも沿っていますが、それだけで合法になるわけではありません。個人データを扱うならGDPR、データベース指令、サイトの利用規約にも従う必要があります。robots.txtへの対応は、多層的なコンプライアンス枠組みの一層だと考えてください。
5. ヨーロッパと米国では、ウェブスクレイピングの法律はどう違いますか?
EUのほうがかなり厳格です。GDPRは、公開されているデータであっても個人データに適用されますし、データベース指令は整理されたデータセットを強く保護します。米国にはこれらに相当する連邦法はありません。hiQ v. LinkedIn の後、公開データのスクレイピングは米国では一般に許容されています。Brexit後の英国はその中間で、UK GDPRと継続されたデータベース権が概ねEUルールを踏襲しつつ、ICOが執行します。国境をまたぐビジネスではEUのルールが最も高い基準になり、EU居住者に関するデータをスクレイピングするなら、会社の所在地に関係なくそのルールが適用されます。
さらに詳しく
