ヨーロッパでウェブスクレイピングは合法？安全にスクレイピングする方法

2024年5月1日、オランダの個人データ保護庁は、「スクレイピングはほとんど常に違法だ」とする見解を公表しました。営業、eコマース、不動産など、Webデータを業務に利用するチームにとって、欧州でのデータ収集方法を見直すきっかけとなる内容です。

Thunderbitでは、価格監視、リード獲得、市場調査のためにWebデータを必要とするビジネスチームと、日常的に会話を重ねています。現場で繰り返し挙がるのが、「ヨーロッパでウェブスクレイピングは合法なのか」という疑問です。法的な判断は個別事情によりますが、実務では対象データ、取得方法、利用目的ごとに判断材料を整理する必要があります。

そこで私は数週間をかけて、規制条文、DPAのガイダンス、執行記録、判例を調べ、実務で使える判断チェックリスト、主な保護策の比較表、罰金事例、欧州サイトをスクレイピングする際の手順をまとめました。Amazonの商品価格を取得する場合と、ディレクトリからB2Bの連絡先を取得する場合では、確認すべき規制とリスクが異なります。本記事では、その境界と具体的な判断手順を順番に解説します。

ウェブスクレイピングの仕組みと欧州企業が確認すべき点

ウェブスクレイピングとは、Webサイトからデータを自動で抽出し、スプレッドシート、データベース、CRMなどで扱える構造化データに変換する方法です。200ページ分の商品名と価格を手作業でコピーする代わりに、スクレイパーが各ページを巡回し、指定した項目を列ごとに整理します。

非エンジニアのチームでも、営業リストの作成、競合価格の調査、不動産掲載情報の分析、公開レビューの集計などにWebデータを利用できます。世界のウェブスクレイピング市場は成長を続けており、企業が扱うデータ量も増えています。

一方、欧州ではGDPR、データベース指令、DPAのガイダンスなど、複数の規制を確認する必要があります。「公開されている」データであっても、利用目的やデータの種類によっては自由に再利用できるとは限りません。オランダDPAのアレイド・ヴォルフゼン議長も、「公開されているからといって、それが自動的にスクレイピングの許可になるわけではない」と述べています。取得前に適用関係を整理しておくことが、データ活用と法的リスク管理の両方に重要です。

Thunderbitでウェブデータ抽出を試す

ヨーロッパでウェブスクレイピングは合法？簡潔な答え

ウェブスクレイピングそのものが、ヨーロッパで違法というわけではありません。合法かどうかを決めるのは、何をスクレイピングし、どのようにスクレイピングし、そしてなぜスクレイピングするのか、という3点です。

EU でスクレイピングを規律する法的レイヤーは、3つあります。

GDPR — 個人データ（氏名、メールアドレス、電話番号、IPアドレス、仮名化された識別子も含む）をスクレイピングする場合に適用されます。
EUデータベース指令 — データの整理に「実質的な投資」を行った作成者のデータベースを保護します。
契約法／利用規約法 — 多くのサイトは利用規約でスクレイピングを明確に禁じており、EUの裁判所もそれを執行してきました。

肝心なのは、「公開」イコール「規制なし」ではない、という点です。たとえ個人データでなくても、データベース権や契約法の保護がかかることがあります。スクレイピング案件では、この3つの層をまとめて確認しなければなりません。

ウェブスクレイピングを規律するEUの主要法令

GDPR: 個人データをスクレイピングする場合

識別可能な個人に結びつく情報は、GDPR上の個人データに該当する可能性があります。氏名、メールアドレス、電話番号、IPアドレス、写真、再識別が可能な仮名化データなどが対象です。個人データをスクレイピングする事業者は、処理目的や関与の仕方に応じて、データ管理者としての義務を検討する必要があります。

適法な根拠（第6条）: データを処理するには、法的根拠が必要です。大量スクレイピングで個別の同意を得ることは、実務上難しい場合があります。公開情報の収集でよく検討される根拠の一つが正当な利益（第6条1項f）ですが、文書化された3要素のテストが求められます。(1) 利益が正当であること、(2) その利益のために処理が必要であること、(3) データ主体の合理的な期待や権利との比較衡量で利益が優越すること。
透明性（第14条）: 本人以外から個人データを取得した場合、原則として所定の期間内に、取得内容、目的、権利行使の方法などを本人へ通知する必要があります。個別通知が不釣り合いな負担となる場合に利用できる措置や例外は、要件を個別に検討します。
データ最小化: 利用目的に必要な項目だけを収集します。目的が商品価格の調査であれば、販売者のメールアドレスまで取得する必要があるかを見直します。
保存期間と権利管理: 保持期間を定め、削除要求やアクセス要求に対応できる手順を整えます。

EDPBのChatGPTタスクフォース報告書（2024年5月採択）は、収集、前処理、学習、プロンプト、出力という処理段階ごとに、法的根拠を分析する必要があるとしています。EDPBがウェブスクレイピングに正当な利益を一律に否定したわけではありませんが、保護策を含む3要素テストを具体的に文書化することが重要です。

EUデータベース指令: データの整理方法を保護する仕組み

データベース指令は、データの取得・検証・提示に「実質的な投資」を行ったデータベース作成者に、sui generisの権利を認めています。スクレイピングによってデータベースの「実質的部分」を抽出または再利用する場合、この権利を侵害する可能性があります。

該当性は、件数だけでなく、取得範囲、反復性、元データベースへの投資、作成者の利益への影響などを踏まえて判断されます。大手小売業者から商品価格を数百件取得する場合と、競合のカタログから何万件もの掲載情報を継続的に取得する場合では、評価が異なります。EU司法裁判所も関連する判断を示していますが、個別案件では取得方法と範囲の検討が必要です。

商品ページから特定の項目だけを取得したり、限られたカテゴリ内の掲載情報を比較したりする場合でも、データベース指令のリスクが自動的にゼロになるわけではありません。対象範囲と反復頻度を設計し、利用規約とあわせて評価することが重要です。

利用規約: 契約上の制限を確認する

スクレイピングでは、対象サイトの利用規約も重要な判断材料になります。利用規約でスクレイピングが禁止されている場合、その違反は差止めや契約上の請求など、民事上のリスクにつながる可能性があります。刑事責任を含む評価は、国や具体的な行為によって異なります。

規約の提示方法は、大きく2つに分けられます。browsewrapは、ページ下部などに規約へのリンクを表示する形式です。clickwrapは、チェックボックスや「同意する」ボタンによって明示的な同意を得る形式で、一般に契約成立を立証しやすいとされています。

代表的なEU判例として、Ryanair v. PR Aviationがあります。この事件ではデータベース権の適用とは別に、当事者間の利用規約が争点となりました。スクレイピングを始める前に対象サイトの規約と同意方法を調べ、明確な禁止条項がある場合は、取得を見送るか、公式APIや許諾済みのデータソースを比較します。

DSM指令とAI法: 研究・テキスト／データマイニングの例外

スクレイピングの目的や主体によっては、デジタル単一市場（DSM）指令（2019年）のテキスト・データマイニング（TDM）例外を検討できる場合があります。

第3条: 研究機関および文化遺産機関は、適法にアクセスしたコンテンツについて、所定の要件のもとでTDMを実施できます。
第4条: 権利者が権利を適切な方法で留保していない場合、商業企業を含む利用者がTDM例外を利用できる可能性があります。権利留保の方法として、robots.txt、ai.txt、TDMRepヘッダーなどが挙げられます。

**EU AI法（第53条）**は、AIモデルの提供者に対し、TDMに関する権利留保への対応や、学習コンテンツに関する情報の文書化を求めています。

ただし、これらの例外は主に著作権やデータベース権に関するものです。TDMの対象に個人データが含まれる場合は、GDPR上の法的根拠と義務を別途検討する必要があります。

欧州でスクレイピングの可否を判断するためのチェックリスト

このテーマを調べ始めた当初、私自身が必要としていたのは、「ケースバイケース」という結論だけでなく、案件ごとに何を順番に評価すればよいかを示す手順でした。ここでは、データの種類、法的根拠、利用規約、データベース権、TDM例外、保護策の順に整理します。各ステップの結果は、✅ 続行、⚠️ 保護策を追加、🛑 停止のいずれかです。これは初期判断のためのチェックリストであり、高リスク案件における法的助言の代わりになるものではありません。

ステップ1: データは個人データか、それとも非個人データか？

非個人データ（商品価格、SKU番号、個人に紐づかない事業所住所など）: 規制上の負担は軽めです。データベース指令と利用規約の確認は要りますが、GDPR は適用されません。✅ ステップ3へ進む。

個人データ（氏名、メールアドレス、電話番号、写真、人に結びつく識別子など）: GDPR が適用されます。⚠️ ステップ2へ進む。

ステップ2: どのGDPR上の法的根拠が適用されるか？

同意: 大量スクレイピングで個別の有効な同意を得ることは、実務上難しい場合があります。🛑 同意を根拠にする場合は、対象と目的を明確に限定します。
正当な利益（第6条1項f）: 検討されることの多い根拠の一つですが、文書化された3要素のテストが必要です。
1. 利益が正当であること（CJEUのC-621/22に関する2024年判決によれば、商業的利益も該当し得ます）。
2. その利益のために処理が必要であること。
3. データ主体の合理的な期待や権利と比較衡量して、利益が優越すること。
スクレイピング前にバランステストを文書化する。 データ主体が用途を合理的に予測できない場合は、目的、必要性、影響、保護策を見直します。⚠️ 正当な利益を根拠に進める場合は、判断過程を記録します。

ステップ3: サイトの利用規約でスクレイピングが制限されているか？

スクレイピングを禁じるclickwrap契約: 🛑 高リスクです。別のデータソースや公式 API の利用を検討してください。
browsewrap、またはスクレイピング制限なし: ⚠️ リスクは低めですが、robots.txt や技術的な拒否シグナルは必ず尊重してください。

ステップ4: データベース指令は適用されるか？

対象は、データ整理に大きな投資が行われたデータベースですか？
スクレイピングは、そのデータベースの「実質的部分」を抽出しますか？
両方が「はい」なら: ⚠️ sui generis権侵害のリスクがあります。抽出範囲を絞ってください。

ステップ5: 研究またはTDMの例外に当てはまるか？

登録済みの研究機関、または文化遺産機関ですか？ DSM指令第3条が適用される可能性があります。✅
商業目的のTDMですか？第4条のオプトアウトシグナル（robots.txt、ai.txt、TDMRep）を確認してください。対象サイトがオプトアウトしているなら、🛑 そのソースからの取得を停止します。

ステップ6: DPA推奨の保護策を実施したか？

ここまでの項目を評価したら、最後に、CNIL、オランダDPA、EDPBが示す保護策を実装します。詳細は次の章で扱います。✅ 必要な保護策を整えたうえで進める。

DPAガイダンスに基づく主な保護策: CNIL、オランダDPA、EDPBの比較

スクレイピング案件で検討すべき保護策を整理するため、CNILのウェブスクレイピング向け解説シート、オランダAPのガイダンス、EDPBのChatGPTタスクフォース報告書を比較しました。次の表は、各資料に示された主な要件・推奨事項と、実装時の検討例をまとめたものです。

保護策	CNIL	オランダDPA（AP）	EDPBタスクフォース	実装のヒント
第14条の透明性通知	✅ 必須	✅ 必須	✅ 必須	ソースの種類、目的、法的根拠、保持期間、権利行使窓口、DPO連絡先を記載した公開通知を出す
スクレイピング前のDPIA	✅ 推奨（高リスクなら必須）	✅ 必須	✅ 必須	開始前に、バランステスト、データ種別、リスク、緩和策を文書化する
データ最小化	✅ 必須（収集基準を明確化）	✅ 必須	✅ 必須	必要な項目だけを抽出するようスクレイパーを設定し、不要データはすぐ削除する
レート制限／robots.txtの尊重	✅ 必須（robots.txtやCAPTCHAで拒否するサイトは除外）	—	—	robots.txtを解析し、リクエスト間に遅延を入れ、User-Agentを明示する
仮名化／匿名化	⚠️ 推奨（収集直後）	✅ 強く推奨	✅ 推奨	IDをハッシュ化またはランダム化する、プロフィールURLを削除する、本人特定が不要なら顔をぼかす
保持期間	✅ 上限を定義	✅ できるだけ短く	✅ 上限を定義	削除スケジュールを自動化し、生データのキャッシュと抽出済み事実を分ける
オプトアウト／ブラックリスト機構	✅ 推奨（裁量による事前異議申立て）	✅ 必須（第21条の異議申立て）	✅ 必須	オプトアウトフォーム、ドメインのブラックリスト、個人単位の除外設定を用意する
センシティブなソースを除外	✅ 必須（健康関連フォーラム、未成年者向けサイト、ポルノサイト、家系図関連サイトなど）	✅ 必須	✅ 必須	健康、宗教、政治、生体認証、未成年者に関するデフォルトのブロックリストを維持する

Thunderbitの「AIでフィールドを提案」機能では、価格、SKU、商品名などの候補から、必要な列を選んで抽出範囲を絞れます。フィールド単位で設定できるため、データ最小化を実装する際の補助になります。ただし、項目を絞るだけで目的限定、法的根拠、透明性などの要件を満たしたことにはなりません。ツールの設定とは別に、案件ごとの法的評価と運用手順が必要です。

欧州でのウェブスクレイピング: ユースケース別の確認事項

「スクレイピングは合法か」という一般論だけでは、個別案件の判断には十分ではありません。取得するデータ、利用目的、対象サイト、取得規模によって、必要な法的根拠と保護策が変わります。ここでは、よくあるビジネス用途ごとに、データ種別、主なリスク、初期判断の目安を整理します。

ユースケース	データ種別	主な法的リスク	想定される結果
eコマースの価格監視（公開商品一覧）	非個人データ（価格、SKU、商品名）	データベース指令のsui generis権、利用規約違反	個人データがなく、データベースの「実質的部分」を体系的に抽出しないなら、一般に低リスク
B2Bリード獲得（ディレクトリからの連絡先情報）	個人データ（氏名、メール、電話番号）	GDPR第6条の法的根拠、第14条通知、電子連絡に関するePrivacy	リスク高め。文書化した正当な利益のバランステストと通知義務が必要
不動産掲載情報（ポータルの物件データ）	混在（住所は非個人、所有者名は個人データの可能性）	データベース指令、利用規約、所有者に紐づく場合はGDPR	中程度のリスク。所有者データを匿名化し、利用規約を確認し、robots.txtを尊重する
AI学習データ（大規模なWebコンテンツのスクレイピング）	フィルタしなければ個人データを含み得る	GDPR + EU AI法第53条のTDM義務	高リスク。GDPRとAI法の両方に対応し、オプトアウト機構と堅牢なフィルタリングが必要

公開されたeコマースデータから特定項目を取得する場合は、ThunderbitのAmazon や Shopify 向け即時テンプレートのような構造化テンプレートを使うと、取得列を限定しやすくなります。ただし、テンプレートの利用だけでデータベース権や利用規約上のリスクが解消されるわけではありません。個人データを含むリード獲得では、ツールを選ぶ前に、法的根拠、通知、異議申立てへの対応を設計します。

EU vs 米国 vs 英国: ウェブスクレイピング法の違い

複数の国・地域で事業を行う場合は、個人データ、データベース権、コンピューター不正利用、利用規約など、適用される法制度の違いを整理する必要があります。次の表は、EU、米国、英国の主な論点を比較したものです。

観点	EU	米国	英国（Brexit後）
主な法令	GDPR + データベース指令 + ePrivacy	CFAA + 州法（連邦レベルのデータプライバシーは限定的）	UK GDPR + 2018年データ保護法
公開データのスクレイピング	個人データが含まれる場合は、依然としてGDPRの法的根拠が必要	hiQ v. LinkedInでは、公開プロフィールへのアクセスに関するCFAA上の論点が扱われたが、他の法令や個別事情の評価は別途必要	EUに近い。ICOのガイダンスが適用
利用規約の執行	民事上の問題。Ryanair v. PR Aviation でsui generis権が執行	Van Buren でCFAAが狭く解釈。利用規約違反 = 刑事ではない	民事上の問題で、EUに近い
データベース保護	sui generis権あり（強い）	同等の連邦権利なし	継続されたsui generis権あり
AI/TDM例外	DSM指令第3〜4条、AI法第53条	連邦のTDM例外なし（フェアユース法理）	英国はTDM例外を検討中（2026年時点で停滞）
主な執行機関	各国DPA（CNIL、オランダAPなど）	FTC + 州司法長官	ICO
最近の傾向	厳格化（オランダAP: 個人データでは「ほとんど常に違法」）	hiQ 後は比較的寛容	中程度。概ねEUの方向に追随

欧州のサイトや欧州在住者に関するデータを扱う場合は、会社の所在地だけで判断せず、GDPRの域外適用を含む各制度の適用条件を評価する必要があります。

実際の罰金と執行事例（2022〜2026年）

スクレイピング案件のリスクを評価するには、規制条文だけでなく、実際の執行対象、データの種類、取得規模、命令内容を確認する必要があります。ここでは、私が確認した範囲で、2022年から2026年4月までに公表された、ウェブスクレイピングまたはスクレイピングされた個人データに関するDPAの主な事例を整理します。

年	執行機関	対象	違反内容	罰金／結果
2022	イタリアGarante	Clearview AI	法的根拠なしに顔画像をスクレイピング	2,000万ユーロの罰金 + 利用禁止 + 削除命令
2022	ギリシャDPA	Clearview AI	同上 — 顔認識のスクレイピング	2,000万ユーロの罰金 + 利用禁止 + 削除
2022	CNIL（フランス）	Clearview AI	顔認識データベース	2,000万ユーロの罰金 + 1日10万ユーロの追加制裁の可能性
2023	CNIL（フランス）	Clearview AI	2022年命令への不遵守	520万ユーロの制裁金
2023	オーストリアDSB	Clearview AI	公開Webから300億件超の顔画像	削除 + EU代表者の指名命令（公表された罰金なし）
2024	オランダAP	Clearview AI	違法な顔認識データ収集	3,050万ユーロの罰金 + コンプライアンス命令
2024	CNIL（フランス）	KASPR	リード獲得のためのLinkedIn連絡先データのスクレイピング	24万ユーロの罰金 — 1億6,000万件の連絡先、閲覧制限データ、5年間の保持
2024	アイルランドDPC	X / Grok	AI学習に使われた公開投稿	停止合意。2025年に法定調査を開始
2024	アイルランドDPC	Meta	公開Facebook/Instagramコンテンツを使ったLLM学習の計画	MetaがEUでのAI学習計画を停止
2024	イタリアGarante	OpenAI	ChatGPTの学習データ + 透明性	1,500万ユーロの罰金が発行されたが、2026年3月にローマ地裁で無効化

この表に記載したEU/EEAの金銭的制裁を合計すると、無効化されたOpenAIの罰金を除いて9,500万ユーロ超になります。

大型の制裁事例では、法的根拠を欠いた生体認証データや個人データの大規模な収集が中心的な問題となっています。Clearviewは多数の顔画像を収集し、KASPRの事例では閲覧制限のあるLinkedInプロフィールを含む1億6,000万件の連絡先と5年間の保持が問題として示されています。

私が確認した公表事例の範囲では、商品価格やSKU番号などの公開された非個人データだけを対象とする限定的な取得は、上記と同種のDPA制裁事例には含まれていません。ただし、これだけでデータベース権、利用規約、アクセス方法に関するリスクがないとは判断できません。

ヨーロッパのWebサイトをスクレイピングするための実務手順

難易度: 初級
所要時間: 初期設定は約15分が目安（法的評価や社内承認にかかる時間は案件によって異なります）
必要なもの: Chromeブラウザ、Thunderbit拡張機能（無料プラン可）、対象URL、そして上記チェックリストの簡単な確認

ステップ1: 目的と必要データを定義する

ツールを開く前に、データを取得する目的と、本当に必要な項目を書き出します。これはGDPRの目的限定とデータ最小化を具体的な設定へ落とし込むための入力になります。

たとえば、「競合の価格表を更新するために、Amazonの商品ページ50件から商品名、価格、在庫状況を取得する」と定義します。一方、「Amazonの情報をすべて取得する」では、対象範囲と必要性を説明できません。目的、対象ページ、取得項目、更新頻度を記録し、それぞれが業務目的に必要かを評価します。

ステップ2: コンプライアンスチェックリストを実行する

先ほど示した6ステップの「これはスクレイピングしていい？」チェックリストを上から順に使い、各判断と根拠を記録します。途中で🛑に該当した場合は取得を止め、法務担当者へ判断を引き継ぎます。このチェックリストは初期整理のためのもので、最終的な法的判断の代わりにはなりません。

Amazonの価格取得の例では、価格、SKU、商品名が個人に結びつかないことを前提に、GDPR上の個人データに該当するかを評価します。次にAmazonの利用規約と公式の商品データAPIの利用可否を調べ、取得対象が50商品であっても、反復頻度やデータベース全体に占める範囲を含めてデータベース指令上のリスクを検討します。

ステップ3: 適切なスクレイピング方法を選ぶ

方法	使いやすさ	コンプライアンス支援	保守性	精度
手動コピペ	少量なら始めやすい	コピー対象を担当者が選択	件数が増えると作業負荷が高い	入力ミスが起きる可能性がある
コードベースのスクレイパー（Python、Scrapy）	コーディング知識が必要	制御は実装内容による	サイト変更時に保守が必要	実装と検証方法による
Thunderbit（AI搭載）	ノーコードで始めやすい	抽出するフィールドを選択可能	ページ変更時は結果の再検証が必要	対象ページと設定による
公式API	API仕様の理解が必要	認可された範囲で取得しやすい	仕様変更への対応が必要	APIが提供するデータと仕様による

少量の業務データをノーコードで表にしたい場合は、Thunderbitが選択肢になります。公式APIが提供されているサイトでは、まずAPIの認可範囲、取得項目、利用上限を比較します。独自の取得条件や大規模処理が必要な場合は、コードベースの方法も含め、保守体制と検証方法を決めて選ぶことが重要です。

ステップ4: コンプライアンスに合わせてスクレイパーを設定する

Thunderbitでは、次の順に設定します。

対象ページ（例: Amazonの商品一覧ページ）に移動します。
ChromeツールバーのThunderbitアイコンをクリックし、「AIでフィールドを提案」を選びます。AIがページを読み取り、「商品名」「価格」「評価」「在庫状況」などの候補列を提案します。
不要なフィールドは削除します。 「販売者名」や「販売者メールアドレス」が提案されても、目的が価格調査だけであれば、その列が必要かを評価して削除します。
Field AI Promptを使って、「個人識別子を除外する」「公開価格データのみ抽出する」といった抽出条件を指定します。プロンプトだけに依存せず、プレビューで結果を照合します。
公開eコマースサイトではCloud Scraping、認証が必要なサイトではBrowser Scrapingを選択肢として比較します。対象サイトの規約やアクセス条件に適合するかを別途評価します。
「Scrape」を押す前に、robots.txtの内容を調べます。ブラウザで [ドメイン]/robots.txt を開き、対象パスやUser-Agentに関する記載を読み取ります。

最後に、テーブルのプレビューを見て、設定した項目以外の個人データや不要なメタデータが含まれていないかを点検してから出力します。

ステップ5: 責任を持ってエクスポート・保存・管理する

スクレイピングが終わったら、データを Excel、Google Sheets、Airtable、Notion へエクスポートできます。利用できる出力先や上限はプラン条件に応じて確認します。

出力後は、次の運用を決めます。

保持期間を決める。 利用目的と更新周期に合わせ、生データと加工後データの保存期限を設定します。毎週の価格監視で先月分の生データが不要なら、削除日をあらかじめ決めます。
個人データを集めた場合（例: リード獲得）は、法的根拠を文書化し、第14条の透明性通知、オプトアウト、アクセス・削除要求に対応する担当者と手順を整えます。
削除と更新の運用を分ける。 Thunderbitの定期スクレイパーでは、同じフィールド設定を使って定期的に取得できます。ただし、定期実行によってコンプライアンスが自動的に維持されるわけではありません。対象サイト、取得項目、法的根拠、保持期間を定期的に見直します。

ヨーロッパでスクレイピングしながらコンプライアンスを保つコツ

規制環境と対象サイトは変化するため、コンプライアンス対応は一度の設定で終わりません。実務では、次の項目を案件の開始時と定期レビュー時に扱います。

新しいサイトでは、取得前に利用規約を読む。 短い規約確認が2分程度で済む場合でも、禁止条項やAPIの指定を見落とすと、何か月にも及ぶ対応が必要になる可能性があります。規約の版と確認日を記録します。
利用できるAPIを先に比較する。 認可範囲、取得項目、利用上限が目的に合う場合はAPIを選び、合わない場合にスクレイピングの必要性を検討します。
個人データを大規模に扱う案件ではDPIAの要否を評価する。 CNILによれば、AI学習データセットは高リスクになり得ます。案件規模にかかわらず、データ種別、目的、法的根拠、保護策の判断過程を文書化します。
スクレイピングのログを残す。 何を、いつ、どこから、どの法的根拠で取得し、いつ削除するかを記録します。規制当局から照会があった場合に、判断と実施内容を説明できる状態にします。
規制の更新を担当者が追う。 CNILは2026年1月に新しいAIスクレイピング解説シートを公開し、EDPBも追加の見解を出す見込みです。更新を定期的に確認し、取得条件や社内ルールへ反映します。
制限されたソースやセンシティブなソースを除外する。 CNILの必須除外リストには、健康関連フォーラム、未成年者が主に使うサイト、ポルノサイト、家系図サイト、高度に構造化された個人データサイトが含まれます。案件開始時にブロックリストと例外承認の担当者を決めます。
自動アクセスの頻度と識別方法を管理する。 Akamai は2024年の全Webトラフィックの42%がボットだったと報告し、Thales/Imperva の調査では自動ボットのトラフィックが初めて人間を上回り、2024年には51%に達しました。User-Agentを明示し、レート制限を設定し、拒否シグナルに応じて停止できる運用にします。

結論

ヨーロッパにおいて、ウェブスクレイピングが一律に違法となるわけではありません。ただし、個人データ、データベース、利用規約、取得方法によって、適用される義務とリスクが変わります。

判断の出発点は、何を取得するか（個人データか非個人データか）、どのように取得するか（利用規約、robots.txt、アクセス頻度、フィールド単位の最小化）、なぜ取得するか（文書化された目的と法的根拠）の3点です。執行事例では、法的根拠を欠いた個人データの大規模な収集に対して、7桁、8桁ユーロの制裁が科されています。一方、公開された非個人データを限定的に取得する案件でも、データベース権、利用規約、アクセス方法の評価は残ります。

実務では、次の順に進めます。

案件を始める前に判断チェックリストを使い、結果と根拠を記録する。
案件に必要な保護策を実装する。 透明性、データ最小化、保持期間、異議申立て・オプトアウトへの対応を担当者に割り当てます。
目的と運用体制に合う取得方法を選ぶ。 ThunderbitのAIによるフィールド選択、構造化抽出、Google Sheets、Excel、Airtable、Notion への無料エクスポートは、非エンジニアが必要な項目を表形式で取得する際に利用できます。ただし、ツールの利用だけで法的要件を満たすわけではありません。
判断資料を保管する。 バランステスト、ソース一覧、保持スケジュール、DPIAを、担当者と更新日が分かる形で管理します。

この記事は情報提供を目的としたものであり、法的助言ではありません。大規模な個人データやセンシティブなデータを扱う案件では、取得を始める前に、資格を持つプライバシー弁護士へ相談してください。規制やガイダンスが更新された場合は、既存の設定と判断も見直す必要があります。

Thunderbitの無料プランでは、まず対象ページを1つ選び、必要な項目だけを指定して構造化抽出を試せます。出力前に、取得項目、抽出精度、不要な個人データの有無を点検し、数クリックでエクスポートします。手順ごとの解説は、YouTubeチャンネルでもご覧いただけます。

Thunderbitで構造化データ抽出を試す Get Started Free

よくある質問

1. データが公開されていれば、ヨーロッパでウェブスクレイピングは合法ですか？

公開されているという事実だけでは、個人情報が含まれる場合に GDPR の適用が消えるわけではありません。オランダ DPA が述べたとおり、「公開されているからといって、それが自動的にスクレイピングの許可になるわけではない」のです。公開された非個人データ（商品価格、SKU など）は一般にリスクが低めですが、それでもデータベース指令とサイトの利用規約は確認しておく必要があります。

2. ヨーロッパのWebサイトからメールアドレスや電話番号をスクレイピングできますか？

メールアドレスと電話番号は、GDPR 上の個人データにあたります。必要となる法的根拠は、取得目的、データの性質、本人への影響など、案件ごとに評価する必要があります。正当な利益に依拠する場合は、文書化したバランステストを行い、第14条に基づく本人への通知義務の適用も個別に検討します。CNIL は2024年、透明性も法的根拠も不十分なまま LinkedIn の連絡先データをスクレイピングした KASPR に24万ユーロの罰金を科しました。つまりこの領域では、執行がすでに動いているのです。

3. ヨーロッパで違法なウェブスクレイピングに対する最大の罰金はいくらですか？

オランダ DPA は2024年、公開 Web から違法に顔認識データを集めたとして Clearview AI に 3,050万ユーロの罰金を科しました。ほかの EU DPA も、それぞれ Clearview に2,000万ユーロの罰金を科しています。2022〜2026年の EU/EEA におけるスクレイピング関連の罰金総額は、9,500万ユーロを超えています。

4. robots.txtを守れば、ヨーロッパでのウェブスクレイピングは合法になりますか？

robots.txtへの対応は、サイト側のクロール方針を把握するための運用上のシグナルの一つですが、それ自体でスクレイピングの適法性が確立されるわけではありません。CNILのAI関連資料で示される保護策も参照しつつ、個人データを扱う場合は、GDPR、データベース指令、サイトの利用規約など、案件に適用される条件を個別に評価する必要があります。

5. ヨーロッパと米国では、ウェブスクレイピングの法律はどう違いますか？

EUでは、公開情報に個人データが含まれる場合もGDPRの適用可能性があり、データベース指令による独自の保護もあります。米国では、CFAA、州のプライバシー法、契約、著作権などを個別に検討します。hiQ v. LinkedIn は公開データへのアクセスをめぐるCFAA上の重要な判断ですが、公開データのスクレイピングを一律に許可するものではありません。Brexit後の英国では、UK GDPR、2018年データ保護法、継続されたデータベース権などが関係し、ICOがデータ保護法を執行します。国境をまたぐ案件では、会社の所在地だけでなく、対象者、取得場所、サービス提供地域をもとに、各制度の適用条件を評価します。

さらに詳しく

AIでデータを抽出

データをGoogle Sheets、Airtable、Notionへ簡単に転送

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

ヨーロッパでウェブスクレイピングは合法？ 安全にスクレイピングする方法