米国でウェブスクレイピングは合法？法律が実際に言っていること

数週間前、営業チームの同僚から、「この公開の事業者ディレクトリからリードをスクレイピングしても大丈夫か、それとも法的な問題になるのか」という質問を受けました。ログインや有料壁のない公開情報でも、どこまで取得・利用できるのか判断しにくいと感じる担当者は少なくありません。

自動化されたトラフィックは現在、全ウェブトラフィックの約51%を占めると報告されています。また、ウェブスクレイピングソフトウェア市場は、2025年の約10.8億ドルから2031年には35.9億ドルへ成長するとの予測もあります。一方、法的な解説には古い情報や適用範囲を単純化した説明も見られます。たとえば2022年のhiQ対LinkedIn事件は、「すべてのスクレイピングを合法とした最高裁判決」ではなく、判断の対象と手続段階を区別して読む必要があります。

さらに、2024年から2025年にかけて、X（旧Twitter）、Meta、Reddit、Google、AI企業に関係する訴訟や判断が相次ぎました。このガイドでは、2026年時点で確認できる米国の主要法令と判例を整理し、アクセス方法、データの種類、利用目的ごとにリスクを検討するための枠組みを示します。個別案件の法的助言ではなく、社内で法務確認の要否を判断するための基礎資料としてご覧ください。

ig_01ef7eecb01f4f920169f063829a4481918da7ee0e1b3f672e_compressed.webp

ウェブスクレイピングの定義と企業での主な用途

ウェブスクレイピングとは、自動化ソフトウェアを使ってウェブサイトから情報を収集し、スプレッドシートやデータベース、CRMレコードのような構造化データに整理することです。

一般的な処理では、スクレイパーがウェブページにアクセスしてHTMLを解析し、価格、名前、住所、製品仕様など、指定した項目を抽出して行と列に整えます。人がページを確認しながら転記する作業を、自動処理に置き換える方法と考えると分かりやすいでしょう。

ウェブスクレイピングという技術自体は、ハッキングと同義ではありません。ただし、認証が必要な領域へのアクセス、技術的障壁の回避、取得後の利用方法によっては、別の法的問題が生じます。

検索エンジン、価格比較サイト、不動産プラットフォーム、市場調査ダッシュボード、AI搭載ツールなどでは、目的に応じてウェブクロールやデータ抽出が活用されています。Google、航空券比較サイト、Zillowのようなサービスも、ウェブ上の情報を収集・整理して利用者に提示する仕組みと関係しています。

私がよく目にする、企業での代表的な活用例は次のとおりです。

リード獲得: 事業者ディレクトリから企業名、Webサイト、役職名、公開連絡先を抽出する。
競合価格モニタリング: ECチームが競合商品のSKU価格、在庫状況、配送情報を追跡する。
不動産インテリジェンス: 公開物件情報、価格、市場動向を集約する。
商品リサーチ: 小売サイトから商品仕様、評価、在庫状況、カテゴリーデータを取得する。
市場インテリジェンス: 求人情報、店舗開設、ニュースシグナル、公開財務データを追跡する。

この手法自体は中立です。法的な評価では、どのようにデータへアクセスしたか、何を取得したか、そして取得後にどう利用するかを分けて検討します。

米国でウェブスクレイピングは合法か：結論を左右する条件

米国連邦法には、ウェブスクレイピングという行為を一律に禁止する単一の法律はないとされています。ただし、公開されているデータであっても、スクレイピングが当然に適法になるわけではありません。

判断に影響する主な要素は、データの種類、アクセス方法、利用規約への同意の有無、個人情報の有無、取得後の利用目的です。同じ公開ページでも、著作物の再掲載と事実データの社内分析では、検討すべき論点が異なります。

混同されやすいのが、刑事法上の無権限アクセスと、利用規約に基づく契約責任です。利用規約違反では、IPブロック、アカウント停止、差止めや損害賠償の請求につながる可能性があります。一方、CFAAなどの連邦刑事法が問題となるかは、認証の回避やアクセス権限など、個別の事情に左右されます。スクレイピングをめぐる紛争は民事事件として扱われることが多いものの、案件ごとの検討が必要です。

この記事の残りでは、主要な法律、2024年と2025年の事件を含む裁判例、そして実務でリスクを整理するための判断フレームワークを解説します。

刑事責任・民事責任・利用規約違反を分けて考える

「ウェブスクレイピングは違法か」という質問には、刑事責任、民事責任、利用規約に基づく契約上の問題が混在しがちです。まず、どの種類の責任が問題になっているかを分けると、検討すべき条件が明確になります。

ig_01ef7eecb01f4f920169f064039ff881918c7bf5b1db31fa7f_compressed.webp

責任の種類	何が引き金になるか	起こり得る結果	深刻度
刑事（CFAA）	認証の壁の向こうにあるデータへ無権限でアクセスする、不正、認証情報の不正使用	事案によって連邦訴追、罰金、禁錮	🔴 深刻 — 特に認証回避や不正利用を伴う場合に問題となり得る
民事訴訟	著作権侵害、動産侵害、不当契約違反、営業秘密の不正取得、プライバシー侵害	損害賠償、差止命令、データ削除	🟡 事業への影響が大きくなる可能性がある
利用規約違反	browsewrapまたはclickwrapの利用規約に違反すること	アカウント停止、IPブロック、差止要求、民事訴訟の可能性	🟢〜🟡 規約への同意方法と違反内容によって異なる

司法省は2022年のCFAA起訴方針で、通常の利用規約違反だけを理由にCFAAで起訴することには制限があるとの方針を示しています。ただし、この方針は個別行為の適法性を保証するものではありません。

実務では、公開の事業者リストの取得や競合価格の監視であっても、刑事責任だけでなく、契約、著作権、プライバシー、サーバー負荷などの民事上の論点を点検します。過度に恐れる必要はありませんが、「公開情報だから問題ない」と決めつけず、アクセス方法と利用目的を記録しておくことが重要です。

ウェブスクレイピングに適用される米国の主要法律

米国でウェブスクレイピングに関係する主要な法領域は、次の4つです。それぞれ、アクセス方法、取得対象、契約関係、個人情報の取り扱いという異なる論点を扱います。

コンピューター不正使用・詐欺防止法（CFAA）

CFAA（18 U.S.C. § 1030）は、コンピューターへの無権限アクセスなどを対象とする連邦法です。スクレイピング訴訟でも、ウェブサイトへのアクセスが「無権限」に当たるかという論点で援用されてきました。

Van Buren対米国事件では、最高裁がCFAA上の「許可されたアクセスを超える」という文言の範囲を検討しました。判断では、アクセス権限のある情報を不適切な目的に利用しただけの場合と、権限のないファイル、フォルダ、データベースなどへアクセスした場合が区別されています。

スクレイピングとの関係では、次のように整理できます。

CFAAリスクが相対的に低いと考えられる場合: 認証なしで一般に閲覧できる公開Webページへ通常の方法でアクセスする場合。
CFAAリスクが高まり得る場合: ログイン、有料壁、アクセストークンなどで制限された領域へ無権限で入る場合、セッションや認証情報を不正に利用する場合、またはアクセス権の取消し後も制限領域へのアクセスを続ける場合。

hiQ対LinkedIn事件（後で詳しく見ます）は、公開データへのアクセスとCFAAの関係を検討した重要な例です。ただし、CFAA上の評価だけで、著作権、契約、プライバシーなどの問題まで解決するわけではありません。

著作権法とDMCA

米国著作権法は、記事、写真、動画、創作的な商品説明のような表現を保護します。一方、生の事実は保護しません。最高裁のFeist判決では、氏名、住所、電話番号のような事実そのものと、データベースの選択・配列に含まれる創作性が区別されました。

スクレイピング対象ごとの一般的な論点は次のとおりです。実際の評価は、取得量、表現の創作性、利用目的、市場への影響などによって変わります。

スクレイピング対象	著作権リスク	理由
価格、商品名、住所、日付、仕様	相対的に低い傾向	個々の事実そのものは著作権で保護されないため。ただし、選択・配列や取得後の利用は別途検討が必要
記事全文、写真、動画、創作的なレビュー	高まりやすい	著作権で保護され得る表現物だから
編集されたデータベース、ランキング、独自の分類体系	中〜高になり得る	選択と配列に創作性が認められる場合があるため
有料壁やDRMで保護されたコンテンツ	高まりやすい	著作権に加え、アクセス制御の回避が問題となり得るため

DMCAの回避防止規定（17 U.S.C. § 1201）は、著作物へのアクセスを制御する技術的手段の回避を対象とします。有料壁、DRM、ボット対策が同条の技術的保護手段に該当するかは、仕組みと事案によって判断が分かれ得ます。2025〜2026年のGoogle対SerpApiでは、GoogleがSearchGuardのボット対策システムを回避したとしてDMCA違反を主張していますが、これは当事者の主張を含む係争中の論点です。

フェアユースも重要ですが、分析や集約、変形的な目的があるだけで自動的に認められるわけではありません。利用の目的と性質、著作物の性質、使用量、市場への影響などを個別に検討する必要があります。

契約法：利用規約（browsewrapとclickwrap）

多くのサイトは、利用規約にスクレイピングを制限する条項を設けています。契約として執行できるかは、規約の表示方法、利用者が通知を受けたか、同意操作をしたか、対象行為が条項の範囲に含まれるかなどによって変わります。

契約の種類	執行可能性	スクレイパーにとっての意味
Clickwrap（「同意する」をクリック）	強い傾向	明示的な同意が認められやすく、スクレイピング禁止条項が民事請求の根拠になり得る
Sign-in wrap（ログイン付近に通知）	事案依存	通知の目立ちやすさ、配置、利用者の認識可能性などによる
Browsewrap（フッターなどにリンク）	通知状況によっては弱い	実際または推定上の通知が認められるかが争点になりやすい
アカウント/API条項	同意が認められる場合は強まりやすい	ログイン後の取得やAPI利用が契約条件に反すると、契約上のリスクが高まり得る

Meta対Bright Data（2024年）では、問題となったログアウト状態の公開スクレイピングについて、Metaの利用規約がMetaの主張する形では適用されないと裁判所が判断しました。Bright Dataが、その公開スクレイピングでログイン済みアカウントを使用したと示されていなかった点が判断に関係しています。

実務では、ログインや明示的な同意がない公開ページでも、利用規約を読み、取得対象と利用方法が制限条項に触れないかを点検します。アカウントを作成した場合や同意操作を行った場合は、契約関係が認められる可能性を踏まえ、必要に応じて法務部門へ相談してください。

米国の州プライバシー法（CCPAなど）

スクレイピング対象に氏名、メールアドレス、電話番号、位置情報などの個人情報が含まれる場合、事業者の所在地、対象者の居住州、適用基準、利用目的に応じて州プライバシー法が関係する可能性があります。IAPPは2025年半ばまでに19州で包括的な州プライバシー法が成立したと整理し、MultiStateは2026年時点で20州に包括的プライバシー法が施行されていると報告しています。

多くの州法には「公開されている」個人情報に関する例外がありますが、定義と適用条件は州ごとに異なります。また、収集時に例外が適用されても、販売、共有、プロファイリング、保持、削除対応など、取得後の処理に別の義務が生じる場合があります。

州法	施行時期	スクレイピングされたPIIを対象に含むか	オプトアウト要件	制裁の範囲
CCPA/CPRA（カリフォルニア）	2020/2023	個人情報の定義と公開情報例外により対象となり得る	販売/共有のオプトアウト。GPCを認識	1違反あたり2,663〜7,988ドル（2025年調整）。適用条件あり
CPA（コロラド）	2023	個人データの定義と例外により対象となり得る	2024年7月からユニバーサルオプトアウト/GPC	不公正取引法の枠組みに基づく民事制裁。適用条件あり
CTDPA（コネチカット）	2023	個人データの定義と例外により対象となり得る	2025年1月からOOPS/GPC	故意の違反1件につき最大5,000ドル。適用条件あり
VCDPA（バージニア）	2023	個人データの定義と例外により対象となり得る	オプトアウト権あり	1違反あたり最大7,500ドル。適用条件あり
TDPSA（テキサス）	2024	個人データの定義と例外により対象となり得る	2025年1月からユニバーサルオプトアウト	1違反あたり最大7,500ドル。適用条件あり
本文記載では、2026年までにさらに8州で成立	州により異なる	州により異なる	州により異なる	州により異なる

本文で成立済みとして挙げられている州は、ユタ、オレゴン、モンタナ、デラウェア、アイオワ、ネブラスカ、ニューハンプシャー、ニュージャージー、テネシー、ミネソタ、メリーランド、インディアナ、ケンタッキー、ロードアイランドです。アラバマについては、2027年5月1日施行の法律が成立したとされています。州法は改正や施行時期の変更があり得るため、対象州と処理時点に対応する最新情報を参照する必要があります。

製品価格、事業者情報、市場データなど、個人情報を含まない事実データは、消費者プロフィールを扱う場合よりプライバシー上の論点を限定しやすい傾向があります。Thunderbitは、商品データ、事業者ディレクトリ、不動産情報など、公開ページ上の情報を構造化して抽出する用途に利用できます。ただし、利用するツールだけで法令適合性が決まるわけではなく、取得項目、対象者、利用目的、保存期間を事業者側で管理する必要があります。

米国の主要ウェブスクレイピング判例：2000年から2026年までの年表

ウェブスクレイピングを扱う解説ではhiQ対LinkedIn（2022年）が中心になりがちですが、その後も契約、営業秘密、著作権、技術的回避など、異なる請求原因を扱う事件が続いています。次の表では、手続段階と当事者の主張を最終判断と混同しないように整理します。

事件	年	主要な判断	スクレイパーへの影響
eBay対Bidder's Edge	2000	動産侵害に基づく仮差止命令。クローラーによるサーバー負荷が問題になった	⚠️ 大量アクセスによるサーバー負荷が民事請求の論点になり得る
Facebook対Power Ventures	2016	停止要求後もFacebookのシステムを使ってアクセスを継続し、CFAA責任が認定	⚠️ 停止要求と認証済みまたは制限付きアクセスが重なる場合はリスクが高まり得る
Van Buren対米国	2021	CFAAの「許可されたアクセスを超える」には、権限のない領域へのアクセスが必要と判断	✅ CFAAの適用範囲を限定的に解釈する材料になった
hiQ対LinkedIn	2022	公開データへのアクセスはCFAA違反ではない可能性が高いと判断（仮差止命令、後に和解）	✅ 公開データへのアクセスとCFAAの関係を示すが、最終本案判決ではない
Meta対Bright Data	2024	ログアウト状態の公開スクレイピングについて、Metaの契約論に基づく請求でBright Dataが略式判決を得た	✅ 同意や条項の対象範囲によっては、公開スクレイピングに規約が及ばない場合がある
X Corp.対Bright Data	2024	5月に多くの請求を棄却。11月の命令でもスクレイピングやデータ販売に関する請求が認められなかったとされる	✅ 公開データの複製に対する請求の成立範囲を検討する材料になる
Compulife対Newman/Rutstein	2024-2025	保険見積データの大量抽出について営業秘密責任を認定。2025年2月に上告不受理	⚠️ 外部から取得できるデータでも、取得方法やデータベースの保護状況により営業秘密が問題となり得る
Reddit対Perplexity/SerpApi/Oxylabs/AWMProxy	2025-2026	Google検索結果を通じた大規模な間接スクレイピングを原告が主張	⚠️ 係争中の事件として、データ取得経路と供給網の責任が争点になっている
Google対SerpApi	2025-2026	ボット対策回避の疑いをめぐりGoogleがDMCA §1201違反を主張	⚠️ ボット対策システムがDMCA上のアクセス制御に当たるかが係争上の論点

これらの事件からは、CFAA上の公開アクセス、契約への同意、著作権、営業秘密、プライバシー、サーバー負荷、技術的障壁の回避を別々に評価する必要があることが分かります。係争中の事件や仮差止命令は、最終的なルールとしてではなく、判断範囲と手続段階を添えて読むことが重要です。

hiQ対LinkedIn事件で示された判断の範囲

hiQ対LinkedInは、公開データへのアクセスとCFAAの関係を考えるうえで重要な事件です。ただし、「公開ウェブのスクレイピングはすべて合法」とする最終判決ではありません。

判断の範囲は次のように整理できます。

裁判所が仮差止めの段階で示したこと: 第9巡回区控訴裁判所は、hiQによる公開LinkedInプロフィールのスクレイピングをLinkedInがブロックするのを防ぐ仮差止命令を維持しました。裁判所は、公開されているデータへのアクセスはCFAA違反ではない可能性が高いと述べています。これは本案の最終判断ではなく、仮差止めに必要な勝訴可能性などを検討したものです。出典：hiQ Labs対LinkedIn、第9巡回区。

この事件だけでは確立されなかったこと:

すべての公開Webサイトをスクレイピングする包括的な権利
本案についての最終判決 — 最高裁はVan Buren後に破棄差戻し、第9巡回区が再確認しましたが、その後この事件は2022年後半に和解し、最終判決は出ていません
報道された和解には、50万ドル、差止命令、データ/ソフトウェアの破棄義務が含まれていたとされています

実務上の意味: hiQは、認証なしで公開されているデータへのアクセスについて、CFAAの適用範囲を限定的に考える材料になります。一方、著作権、契約、プライバシー、営業秘密など、別の請求原因まで解決したわけではありません。したがって、hiQだけを根拠に案件全体を適法と判断するのではなく、対象データと取得方法を個別に検討する必要があります。

この区別を押さえることで、判例が実際に示した範囲と、そこから先の推測を分けられます。

スクレイピング案件のリスクを整理する5つの質問

ig_01ef7eecb01f4f920169f06460a4f0819194734b5fbc60656e_compressed.webp

スクレイピング案件では、複数の法律と契約条件が同時に関係することがあります。次の5つの質問は、適法性を断定するものではなく、作業を止めるべき条件や法務確認が必要な論点を整理するための一次チェックです。

1. データは公開されているか（ログイン不要か）？

いいえ → CFAAや契約上のリスクが高まる可能性があります。アクセス権限を精査し、必要に応じて許可または法的レビューを求めてください。
はい → 質問2へ進みます。

2. 技術的障壁（CAPTCHA、IPブロック、レート制限、有料壁）を回避しているか？

はい → DMCA、CFAA、契約上の問題が生じる可能性があります。作業を中止し、法務部門へエスカレーションしてください。
いいえ → 質問3へ進みます。

3. スクレイピングを禁止するclickwrapの利用規約に同意したか？

はい → 民事上の契約責任が問題となり得ます。別の入手経路、許諾、契約条件の変更が可能かを検討してください。
いいえ → 質問4へ進みます。

4. データに個人情報（PII）が含まれるか？

はい → CCPAと適用される州のプライバシー法を調べ、利用目的、通知、オプトアウト、保存、削除などの義務を整理してください。
いいえ → 質問5へ進みます。

5. そのデータを何に使うか？

著作物（記事全文、写真、動画）の商用再掲載 → 著作権リスクが高まり得ます。
変形的な分析、社内調査、事実データの利用（価格、仕様、一覧情報） → 相対的に論点を限定しやすいものの、取得方法と利用範囲の検討は必要です。

「公開ページ、技術的障壁の回避なし、clickwrapへの同意なし、非PIIの事実データ、社内分析」という条件は、ほかの分岐と比べてリスクを抑えやすい構成です。Thunderbitは、商品一覧、事業者ディレクトリ、不動産データなど、公開Webページ上の情報を構造化し、Excel、Google Sheets、Airtable、Notionへ出力する用途に利用できます。ただし、ツールが対象サイトの規約やデータ利用の適法性を保証するわけではありません。

このフローチャートは、案件の初期整理に利用できます。判断に迷う場合、取得規模が大きい場合、個人情報や著作物を扱う場合は、実行前に資格のある専門家へ相談してください。

AI学習に伴うウェブスクレイピングの主な法的論点

ig_01ef7eecb01f4f920169f063bb1014819192c3bf906b778b39_compressed.webp

大規模言語モデル、画像生成AI、その他のAIシステムの学習用データを収集する行為では、取得方法だけでなく、著作物の複製、学習利用の目的、市場への影響、データの出所が争点になります。裁判所の判断が出ている論点と、係争中で未確定の論点を分けて読む必要があります。

本文記載時点の主な事件は次のとおりです。

事件	状況（2026年）	主要争点
NYT対OpenAI/Microsoft	継続中。中心的な著作権請求は2025年4月に進行を認められた；開示手続の争点には2,000万件超のChatGPTログが含まれるとされる	スクレイピングしたニュース記事での学習がフェアユースに当たるか、著作権侵害となるか
Bartz対Anthropic	Alsup判事は、特定の学習利用はフェアユースだが、海賊版ソースの取得は別に評価されると判断。報道された和解額：約15億ドル	学習利用の変形性と、ソースコピーの取得方法を分けて評価すべきか
Thomson Reuters対Ross	デラウェア裁判所は、Westlawのヘッドノートを使って競合するリーガルリサーチ製品を作ることについて、フェアユースを否定した	権利者の製品と直接競合する利用における著作権リスク
Getty対Stability AI	英国訴訟では2025年にStabilityが概ね優勢とされる。米国訴訟は係属中	画像学習、複製、管轄ごとの著作権評価

米国著作権局の2025年AI報告書は、学習利用の変形性、データの出所、権利者市場への影響などを区別して検討しています。大規模で多様なデータセットを使うことだけでフェアユースが決まるわけではなく、海賊版ソースの取得や、権利者の市場と直接競合する利用は不利な要素になり得ます。

自社の分析や業務運用のためのリード獲得、価格監視、市場調査と、商用AIモデルの学習用データ収集では、取得量、複製の態様、利用目的、市場への影響が異なります。ただし、前者が常に低リスクという意味ではありません。著作物、個人情報、利用規約、アクセス方法を案件ごとに検討する必要があります。

責任あるデータスクレイピングの方法（ビジネスチーム向けベストプラクティス）

ここまでの法的論点を踏まえ、ビジネスチームがスクレイピング計画を立てる際に点検したい実務上の項目を整理します。

公開されているデータだけを対象にする

まずは、認証なしで一般に閲覧できる商品一覧、事業者ディレクトリ、公的記録、価格ページなどを対象にします。ログイン、会員資格、有料契約などが必要な領域では、アクセス権限と契約条件に関する論点が増えるため、実行前の精査が必要です。

技術的障壁を回避しない

CAPTCHA、IPブロック、レート制限、有料壁などの技術的障壁が設けられている場合は、回避せずに作業を止めます。回避行為は、仕組みと対象コンテンツによってDMCA、CFAA、契約上の請求につながる可能性があります。業務上必要なデータであれば、公式API、ライセンス、データ提携など、許可された入手経路を先に検討してください。

利用規約を確認する

特にアカウントを作成した場合や「同意する」をクリックした場合は重要です。ToSにスクレイピング禁止条項がないか確認してください。スクレイピングが禁止されていて、その規約に同意しているなら、別の入手経路があるかを検討しましょう。

個人データの収集を最小限にする

PII（氏名、メール、電話番号）を扱う場合は、業務上必要な項目だけに限定し、適用される州プライバシー法の対象事業者に該当するか、利用目的、通知、オプトアウト、保存期間、削除対応などの義務があるかを整理します。企業名、商品価格、掲載情報のような非個人の事業データは、個人消費者のプロフィールを扱う場合よりプライバシー上の論点を限定しやすい傾向がありますが、取得元の規約や著作権などは別途検討が必要です。

robots.txt とレート制限を尊重する

robots.txt（RFC 9309）は、サイト運営者がクローラー向けのアクセス方針を示す仕組みです。robots.txtへの準拠だけで法的許可が得られるわけではなく、逆に記載だけで法的評価が一律に決まるわけでもありません。運用時は、サイトが示す方針とレート制限を読み、リクエスト間隔と同時実行数を抑えて、サーバーへ過度な負荷を与えないようにします。

再掲載ではなく、分析目的で使う

分析、集約、社内調査、競合インテリジェンスなどの変形的な利用は、他人の記事、画像、レビューをそのままコピーして商用再掲載する場合と比べ、著作権上の論点を限定しやすいことがあります。ただし、「分析目的」と表示するだけでフェアユースが成立するわけではありません。利用目的、使用量、著作物の性質、市場への影響を検討し、必要な範囲を超えて取得・保存しない運用が重要です。

公開ページの構造化抽出に適したツールを選ぶ

ここで、私たちがThunderbitで作ってきたものに触れます。私たちのAIウェブスクレイパーChrome拡張機能は、公開Webページから構造化データを抽出したいビジネスユーザー向けに設計されています。商品一覧、事業者ディレクトリ、不動産データ、リード情報などを、コードを書かずに表形式へ整理する用途で利用できます。AIがページを読み取り、抽出項目の候補を提案し、ウェブスクレイピングでExcelにデータを取り込む方法：手間なく自動化するコツできます。

Thunderbitは、認証なしで閲覧できる公開ページ上の事実データを構造化する場面に向いています。ただし、対象ページが公開されていることやツールを使用していることだけで、取得・利用の適法性が保証されるわけではありません。対象サイトの規約、技術的障壁、個人情報、著作権、取得後の用途を利用者側で点検し、判断が難しい案件は法務部門へ相談してください。

ログを残し、停止要求が来たら止める

スクレイピングの活動内容と業務目的を記録してください。送達停止要求書（cease-and-desist）を受け取ったら、止めて法務に相談しましょう。正式な通知を受けた後にスクレイピングを続けると、特にゲート付きシステムが絡む場合、リスクは大きく上がります。

米国におけるウェブスクレイピング合法性の要点

主な論点を整理すると、次のとおりです。

米国連邦法には、ウェブスクレイピングという行為を一律に禁止する単一の法律はないとされています。 ただし、公開されている事実データであっても、アクセス方法や利用目的によって別の法的問題が生じます。
法的評価は、何を取得するか、どのようにアクセスするか、取得後にどう使うかで変わります。 公開ページ、事実データ、技術的障壁の回避なし、社内分析という条件は、ほかの構成より論点を限定しやすい傾向があります。
Van BurenとhiQはCFAAの適用範囲を限定的に考える材料になります が、著作権、契約、プライバシー、営業秘密に基づく請求は別に検討する必要があります。
認証回避や不正を伴わない通常の業務スクレイピングでは、刑事責任より民事上の紛争が中心になると考えられます。 ただし、個別のアクセス方法と事実関係によって評価は変わります。
hiQ対LinkedInは、あらゆるサイトのスクレイピングを許可した最終判決ではありません。 仮差止命令の段階で公開データへのアクセスとCFAAの関係を判断した事件で、その後和解しています。
PIIを扱う場合は州プライバシー法が重要になります。 価格、一覧、仕様などの非PIIデータはプライバシー上の論点を限定しやすいものの、契約や著作権などは別途検討します。
AI学習用途には未確定の法的論点があります。 自社分析のための業務スクレイピングと商用AIモデルの学習用データ収集では、複製の規模、目的、市場への影響が異なります。
公開データへの限定、利用規約の点検、PIIの最小化、技術的障壁を回避しない運用、アクセス負荷の管理は、リスクを抑えるための実務上の基本です。ただし、これらを満たしても適法性が自動的に保証されるわけではありません。

この文章は一般的な情報提供を目的としたもので、個別案件への法的助言ではありません。大規模なスクレイピング、機微なデータ、著作物、ログイン後の情報を扱う場合は、実行前に資格のある弁護士へ相談してください。公開ディレクトリからのリード候補整理や競合価格の監視でも、対象サイトの規約、取得項目、利用目的を記録しておくことが重要です。

公開ディレクトリの候補整理や競合価格の監視など、公開ページの情報をコードを書かずに表形式へまとめたい場合、Thunderbitは選択肢になります。この用途では技術的障壁を回避せず、閲覧可能な公開ページから必要な項目を構造化することが前提です。クイックスタートガイドで操作方法を確認するか、Chrome拡張機能を使い、まず1ページで抽出項目と出力形式が業務に合うか検証してください。

FAQ

1. 2026年の米国でウェブスクレイピングは合法ですか？

一律には判断できません。米国にはウェブスクレイピングという行為を全面的に禁止する単一の連邦法はないとされていますが、公開データであっても、アクセス方法、取得対象、利用規約への同意、個人情報、取得後の利用目的によって法的リスクが変わります。価格比較や事業者一覧の社内分析などで公開ページを対象にする場合も、認証を必要としない範囲に限定し、技術的障壁を回避せず、個人データを必要最小限にし、著作物の再掲載を避けることが、論点を限定するための基本的な対策です。個別案件ではCFAA、著作権法、契約法、州プライバシー法などを検討してください。

2. ウェブスクレイピングで刑務所に入ることはありますか？

刑事責任が問題となる可能性はありますが、通常の利用規約違反だけで直ちに刑事事件になるわけではありません。認証情報の不正使用、制限領域への無権限アクセス、詐欺などを伴う場合は、CFAAその他の法律が問題になり得ます。司法省の2022年CFAA起訴方針では、通常の利用規約違反だけを理由とする起訴には制限があるとの考え方が示されています。認証回避や不正を伴わない通常の業務スクレイピングでは、刑事事件より民事上の紛争が中心になると考えられますが、実際の評価はアクセス方法と事実関係によって異なります。

3. ウェブサイトの利用規約に違反すると、スクレイピングは違法になりますか？

利用規約違反は、まず契約上の問題として検討されます。スクレイピングを禁止するclickwrap規約へ明示的に同意している場合、サイト側が民事上の契約違反を主張する可能性があります。フッターにリンクされたbrowsewrap条項は、通知方法や利用者の認識可能性によって執行可能性が変わります。利用規約違反がCFAAなど別の法律にも触れるかは、認証回避やアクセス権限などの事情を含めて個別に判断されます。

4. 個人データ（メール、電話番号）をスクレイピングするのは米国で合法ですか？

州、対象事業者、情報の定義、取得元、利用目的によって異なります。CCPA、VCDPA、CPAなどの州プライバシー法には公開情報に関する例外が設けられている場合がありますが、範囲は一様ではありません。取得後の販売、共有、プロファイリング、保存、削除対応に義務が生じることもあります。商品価格、事業者一覧、公的記録など、個人消費者のプロフィールを対象としないデータは、プライバシー上の論点を限定しやすい一方、利用規約、著作権、取得後の用途は別途検討が必要です。PIIを扱う場合は必要な項目に限定し、対象州の最新法令と適用基準を精査してください。

5. hiQ対LinkedInで、すべてのウェブスクレイピングが合法になったのですか？

いいえ。hiQの判断は仮差止命令の段階で示されたもので、本案についての最終判決ではありません。第9巡回区は、公開データへのアクセスはCFAA違反ではない可能性が高いと述べましたが、この事件は2022年に和解しています。あらゆるサイトを自由にスクレイピングできるという包括的な許可ではなく、著作権、契約、プライバシー、営業秘密などの論点を解決したものでもありません。公開データへのアクセスを検討する際の材料にはなりますが、個別案件の適法性を保証するものではありません。

さらに学ぶ

AIでデータを抽出

データをGoogle Sheets、Airtable、Notionへ簡単に転送

Chrome Store Rating

PRODUCT HUNT#1 Product of the Week

米国でウェブスクレイピングは合法？ 法律が実際に言っていること