Законен ли веб-скрейпинг? Это вопрос на миллион долларов, который я слышу каждую неделю от основателей, маркетологов и любителей данных.
Сегодня — впервые автоматический трафик обогнал человеческий — и значительная его часть связана с веб-скрейпингом для бизнес-аналитики, продаж и обучения ИИ. Неудивительно, что все пытаются понять, где проходят правовые границы.
Один день вы видите заголовок о том, что суд разрешил сбор публичных данных. На следующий — регуляторы предупреждают о «незаконном» сборе данных в соцсетях. Это запутывает даже таких людей, как я, которые каждый день создают AI Web Scraper в .
Так всё-таки: законен ли веб-скрейпинг? Ответ не сводится к простому «да» или «нет». Всё зависит от того, какие данные вы собираете, откуда именно, как вы их используете и что говорит закон в вашей стране.
В этом подробном разборе я объясню правовую картину, развею распространённые мифы и поделюсь практическими советами (и несколькими историями из жизни), чтобы вы могли работать в рамках закона — независимо от того, вы соло-фаундер или команда из Fortune 500.
Веб-скрейпинг и закон: есть ли чёткая граница?
Если вы надеетесь на ответ в одну фразу, сэкономлю вам время: закон пока не провёл по веб-скрейпингу чёткую и однозначную линию.
Вместо этого мы имеем мозаику из пересекающихся норм — права на данные, конфиденциальность, интеллектуальная собственность, законы против взлома и знаменитые Terms of Service (ToS). Любая из этих категорий может оказаться важной, и ответ часто зависит от конкретной ситуации ().
Разберём три основных правовых блока:
- Права на данные: Обычно факты и открытая информация (например, цены или номера телефонов) не защищаются авторским правом. Но творческий контент (статьи, изображения) и проприетарные базы данных могут быть защищены — особенно в ЕС, где существует понятие «прав на базы данных» ().
- Конфиденциальность: Современные законы о приватности (вроде GDPR в Европе и PIPL в Китае) рассматривают персональные данные как регулируемый актив — даже если они опубликованы публично. Сбор имён, email-адресов или профилей в соцсетях без законного основания может привести к серьёзным проблемам ().
- Договоры (Terms of Service): Многие сайты прямо запрещают скрейпинг в своих ToS. Хотя ToS — это не закон, суды могут рассматривать их как обязательный договор. Нарушение может обернуться исками, а в некоторых случаях — даже претензиями по антивзломным законам, если вы обходите технические ограничения ().
Итак, законен ли веб-скрейпинг? Иногда да, иногда нет, а чаще — «зависит от обстоятельств». Дьявол кроется в деталях.
Сравнение правовых подходов: США, ЕС, Великобритания, Китай
Вот краткая таблица, показывающая, как разные регионы относятся к веб-скрейпингу:
| Регион | Сбор публичных данных | Сбор личных/частных данных | Практика применения и ключевые моменты |
|---|---|---|---|
| США | Обычно разрешён для публичных данных (см. hiQ v. LinkedIn). Нарушение ToS может привести к гражданским искам. | Ограничен или незаконен, если вы обходите логины или неправомерно используете персональные данные. Могут применяться законы отдельных штатов, например CCPA. | Письма с требованием прекратить действия, блокировка IP, судебные иски. CFAA применим, если вы обходите технические барьеры. |
| ЕС | Условно разрешён для неперсональных публичных данных. Могут применяться права на базы данных. Закон ЕС об ИИ (2026) добавляет требования к прозрачности источников обучающих данных. | Жёстко регулируется GDPR — даже публичные персональные данные должны иметь законное основание для обработки. | Органы по защите данных могут штрафовать за нарушения конфиденциальности. Также активно применяются авторское право и права на базы данных. Закон ЕС об ИИ запрещает сбор изображений лиц для обучения ИИ. |
| Великобритания | Похоже на ЕС. Публичные неперсональные данные можно собирать, но нужно соблюдать права на данные и договорные ограничения. | Строгий режим для персональных данных — действует UK GDPR. Computer Misuse Act криминализирует несанкционированный доступ. | ICO может штрафовать за нарушения законов о защите данных. Суды также могут признавать ToS обязательными. |
| Китай | Жёстко контролируется. Публичные неперсональные данные могут собираться для внутреннего использования, но среда остаётся осторожной. | Сильно ограничено — PIPL требует согласия на обработку персональных данных. Применяются законы о недобросовестной конкуренции. | За крупномасштабный скрейпинг возможны уголовные дела. Суды используют нормы о недобросовестной конкуренции, чтобы пресекать несанкционированный сбор данных. |
(, )
Законен ли веб-скрейпинг? Ключевые правовые факторы
Что же на практике определяет, будет ли ваш проект по сбору данных законным или рискованным? Вот основные факторы:
- Публичные и частные данные: Собирать данные, которые любой человек может увидеть в открытом интернете, обычно безопаснее. А вот если нужен логин, платный доступ или обход технического барьера — скорее всего, это незаконно ().
- Тип данных: Персональные данные (имена, email, профили) активируют законы о приватности. Контент, защищённый авторским правом (статьи, изображения), нельзя просто копировать целиком. Чистые факты (цены, погода) обычно допустимы ().
- Цель использования: Внутренняя аналитика или исследование воспринимаются мягче, чем перепубликация или продажа собранных данных. Если вы используете их, чтобы напрямую конкурировать с источником, это почти гарантированно приведёт к иску ().
- Соблюдение правил сайта: Всегда проверяйте robots.txt и ToS. Robots.txt не имеет прямой юридической силы, но его стоит уважать как хорошую практику. Нарушение ToS может привести к гражданскому иску или хуже ().
- Технические меры защиты: Важно собирать данные с человеческой скоростью и не обходить защитные механизмы. Агрессивная нагрузка на сервер или обход CAPTCHA может уже приближаться к взлому ().
Что изменилось в 2024–2026: ключевые дела и регулирование
Правовая среда вокруг веб-скрейпинга сильно изменилась с 2023 года. Вот что должен знать каждый, кто собирает данные:
Крупные судебные решения
-
Meta v. Bright Data (2024): Федеральный суд США . Судья указал, что «посетитель не считается „пользователем“, если у него нет аккаунта». Позже Meta отозвала оставшиеся требования. Это важнейшая победа для сбора публичных данных.
-
X Corp v. Bright Data (2024): Twitter (ныне X) проиграл аналогичный иск, подтвердив тот же принцип: сбор публично доступных данных без входа в систему не нарушает ToS, потому что скрейпер не соглашался с этими условиями.
-
Reddit v. Perplexity AI (октябрь 2025): Reddit , ссылаясь на DMCA и утверждая, что были обойдены антибот-системы. Это показывает новую стратегию: платформы всё чаще опираются на авторское право и нормы об обходе технической защиты, а не на CFAA.
-
NYT v. OpenAI (март 2025): Федеральный судья , отклонив ходатайство OpenAI о прекращении дела. Это может создать важный прецедент по вопросу, считается ли обучение ИИ на собранных данных «добросовестным использованием».
-
Соглашение Anthropic (сентябрь 2025): Anthropic согласилась выплатить $1,5 млрд в рамках урегулирования коллективного иска в США по авторскому праву, связанного с использованием защищённых текстов для обучения своей модели ИИ. Это ясно показывает, что стоимость скрейпинга для ИИ вполне реальна.
Главный тренд: от CFAA к договорному праву и авторскому праву
Картина ясна: CFAA (Computer Fraud and Abuse Act) теряет силу как оружие против тех, кто собирает публичные данные. Компании, которые пытались использовать CFAA против такого скрейпинга — Meta, X, LinkedIn — в основном проигрывали. Вместо этого правовой фронт смещается в сторону:
- договорного права (нарушение ToS — хотя суды всё чаще говорят, что не-пользователи не связаны ToS)
- претензий по авторскому праву (особенно в контексте данных для обучения ИИ)
- законов об обходе технической защиты (DMCA Section 1201)
Для тех, кто занимается скрейпингом, это означает, что риск никуда не исчез — он просто переместился.
Регуляторные изменения
- Обновления CCPA 2026: Пересмотренные правила Калифорнии по CCPA , добавив новые нормы для технологий автоматизированного принятия решений (ADMT), оценки рисков и обязательств data broker’ов.
- Новые законы штатов США о приватности: В Индиане, Кентукки и Род-Айленде в 2026 году вступили в силу комплексные законы о защите данных.
- EU AI Act: Полное применение начнётся — закон требует раскрывать источники обучающих данных, соблюдать отказ от использования, оформленный в машиночитаемом виде, и запрещает сбор изображений лиц для систем ИИ.
- AI Accountability for Publishers Act (февраль 2026): Предлагаемый закон США, который обяжет AI-компании получать разрешение и платить издателям до того, как они будут собирать их контент.
Политика крупных платформ в отношении скрейпинга: что нужно знать
Не все сайты одинаково относятся к скрейпингу. Ниже — обзор по крупнейшим платформам: что они разрешают, что блокируют и что говорят суды:
| Платформа | ToS о скрейпинге | Техническая защита | Юридические меры | Что практически безопасно |
|---|---|---|---|---|
| Google (Search & Maps) | Запрещает автоматический доступ в ToS. У Maps Platform есть отдельный пункт «No Scraping». | SearchGuard, JS-проверки, CAPTCHA, rate limiting. В 2025 году robots.txt был обновлён, чтобы блокировать AI-кроулеры. | В декабре 2025 подала иски против скрейперов по DMCA. Активно блокирует AI-кроулеры (Anthropic, Meta, OpenAI). | Сбор публичных данных Google Maps о бизнесе юридически можно обосновать (прецедент hiQ), но технические блокировки почти наверняка будут. По возможности используйте официальные API. |
| Amazon | Явно запрещает любой скрейпинг в Conditions of Use («никаких роботов, пауков, скрейперов или иных автоматизированных средств»). | Агрессивное определение ботов, CAPTCHA, блокировка IP. robots.txt блокирует всех ботов, кроме Googlebot/Bingbot. С 2025 года отдельно блокирует AI-кроулеры. | В ноябре 2025 подал иск против Perplexity AI. Регулярно отправляет cease-and-desist письма. В марте 2026 обновил BSA с правилами для AI-агентов. | Публичные данные о товарах (цены, листинги) фактически являются данными и в США могут быть собираться, но Amazon активно сопротивляется. Ограничивайте частоту запросов и избегайте персональных данных. |
| Запрещает скрейпинг в ToS; для доступа к сервисам требуется согласие пользователя. | Для большинства данных профиля — login wall, антибот-защита, rate limiting. | Дело hiQ подтвердило, что сбор публичных профилей не нарушает CFAA, но LinkedIn выиграл по требованиям о нарушении договора и недобросовестной конкуренции, когда использовались фейковые аккаунты. | Публичные профили, видимые без входа, юридически можно собирать. Никогда не создавайте фейковые аккаунты и не скрейпьте данные за логином. | |
| Meta (Facebook & Instagram) | ToS запрещают скрейпинг; отдельные правила для данных, доступных и недоступных после входа. | Для большинства материалов — login wall, продвинутое определение ботов. | Проиграла Bright Data в 2024 году — суд решил, что ToS не применяются к тем, кто не вошёл в аккаунт. Meta отказалась от остальных требований. | Публичные данные (бизнес-страницы, открытые посты), видимые без входа, находятся в более безопасной зоне. Никогда не собирайте приватные профили или данные за login wall. |
| X (Twitter) | Обновил ToS в 2023 году, запретив любой скрейпинг и кроулинг без письменного согласия. Убрал прежнее исключение для robots.txt. | robots.txt блокирует всех кроулеров (Disallow: /). Проверки Cloudflare Turnstile. Жёсткие лимиты (300 запросов/час). Оценка репутации IP. | Проиграл Bright Data по публичным данным, но очень жёстко ограничивает технический доступ. | Публичные твиты и профили юридически можно обосновать, но техническая защита X в 2026 году — одна из самых жёстких. Без премиальной прокси-инфраструктуры почти наверняка будут блокировки. |
Итог: Суды стабильно признают, что сбор публично доступных данных без входа в систему не нарушает CFAA. Но платформы всё ещё могут преследовать вас по договорному праву, авторскому праву или законам об обходе технической защиты — и они обязательно усложнят вам жизнь техническими барьерами. Всегда занимайтесь скрейпингом ответственно.
Обучающие данные для ИИ и веб-скрейпинг: новая правовая граница
Если вы следите за новостями 2026 года, то знаете: сбор данных для обучения ИИ-моделей стал самым горячим полем юридических споров. Вот что происходит:
- Иски по авторскому праву множатся. New York Times, авторы и издатели подали иски против OpenAI, Anthropic и других, утверждая, что массовый сбор защищённого контента для обучения LLM не является «fair use». Anthropic урегулировала крупный коллективный иск на $1,5 млрд в 2025 году — это показывает, что стоимость AI-скрейпинга вполне реальна.
- Защита «fair use» выглядит шаткой. Американские суды ещё не вынесли окончательного решения о том, является ли обучение ИИ на собранных данных добросовестным использованием. Первые решения показывают, что многое зависит от того, как были получены данные и что делается с результатом работы ИИ.
- Появляется новое законодательство. (представлен в феврале 2026 года) требует от AI-компаний получать разрешение и платить издателям до сбора их контента.
- EU AI Act (полное применение ) требует раскрывать источники обучающих данных, соблюдать машиночитаемые отказы от использования, предусмотренные исключением TDM в Директиве об авторском праве, и маркировать ИИ-контент. Он также запрещает ИИ-системы, которые собирают изображения лиц из интернета.
- Кроулеры для ИИ/LLM стремительно растут. Доля AI-кроулеров в веб-трафике выросла в четыре раза — с 2,6% до 10,1% — всего за восемь месяцев. Один только OpenAI GPTBot вырос на 305%. В ответ крупные сайты (Amazon, Reddit, NYT) обновляют robots.txt, чтобы явно блокировать AI-кроулеры.
Что это значит для вас: если вы собираете данные для традиционных бизнес-задач — лидогенерации, мониторинга цен, исследования рынка — эти AI-специфические правила могут не применяться напрямую. Но если вы передаёте собранные данные в модели ИИ, будьте крайне осторожны и получите юридическую консультацию.
Законы о веб-скрейпинге в разных странах: краткое сравнение
Давайте посмотрим на ситуацию в глобальном масштабе:
- Соединённые Штаты: Полного запрета нет. Скрейпинг публичных сайтов обычно законен (), а решения 2024 года по Meta и X Corp ещё сильнее укрепили позицию в пользу сбора публичных данных. Но сбор данных за логином или через технические блокировки всё ещё может активировать CFAA. Сейчас тренд смещается к использованию договорного права и претензий по авторскому праву. Законы о приватности быстро расширяются: CCPA получил крупные обновления, вступившие в силу 1 января 2026 года, включая новые правила для автоматизированного принятия решений и обязанностей data broker’ов. В 2026 году в Индиане, Кентукки и Род-Айленде также приняли комплексные законы о защите данных.
- Европейский союз: Строгие правила приватности. GDPR действует даже для публичных персональных данных. Права на базы данных могут ограничивать массовый сбор структурированных данных (). НОВОЕ: вступает в полное применение 2 августа 2026 года, требуя раскрывать источники обучающих данных и соблюдать отказ от использования, связанный с авторским правом. Закон также запрещает сбор изображений лиц из интернета для ИИ-систем.
- Великобритания: После Brexit правила во многом повторяют ЕС. Публичные данные собирать можно, но сбор персональной информации жёстко регулируется. Computer Misuse Act может криминализировать несанкционированный доступ.
- Китай: Очень жёсткие ограничения. PIPL и Закон о безопасности данных требуют согласия на обработку персональных данных. Суды используют закон о недобросовестной конкуренции, чтобы блокировать скрейпинг, который вредит бизнесу ().

Итог: сбор публичных неперсональных данных для внутреннего использования обычно самый безопасный вариант. Всё остальное? Проверяйте местное законодательство и действуйте осторожно.
Распространённые мифы о законности веб-скрейпинга
Разберём несколько мифов, которые я слышу постоянно:
- Миф 1: «Веб-скрейпинг незаконен в принципе».
Неверно. Нет закона, который бы запрещал весь веб-скрейпинг. Важны то, что именно вы собираете, и как вы это делаете (). - Миф 2: «Если данные публичные, я могу делать с ними что угодно».
Не совсем так. Публичные данные всё ещё могут подпадать под законы о конфиденциальности или авторском праве, а ToS могут ограничивать отдельные способы использования (). - Миф 3: «Веб-скрейпинг — это то же самое, что хакерство».
Нет. Сбор публичных веб-страниц — не взлом. Другое дело — обход логинов или технических ограничений (). - Миф 4: «Если меня не поймали, значит всё нормально».
Рискованная логика. Многие сайты используют антибот-защиту и замечают такую активность. Молчание — не согласие. - Миф 5: «Если я укажу источник или использую данные только внутри компании, это уже законно».
Указание авторства не отменяет закон об авторском праве или приватности. Внутреннее использование безопаснее, но это не индульгенция. - Миф 6: «Любой веб-скрейпинг нарушает приватность».
Не каждый скрейпинг связан с персональными данными. Но массовый сбор личной информации без защитных мер почти всегда незаконен (). - Миф 7: «Если в ToS сайта запрещён скрейпинг, значит собирать данные всегда незаконно».
Не обязательно. В 2024 году суды по делам Meta v. Bright Data и X Corp v. Bright Data решили, что ToS не связывают тех, кто с ними никогда не соглашался — то есть если вы собираете данные без входа в аккаунт и без создания учётной записи, условия сайта могут к вам не применяться. Это всё ещё развивающаяся область, но изменения уже серьёзные.
Как собирать данные законно: лучшие практики для соблюдения требований
Вот мой базовый чек-лист для законного и этичного веб-скрейпинга:
- Читайте и соблюдайте Terms of Service сайта. Если там сказано «no scraping», лучше остановиться или запросить разрешение ().
- Работайте только с публичными данными. Если нужен пароль, доступ ограничен — такие данные не скрейпьте ().
- Проверяйте robots.txt и ведите себя вежливо при обходе. Это не закон, но хорошая практика. Не перегружайте сервер — распределяйте запросы во времени ().
- Избегайте персональных данных, если у вас нет законного основания. Если всё же нужно их собирать, соблюдайте GDPR/CCPA и минимизируйте объём.
- Не перепубликуйте собранный контент целиком. Добавляйте ценность, аналитику или получайте разрешение ().
- Не загружайте собранные данные в модели ИИ, не проверив авторские права. Правовая ситуация быстро меняется — если это ваш сценарий, проконсультируйтесь.
- Используйте официальные API или выгрузки данных, если они доступны. Они созданы именно для этого и обычно безопаснее ().
- Будьте прозрачны и подотчётны. Если вы собираете персональные данные, уведомляйте людей и ведите журнал действий.
- Минимизируйте и защищайте данные. Собирайте только необходимое, поддерживайте точность и храните безопасно.
- Следите за изменениями и обращайтесь к юристу в спорных случаях. Законы и судебная практика меняются быстро — особенно EU AI Act и законы штатов США о приватности. Если сомневаетесь, спросите профессионала.
Как законно использовать инструменты веб-скрейпинга: что важно бизнесу
Инструменты веб-скрейпинга вроде делают сбор данных доступным даже без навыков программирования, но пользоваться ими всё равно нужно ответственно:
- Выбирайте инструменты, ориентированные на соблюдение норм. Thunderbit, например, собирает только то, что видно в браузере — без скрытых API-хакающих обходов или несанкционированного доступа ().
- Ограничивайтесь законными сценариями. Внутренняя аналитика, исследование рынка и мониторинг цен конкурентов обычно допустимы. Перепубликация или продажа собранных данных? Гораздо рискованнее.
- Настраивайте инструменты с учётом compliance. Задавайте задержки между запросами, соблюдайте robots.txt и используйте шаблоны, которые собирают только нужное.
- Оставляйте данные внутри компании. Внутреннее использование собранной информации безопаснее, чем её публикация.
- Обучайте команду. Убедитесь, что все понимают правила и лучшие практики.
- Используйте встроенные функции compliance. Thunderbit предупреждает о рискованных сайтах, работает с человеческой скоростью и не хранит ваши данные на своих серверах.
- Не форсируйте процесс. Если инструмент не может собрать данные с сайта, не пытайтесь обходить ограничения. Не все данные можно получить без риска.
Подход Thunderbit: как обеспечить compliant AI Web Scraping
В мы много думали о compliance. Вот как наш AI Web Scraper помогает пользователям оставаться в правовом поле:
- Собирает только то, что видно. Thunderbit работает в вашей браузерной сессии, поэтому не может получить данные, которые вы сами не смогли бы скопировать вручную.
- Предупреждает пользователя. Если вы пытаетесь собрать сайт с жёсткими антискрейпинговыми правилами, Thunderbit подаст предупреждение.
- Человеческая скорость сбора. Независимо от того, работаете ли вы локально или в облаке, Thunderbit не перегружает серверы.
- Гибкий выбор данных. Наш AI предлагает релевантные колонки, помогая собирать только нужное.
- Поддержка подстраниц и пагинации. Thunderbit перемещается по сайту как обычный пользователь, соблюдая его структуру.
- Конфиденциальность и безопасность. Ваши данные остаются у вас — Thunderbit не хранит и не переиспользует их.
- Экспорт с учётом compliance. Вы можете напрямую выгружать данные в Google Sheets, Airtable, Notion или CSV для безопасного внутреннего использования.
- Планирование и автоматизация. Настраивайте повторяющиеся сборы на разумных интервалах.
- Поддержка нескольких языков. Интерфейс Thunderbit поддерживает 34 языка, делая compliance доступным по всему миру.
- Регулярные обновления шаблонов. Наши мгновенные шаблоны для популярных сайтов обновляются с учётом юридических и технических изменений.
Встраивая compliance прямо в продукт, Thunderbit помогает командам получать нужные данные без юридической головной боли.
Быть впереди: адаптация к юридическим и техническим изменениям в веб-скрейпинге
Веб-скрейпинг — это не история по принципу «настроил и забыл». Законы и структура сайтов постоянно меняются. Вот как оставаться на шаг впереди:
- Следите за правовыми изменениями. Темп перемен резко ускорился в 2024–2026 годах — читайте новости о технологическом праве, обновления регуляторов и отраслевые блоги (например, ). Обратите внимание на вступление в силу EU AI Act (август 2026), новые законы штатов США о приватности и продолжающиеся дела по авторскому праву в сфере ИИ.
- Адаптируйтесь к техническим изменениям. Сайты постоянно обновляют дизайн и антибот-защиту. Крупные платформы (Amazon, X, Google) заметно усилили защиту в 2025–2026 годах. AI и шаблоны Thunderbit созданы так, чтобы адаптироваться автоматически.
- Используйте официальные API, если они доступны. Если сайт переходит на платную API-модель, стоит рассмотреть переход ради надёжности и compliance.
- Регулярно аудируйте процесс скрейпинга. Документируйте источники, проверяйте изменения ToS и политик, корректируйте стратегию при необходимости.
- Используйте обновления шаблонов Thunderbit. Наша команда поддерживает шаблоны актуальными, чтобы вам не приходилось переживать из-за изменений в разметке или новых требований compliance.
- Будьте гибкими. Если источник данных становится слишком рискованным, переходите на другой или ищите партнёрство.
С правильными инструментами и подходом вы сможете поддерживать поток данных — без юридических минных полей.
Заключение: как ориентироваться в правовой среде веб-скрейпинга
Веб-скрейпинг сам по себе не является незаконным — это мощный инструмент для бизнеса, исследований и инноваций. Но, как и любой инструмент, он требует соблюдения правил. Главное — понимать, какие данные вы собираете, как именно вы это делаете и что потом собираетесь с ними делать. Уважайте местные законы, соблюдайте правила сайтов и используйте инструменты, ориентированные на compliance, например , чтобы работать прозрачно и безопасно.
Судебные решения 2024–2026 годов (Meta v. Bright Data, X Corp v. Bright Data) усилили позиции в пользу сбора публичных данных, но новые риски возникают вокруг обучающих данных для ИИ, претензий по авторскому праву и EU AI Act. Политики платформ сильно различаются — Google, Amazon, LinkedIn, Meta и X применяют свои правила по-разному, поэтому сначала изучите поле, а уже потом начинайте скрейпинг.
Если вы сомневаетесь, проконсультируйтесь с юристом — особенно если речь о крупных или чувствительных проектах. И помните: правовая среда постоянно меняется, так что важно оставаться в курсе и быстро адаптироваться.
Хотите узнать больше о веб-скрейпинге, compliance и автоматизации? Загляните в за новыми гайдами или попробуйте сами.
Часто задаваемые вопросы
1. Веб-скрейпинг незаконен везде?
Нет. Веб-скрейпинг сам по себе не является незаконным, но его законность зависит от того, что именно вы собираете, как вы это делаете и где находитесь. Сбор публичных неперсональных данных для внутреннего использования обычно допустим во многих регионах, но сбор персональных или защищённых авторским правом данных, а также нарушение правил сайта, может быть незаконным ().
2. Делает ли robots.txt скрейпинг незаконным, если его игнорировать?
Robots.txt не имеет обязательной юридической силы, но его стоит соблюдать. Игнорирование robots.txt само по себе не приведёт к иску, но в случае спора может выставить вас в роли «недобросовестной стороны» ().
3. Можно ли скрейпить Google, Amazon или LinkedIn?
Это сложный вопрос. Все три платформы запрещают скрейпинг в ToS, но суды решили, что ToS могут не связывать пользователей без входа в аккаунт (см. Meta v. Bright Data и X Corp v. Bright Data, оба дела 2024 года). Сбор публично видимых данных (цен товаров, бизнес-листингов, открытых профилей) в США обычно можно юридически обосновать. Однако каждая платформа применяет свои правила по-разному: Amazon действует наиболее агрессивно в юридическом плане (в ноябре 2025 года он подал иск против Perplexity AI); LinkedIn опирается на технические барьеры и договорные претензии; Google всё чаще использует меры на основе DMCA. Всегда скрейпьте ответственно и готовьтесь к техническим контрмерам.
4. Можно ли скрейпить Facebook или Instagram?
После дела Meta v. Bright Data (2024) сбор публичных данных из Facebook и Instagram без входа в аккаунт выглядит более устойчивым с правовой точки зрения. Суд решил, что ToS Meta не применяются к тем, кто не вошёл в систему. Но никогда не создавайте фейковые аккаунты и не собирайте данные за login wall — это уже переход границы.
5. Можно ли скрейпить X (Twitter)?
X обновил ToS в 2023 году, запретив любой скрейпинг без письменного согласия, и внедрил жёсткие технические ограничения (Cloudflare Turnstile, лимит 300 запросов в час, оценка репутации IP). Однако Bright Data выиграл в суде по схожей логике — публичные данные, собранные без аккаунта, не связаны ToS X. Технически X — одна из самых сложных платформ для скрейпинга в 2026 году.
6. Законно ли собирать данные для обучения ИИ-моделей?
Это главный открытый вопрос 2026 года. Крупные иски (NYT v. OpenAI, урегулирование Anthropic на $1,5 млрд) говорят о серьёзных юридических рисках. EU AI Act требует раскрывать источники обучающих данных и соблюдать отказ от использования, связанный с авторским правом. Предлагаемый AI Accountability for Publishers Act потребует разрешения и оплаты. Если вы собираете данные для обучения ИИ, сначала получите юридическую консультацию.
7. Какой самый безопасный способ использовать инструменты вроде Thunderbit?
Собирайте публичные данные, соблюдайте правила сайта, избегайте персональной информации без законного основания и используйте данные внутри компании. Thunderbit создан для соблюдения норм: он собирает только то, что видно в браузере, и предупреждает о рискованных сайтах ().
8. Можно ли использовать собранные данные в коммерческих целях?
Зависит от ситуации. Использование данных для внутренней аналитики или исследований обычно безопаснее. Перепубликация или продажа собранных данных, особенно если они защищены авторским правом или содержат персональную информацию, намного рискованнее и может потребовать разрешения или лицензии.
9. Как следить за юридическими и техническими изменениями в веб-скрейпинге?
Читайте новости о технологическом праве, отслеживайте изменения ToS и политик на целевых сайтах и используйте инструменты вроде Thunderbit, которые регулярно обновляют шаблоны и функции compliance. Главное в 2026 году: вступление в силу EU AI Act (август), текущие дела по авторскому праву в сфере ИИ и новые законы штатов США о приватности. Если есть сомнения, консультируйтесь с юристом.