1 мая 2024 года Управление по защите данных Нидерландов опубликовало заголовок, который встревожил каждую data-команду в Европе: Если вы работаете в продажах, ecommerce или недвижимости — по сути, если вы вообще опираетесь на веб-данные — эта фраза, скорее всего, заставила вас напрячься.
Я это понимаю. В мы каждый день общаемся с бизнес-командами, которым нужны веб-данные для мониторинга цен, генерации лидов и исследования рынка. И вопрос у всех один и тот же: они гуглят «is web scraping legal in Europe», а в ответ получают вариации на тему «это зависит». Когда у вас дедлайн по проекту и список URL, которые нужно собрать, такой ответ мало чем помогает.
Поэтому я потратил несколько недель на изучение реальных норм, рекомендаций DPA, практики правоприменения и судебных дел, чтобы собрать нечто более полезное: практический чек-лист для принятия решения, сводную таблицу мер защиты, реальные размеры штрафов и пошаговое руководство по сбору данных с европейских сайтов без риска оказаться по другую сторону интересов регулятора. Неважно, собираете ли вы цены на товары Amazon или контактные данные B2B из каталога — эта статья поможет понять, где проходят границы и как не выйти за них.
Что такое веб-скрейпинг и почему европейскому бизнесу это важно?
Веб-скрейпинг — это автоматизированное извлечение данных с сайтов в структурированный формат: таблицу, базу данных, CRM. Вместо того чтобы вручную копировать названия товаров и цены со 200 страниц, скрейпер посещает каждую страницу и вытаскивает нужные поля в аккуратные столбцы.
Почему это важно для нетехнических команд? Потому что веб-данные лежат в основе реальных бизнес-решений. Отделы продаж собирают лиды из каталогов. Менеджеры ecommerce ежедневно отслеживают цены конкурентов. Аналитики по недвижимости следят за трендами объявлений на разных площадках. Исследователи рынка массово собирают публичные отзывы и рейтинги. быстро растет, и компании ежедневно собирают миллионы точек данных.
Но нормативная среда в Европе отличается от США. GDPR, Директива о базах данных и развивающиеся рекомендации DPA означают, что «общедоступно» не равно «можно свободно использовать». Как сказал председатель нидерландского DPA Алейд Вольфсен: «публичность автоматически не означает разрешение на scraping». Понять правила до начала работы — не опция, а разница между чистым набором данных и штрафом на шестизначную сумму.
Законен ли веб-скрейпинг в Европе? Краткий ответ
Веб-скрейпинг сам по себе в Европе не является незаконным. Но его законность зависит от трёх вещей: что вы собираете, как вы это делаете и зачем.
На скрейпинг в ЕС распространяются три пересекающихся правовых слоя:
- GDPR — применяется каждый раз, когда вы собираете персональные данные (имена, email, номера телефонов, IP-адреса и даже псевдонимизированные идентификаторы).
- Директива ЕС о базах данных — защищает базы данных, в создание и организацию которых разработчик вложил «существенные инвестиции».
- Право договоров / Условия использования — многие сайты прямо запрещают скрейпинг в своих ToS, и суды ЕС эти условия признают.
Ключевой момент: «публичный» не означает «не регулируется». Даже неперсональные данные могут быть защищены правами на базу данных или договорным правом. Для любого проекта по скрейпингу нужно смотреть на все три слоя вместе.
Ключевые законы ЕС, которые регулируют веб-скрейпинг
GDPR: когда вы собираете персональные данные
Любые данные, связанные с идентифицируемым человеком, запускают требования GDPR. Это включает имена, email-адреса, номера телефонов, IP-адреса, фотографии и даже псевдонимизированные данные, которые можно снова идентифицировать. В момент, когда вы собираете персональные данные, вы становитесь «контролёром данных» и на вас распространяются обязанности по GDPR:
- Законное основание (статья 6): вам нужна правовая причина для обработки данных. Согласие почти никогда не подходит для скрейпинга в масштабе — нельзя заранее спрашивать миллионы людей, можно ли собрать их опубликованные в открытом доступе данные. Чаще всего ссылаются на законный интерес (статья 6(1)(f)), но для этого нужен документированный трёхэтапный тест: (1) ваш интерес законен, (2) обработка необходима, и (3) она непропорционально не затрагивает права субъектов данных с учётом их разумных ожиданий.
- Прозрачность (статья 14): поскольку вы не собираете данные напрямую у человека, вы должны уведомить его — обычно в течение одного месяца — о том, что именно вы собрали, зачем и как он может реализовать свои права. Если индивидуальное уведомление непропорционально сложно, нужно опубликовать общее уведомление со всем содержанием статьи 14.
- Минимизация данных: собирайте только то, что действительно нужно. Если вам нужны цены товаров, не забирайте заодно адреса электронной почты продавцов.
- Ограничение хранения и управление правами: установите сроки хранения, исполняйте запросы на удаление и предоставляйте доступ к информации об источнике.
(принят в мае 2024 года) добавил ещё один слой: в нём говорится, что разные этапы обработки — сбор, предобработка, обучение, промпты и вывод — требуют отдельного анализа правового основания. EDPB не отверг законный интерес для веб-скрейпинга, но настаивает на полном трёхчастном тесте и соответствующих мерах защиты.
Директива ЕС о базах данных: защита того, как организованы данные
Директива о базах данных даёт право sui generis создателям баз данных, которые сделали «существенные инвестиции» в получение, проверку или представление данных. Если ваш скрейпинг извлекает «существенную часть» такой базы, вы можете нарушить это право.
На практике порог довольно высокий. Сбор нескольких сотен цен на товары у крупного ритейлера вряд ли подпадёт под нарушение. Но массовое скачивание всего каталога конкурента — десятков тысяч карточек — уже может перейти черту, особенно если это ставит под угрозу способность создателя окупить инвестиции. Суд ЕС неоднократно выносил решения по этому критерию, и ключевой вопрос всегда сводится к пропорциональности.
Для большинства бизнес-задач по скрейпингу — например, извлечения отдельных полей со страниц товаров или сравнения карточек из категории — риск по Директиве о базах данных ниже. Но риск не нулевой, и это стоит учитывать при проектировании объёма сбора.
Условия использования: непредсказуемый фактор договорного права
Здесь люди часто ошибаются. Многие сайты запрещают скрейпинг в своих Terms of Service. В Европе нарушение ToS — это гражданско-правовой вопрос, а не уголовный, но оно всё равно может привести к судебным запретам, искам о нарушении договора и вполне реальным финансовым потерям.
Есть два варианта: browsewrap (пассивные условия, часто ссылка внизу страницы) сложнее принудительно применить, потому что пользователь явно не соглашался. Clickwrap (когда вы ставите галочку или нажимаете «I agree») гораздо более исполним.
Знаковое дело ЕС — Ryanair v. PR Aviation: суд признал условия Ryanair применимыми к скрейперу, хотя права на базу данных не применялись, потому что скрейпер согласился с условиями. Поэтому всегда проверяйте ToS сайта перед сбором данных. Если это clickwrap-соглашение, прямо запрещающее скрейпинг, действуйте осторожно — или поищите доступ через API.
Директива DSM и AI Act: исключения для исследований и text/data mining
Не каждый скрейпинг подпадает под одинаковые ограничения. Директива о цифровом едином рынке (DSM, 2019) ввела два исключения для text and data mining (TDM):
- Статья 3: научно-исследовательские учреждения и организации культурного наследия могут проводить TDM на законно полученном доступе к контенту.
- Статья 4: любой субъект — включая коммерческие компании — может проводить TDM, если правообладатель явно не отказался (например, через robots.txt, ai.txt или заголовки TDMRep).
EU AI Act (статья 53) добавляет обязательства для поставщиков AI-моделей: они должны учитывать механизмы отказа от TDM и документировать источники обучающих данных.
Есть важная оговорка: эти исключения касаются авторского права и прав на базы данных, но не GDPR. Если ваш TDM затрагивает персональные данные, вам всё равно нужно отдельное правовое основание по GDPR.

Чек-лист «Можно ли это собирать?» для европейских данных
Это раздел, который мне хотелось бы иметь, когда я только начал разбираться в теме. Каждая юридическая статья говорит «это зависит», но как выглядит дерево принятия решения на практике? Ниже — пошаговый чек-лист соответствия с понятными развилками. Каждый шаг ведёт либо к ✅ можно продолжать, либо к ⚠️ нужны дополнительные меры защиты, либо к 🛑 остановиться.
Шаг 1: данные персональные или неперсональные?
Неперсональные данные (цены товаров, SKU, бизнес-адреса, не связанные с конкретными людьми): ниже регуляторная нагрузка. Вам всё равно нужно проверить Директиву о базах данных и ToS, но GDPR не применяется. ✅ Переходите к шагу 3.
Персональные данные (имена, email, номера телефонов, фотографии, любой идентификатор, связанный с человеком): GDPR применяется. ⚠️ Переходите к шагу 2.
Шаг 2: какое правовое основание GDPR подходит?
- Согласие: почти никогда не подходит для скрейпинга в масштабе. 🛑 Только если у вас очень узкий и специфический сценарий.
- Законный интерес (статья 6(1)(f)): самое распространённое основание. Но оно требует документированного трёхчастного теста:
- Ваш интерес законен (коммерческий интерес может подойти, согласно ).
- Обработка необходима для этого интереса.
- Баланс интересов: ваш интерес не перевешивает права субъектов данных с учётом их разумных ожиданий.
- Документируйте тест баланса до начала сбора. Если вы не можете внятно объяснить, почему люди, чьи данные вы собираете, могли бы разумно ожидать такое использование, это тревожный сигнал. ⚠️ Продолжайте только при наличии документированного законного интереса.
Шаг 3: ограничивает ли ToS сайта скрейпинг?
- Clickwrap-соглашение, которое запрещает скрейпинг: 🛑 Высокий риск. Рассмотрите альтернативные источники данных или официальный API.
- Browsewrap или отсутствие ограничений в ToS: ⚠️ Риск ниже, но всё равно уважайте robots.txt и технические сигналы противодействия.
Шаг 4: применяется ли Директива о базах данных?
- Является ли цель базой данных, в организацию которой были вложены существенные инвестиции?
- Извлекает ли ваш скрейпинг «существенную часть» этой базы?
- Если на оба вопроса ответ «да»: ⚠️ есть риск нарушения права sui generis. Ограничьте объём извлекаемых данных.
Шаг 5: подпадаете ли вы под исключение для исследований или TDM?
- Зарегистрированное научное учреждение или организация культурного наследия? Может применяться статья 3 Директивы DSM. ✅
- Коммерческий TDM? Проверьте сигналы отказа по статье 4 (robots.txt, ai.txt, TDMRep). Если сайт отказался, 🛑 остановитесь для этого источника.
Шаг 6: применили ли вы меры защиты, рекомендованные DPA?
Если вы прошли все проверки выше, последний шаг — внедрить меры защиты, которые рекомендуют CNIL, нидерландский DPA и EDPB. Подробно они описаны в следующем разделе. ✅ Продолжайте, если меры защиты уже внедрены.

Меры защиты для соответствия требованиям DPA: что рекомендуют CNIL, Dutch DPA и EDPB
Ни одна из найденных мной статей конкурентов не сводит в одну таблицу меры защиты от трёх самых активных европейских регуляторов по теме скрейпинга. Поэтому я собрал эту таблицу, сопоставив , и .
| Мера защиты | CNIL | Dutch DPA (AP) | Рабочая группа EDPB | Советы по внедрению |
|---|---|---|---|---|
| Уведомление о прозрачности по ст. 14 | ✅ Обязательно | ✅ Обязательно | ✅ Обязательно | Опубликуйте публичное уведомление с категориями источников, целями, правовым основанием, сроком хранения, каналами для прав и контактами DPO |
| DPIA до начала скрейпинга | ✅ Рекомендуется (обязательно при высоком риске) | ✅ Обязательно | ✅ Обязательно | До запуска задокументируйте тест баланса, категории данных, риски и меры снижения риска |
| Минимизация данных | ✅ Обязательно (определите точные критерии сбора) | ✅ Обязательно | ✅ Обязательно | Настройте скрейпер так, чтобы он извлекал только нужные поля; удаляйте лишние данные сразу |
| Ограничение частоты запросов / соблюдение robots.txt | ✅ Обязательно (исключать сайты, которые возражают через robots.txt/CAPTCHA) | — | — | Анализируйте robots.txt, добавляйте задержки между запросами, указывайте свой user agent |
| Псевдонимизация / анонимизация | ⚠️ Рекомендуется (сразу после сбора) | ✅ Настоятельно рекомендуется | ✅ Рекомендуется | Хэшируйте или рандомизируйте ID; удаляйте URL профилей; размывайте лица, если идентичность не нужна |
| Срок хранения | ✅ Ограниченный и определённый | ✅ Как можно короче | ✅ Ограниченный и определённый | Автоматизируйте удаление; отделяйте сырой кэш от извлечённых фактов |
| Механизм opt-out / blacklist | ✅ Рекомендуется (предварительное возражение по усмотрению) | ✅ Обязательно (возражение по ст. 21) | ✅ Обязательно | Предусмотрите форму отказа, blacklist доменов, подавление на уровне конкретного человека |
| Исключение чувствительных источников | ✅ Обязательно (форумы о здоровье, сайты для несовершеннолетних, порносайты, генеалогические сайты) | ✅ Обязательно | ✅ Обязательно | Поддерживайте блоклисты по темам здоровья, религии, политики, биометрии, несовершеннолетних |
Практическая ремарка с нашей стороны: функция Thunderbit позволяет пользователям точно указать, какие столбцы нужно извлечь — цена, SKU, название товара — так что скрейпер собирает только необходимое. Вы не скачиваете целые страницы массово; вы выбираете структурированные поля, которые соответствуют принципам ограничения цели и минимизации данных. При этом никакой инструмент не делает несоответствующий требованиям скрейпинг законным. Правовой анализ всегда идёт первым.

Законен ли веб-скрейпинг в Европе в вашем случае? Отраслевые рекомендации
Чаще всего в форумах спрашивают не «законен ли скрейпинг?», а «законен ли мой скрейпинг?». Абстрактная теория GDPR на это не отвечает. Поэтому вот разбор по типовым бизнес-сценариям.
| Сценарий | Тип данных | Ключевые правовые риски | Вероятный результат |
|---|---|---|---|
| Мониторинг цен в ecommerce (публичные карточки товаров) | Неперсональные (цены, SKU, названия товаров) | Sui generis право по Директиве о базах данных; нарушение ToS | Обычно риск ниже, если нет персональных данных и нет систематического извлечения «существенной части» базы |
| B2B-генерация лидов (контактные данные из каталогов) | Персональные (имена, email, телефоны) | Законное основание по ст. 6 GDPR; уведомление по ст. 14; ePrivacy для электронных контактов | Более высокий риск — нужен документированный тест баланса законного интереса и обязанность уведомления |
| Объявления о недвижимости (данные об объектах с порталов) | Смешанные (адреса могут быть неперсональными; имена владельцев — персональные) | Директива о базах данных; ToS; GDPR, если данные связаны с владельцем | Средний риск — анонимизируйте данные владельца, проверьте ToS, соблюдайте robots.txt |
| Данные для обучения AI (массовый сбор веб-контента) | Потенциально персональные, если не фильтровать | GDPR + обязательства по ст. 53 EU AI Act по TDM | Высокий риск — нужно соблюдать и GDPR, и AI Act; требуются механизмы отказа и жёсткая фильтрация |
Для менее рискованных сценариев, таких как публичные ecommerce-данные, инструменты со структурированными шаблонами — например, — снижают риск, потому что извлекают конкретные неперсональные поля без лишнего контента. Для более рискованных сценариев, связанных с персональными данными (например, лидогенерация), правовой анализ должен быть первым. Никакой скрейпер, каким бы умным он ни был, не превращает несоответствующий сбор в соответствующий требованиям.

ЕС vs США vs Великобритания: чем отличаются законы о веб-скрейпинге
Если ваш бизнес работает через границы, нужно понимать, чем отличаются правила. Я не нашёл у конкурентов единую наглядную сравнительную таблицу, поэтому вот она.
| Параметр | ЕС | США | Великобритания (после Brexit) |
|---|---|---|---|
| Основной закон | GDPR + Директива о базах данных + ePrivacy | CFAA + законы штатов (ограниченная федеральная защита данных) | UK GDPR + Data Protection Act 2018 |
| Сбор публичных данных | Всё равно требует правового основания по GDPR, если данные персональные | В целом законно по hiQ v. LinkedIn (публичные данные) | Похоже на ЕС; применяется guidance ICO |
| Принудительное исполнение ToS | Гражданско-правовой вопрос; Ryanair v. PR Aviation признал право sui generis | Van Buren сузил CFAA; нарушение ToS ≠ преступление | Гражданско-правовой вопрос, как в ЕС |
| Защита баз данных | Право sui generis (сильное) | Нет федерального аналога | Сохранённое право sui generis |
| Исключение для AI/TDM | DSM Directive ст. 3–4; AI Act ст. 53 | Нет федерального исключения для TDM (доктрина fair use) | Великобритания рассматривает исключение TDM (по состоянию на 2026 год — без движения) |
| Ключевой орган надзора | Национальные DPA (CNIL, Dutch AP и др.) | FTC + генеральные прокуроры штатов | ICO |
| Последний тренд | Жёстче (Dutch AP: «почти всегда незаконно» для персональных данных) | Более мягкий после hiQ | Умеренный; в целом следует направлению ЕС |
Если вы собираете данные с европейских сайтов или данные о жителях Европы, применяются правила ЕС — даже если ваша компания находится в США или Великобритании.
Реальные штрафы и дела: что происходит на практике, если вас поймают (2022–2026)
Это раздел, который отвечает на вопрос за вопросом: «Какой реальный риск?» Я собрал все публичные меры принуждения DPA, связанные с веб-скрейпингом или собранными персональными данными, с 2022 года по апрель 2026 года.
| Год | Орган | Цель | Нарушение | Штраф / результат |
|---|---|---|---|---|
| 2022 | Итальянский Garante | Clearview AI | Сбор изображений лиц без правового основания | Штраф €20 млн + запрет + предписание об удалении |
| 2022 | Hellenic DPA (Греция) | Clearview AI | То же — сбор данных для распознавания лиц | Штраф €20 млн + запрет + удаление |
| 2022 | CNIL (Франция) | Clearview AI | База данных для распознавания лиц | Штраф €20 млн + возможный штраф €100 тыс. в день |
| 2023 | CNIL (Франция) | Clearview AI | Неисполнение предписания 2022 года | Платёж-санкция €5,2 млн |
| 2023 | Австрийский DSB | Clearview AI | Более 30 млрд изображений лиц из открытого веба | Удаление + предписание назначить представителя в ЕС (штраф не опубликован) |
| 2024 | Dutch AP | Clearview AI | Незаконный сбор данных для распознавания лиц | Штраф €30,5 млн + предписания по соблюдению |
| 2024 | CNIL (Франция) | KASPR | Сбор контактных данных LinkedIn для лидогенерации | Штраф €240 000 — 160 млн контактов, данные с ограниченной видимостью, хранение 5 лет |
| 2024 | Irish DPC | X / Grok | Публичные посты, использованные для обучения AI | Соглашение о приостановке; в 2025 году открыто официальное расследование |
| 2024 | Irish DPC | Meta | Запланированное обучение LLM на публичном контенте Facebook/Instagram | Meta приостановила планы по обучению AI в ЕС |
| 2024 | Итальянский Garante | OpenAI | Данные обучения ChatGPT и прозрачность | Штраф €15 млн вынесен, отменён судом Рима в марте 2026 года |
Суммарные денежные санкции в ЕС/ЕЭЗ в категории скрейпинга и open web: более €95 млн (без учёта отменённого штрафа OpenAI).
Все эти крупные штрафы были связаны с массовым сбором биометрических или персональных данных без какого-либо правового основания. Clearview собрал миллиарды изображений лиц. KASPR собрал 160 миллионов контактов, включая данные из профилей LinkedIn с ограниченной видимостью, и хранил их пять лет.
Пропорциональный, целевой сбор публичных неперсональных данных — например, цен товаров или SKU — не становился предметом правоприменения. Это не делает его безрисковым, но помогает смотреть на цифры в контексте.
Как безопасно собирать данные с европейских сайтов: пошаговое руководство
- Сложность: начальный уровень
- Время: около 15 минут (включая проверку соответствия требованиям)
- Что понадобится: браузер Chrome, (подойдёт бесплатный тариф), целевой URL и быстрый просмотр чек-листа выше
Шаг 1: определите цель и потребности в данных
Прежде чем открывать любой инструмент, запишите, зачем вам нужны данные и какие именно поля вам нужны. Это не просто хорошая практика — это основа принципов ограничения цели и минимизации данных в GDPR.
Например: «Мне нужны названия товаров, цены и статус наличия из 50 страниц товаров Amazon, чтобы обновить нашу таблицу конкурентного ценообразования». Это конкретно. Сравните с: «Я хочу собрать всё с Amazon». Первый вариант проходит тест на минимизацию, второй — нет.
Шаг 2: пройдите чек-лист соответствия
Пройдите шесть шагов из чек-листа «Можно ли это собирать?» выше. Если на каком-то этапе выпадает 🛑, остановитесь и проконсультируйтесь с юристом до продолжения.
Если прогнать наш пример с ценами Amazon через этот фильтр: данные неперсональные (цены, SKU, названия товаров) ✅, вопрос по персональным данным GDPR отсутствует ✅, ToS Amazon нужно проверить (там скрейпинг ограничен, так что при наличии лучше рассмотреть официальные API данных о товарах) ⚠️, а риск по Директиве о базах данных для 50 товаров низкий ✅.
Шаг 3: выберите подходящий способ скрейпинга
| Метод | Простота использования | Поддержка соответствия требованиям | Сопровождение | Точность |
|---|---|---|---|---|
| Ручное копирование и вставка | Низкая | Н/д (вы контролируете, что копируете) | Высокая (очень трудозатратно) | Склонно к ошибкам |
| Скрейпер на коде (Python, Scrapy) | Низкая (нужны навыки программирования) | Нет встроенной | Высокая (ломается при изменении сайтов) | Высокая при поддержке |
| Thunderbit (с AI) | Очень высокая | Встроенная минимизация на уровне полей | Низкая (AI адаптируется к изменениям страницы) | Высокая |
| Официальный API | Средняя | Максимальная (структурированный, санкционированный доступ) | Низкая | Максимальная |
Для бизнес-пользователей без команды разработчиков — самый быстрый путь. Для сайтов с официальными API (например, Amazon Product Advertising API) API всегда остаётся самым безопасным вариантом, но часто имеет ограничения по объёму данных и полям.
Шаг 4: настройте скрейпер с учётом требований соответствия
В Thunderbit:
- Перейдите на целевую страницу (например, страницу товарной выдачи Amazon).
- Нажмите на иконку Thunderbit на панели Chrome и выберите «AI Suggest Fields». AI проанализирует страницу и предложит столбцы вроде «Название товара», «Цена», «Рейтинг» и «Статус наличия».
- Удалите все ненужные поля. Если AI предлагает «Название продавца» или «Email продавца», а вам нужны только данные о ценах, удалите эти столбцы. На практике это и есть минимизация данных.
- Используйте Field AI Prompt, чтобы добавить инструкции вроде «исключить персональные идентификаторы» или «извлекать только публичные данные о ценах».
- Выберите Cloud Scraping для публичных ecommerce-сайтов (быстрее, вход в систему не нужен) или Browser Scraping для сайтов, где требуется авторизация.
- Перед нажатием «Scrape» проверьте, не запрещает ли robots.txt сбор данных в вашем случае. Это можно сделать, открыв
[domain]/robots.txtв браузере.
Теперь вы должны видеть предпросмотр таблицы только с теми полями, которые вы настроили, — без лишних персональных данных и ненужных метаданных.
Шаг 5: экспортируйте, храните и управляйте данными ответственно
После сбора экспортируйте данные в — Thunderbit поддерживает всё это с бесплатным экспортом.
Дальше:
- Установите срок хранения. Не храните собранные данные бесконечно. Если вы еженедельно мониторите цены, сырые данные за прошлый месяц, скорее всего, уже не нужны.
- Если были собраны персональные данные (например, для лидогенерации), задокументируйте правовое основание, опубликуйте уведомление о прозрачности по статье 14 и настройте процесс обработки отказов и запросов на удаление.
- Автоматизируйте удаление, где это возможно. в Thunderbit может автоматически запускать повторяющиеся сборы через заданные интервалы, сохраняя ту же настройку полей, чтобы каждый запуск оставался в рамках ваших параметров соответствия.
Советы, как оставаться в правовом поле при скрейпинге в Европе
Вот несколько практик, которые я вынес из исследования темы и общения с командами, внимательно относящимися к compliance:
- Всегда проверяйте ToS перед сбором данных с нового сайта. Это занимает две минуты и может сэкономить месяцы юридических проблем.
- Используйте API, когда они доступны. Это структурированный, санкционированный и самый безопасный путь. Скрейпинг должен быть запасным вариантом, а не дефолтом.
- Проводите DPIA для любого проекта с персональными данными в масштабе. CNIL считает, что датасеты для обучения AI могут создавать высокий риск, а DPIA — это доказательство вашей подотчётности. Даже для небольших проектов полезно документировать анализ.
- Ведите журнал скрейпинга. Записывайте, что именно собиралось, когда, откуда, на каком правовом основании и с каким сроком хранения. Если DPA когда-нибудь задаст вопросы, вы скажете себе спасибо.
- Следите за обновлениями регуляторов. Рекомендации DPA быстро меняются — CNIL опубликовал новые материалы по AI scraping в январе 2026 года, и ожидаются дальнейшие мнения EDPB. Правила сегодня могут ужесточиться завтра.
- Не собирайте данные из ограниченных или чувствительных источников. включает форумы о здоровье, сайты, которыми в основном пользуются несовершеннолетние, порносайты, генеалогические сайты и высокоструктурированные сайты с персональными данными. Если вы строите проект по скрейпингу, поддерживайте стандартный блоклист.
- Автоматизированный трафик — это серьёзный операционный фактор. , что в 2024 году боты составляли 42% всего веб-трафика, а , что автоматический бот-трафик впервые превысил человеческий и достиг 51% в 2024 году. Регуляторы всё чаще рассматривают поведение ботов, частоту запросов и обход ограничений как признаки риска и недобросовестности. Вести себя как ответственный скрейпер — указывать свой user agent, ограничивать частоту запросов и уважать сигналы противодействия — не просто вежливо; это важно и с юридической точки зрения.
Заключение
Веб-скрейпинг в Европе не запрещён. Но он регулируется — особенно когда речь идёт о персональных данных.
Юридический результат зависит от того, что вы собираете (персональные или неперсональные данные), как вы это делаете (ToS, robots.txt, ограничение частоты запросов, минимизация на уровне полей) и зачем (документированная цель и правовое основание). Практика правоприменения говорит ясно: массовый, indiscriminate сбор персональных данных без правового основания — это то, где компании получают штрафы на семи- и восьмизначные суммы. Пропорциональный, целевой сбор публичных неперсональных данных — при наличии мер защиты — относится к совсем другой категории риска.
Практическая схема:
- Используйте чек-лист решения перед каждым проектом по сбору данных.
- Применяйте меры защиты, рекомендованные DPA (прозрачность, минимизация, сроки хранения, механизмы отказа).
- Выбирайте инструменты, которые изначально поддерживают compliance. AI-подбор полей в Thunderbit, структурированное извлечение и позволяют просто собирать только нужные данные — не больше и не меньше.
- Документируйте всё. Тест баланса, список источников, график хранения, DPIA. Если регулятор задаст вопросы, ваша документация будет вашей защитой.
Обязательный дисклеймер: эта статья носит информационный характер и не является юридической консультацией. Для высокорискованных сценариев, связанных с массовой обработкой персональных данных, проконсультируйтесь с квалифицированным юристом по privacy. Нормы продолжают меняться, а цена ошибки реальна.
Хотите сами попробовать соответствующий требованиям, целевой веб-скрейпинг? позволяет тестировать структурированное извлечение в небольшом масштабе — задайте поля, собирайте только нужное и экспортируйте в пару кликов. Также вы можете посмотреть наш с пошаговыми инструкциями.
Часто задаваемые вопросы
1. Законен ли веб-скрейпинг в Европе, если данные общедоступны?
Общедоступность не освобождает данные от GDPR, если они содержат персональную информацию. Как указал нидерландский DPA, «публичный» автоматически не означает «разрешено собирать». Неперсональные публичные данные (цены товаров, SKU) обычно менее рискованны, но всё равно нужно проверить Директиву о базах данных и Условия использования сайта.
2. Можно ли собирать email и номера телефонов с европейских сайтов?
Email и номера телефонов являются персональными данными по GDPR. Вам нужно правовое основание — обычно законный интерес с документированным тестом баланса — и вы должны уведомить людей по статье 14. В 2024 году CNIL оштрафовал KASPR на €240 000 за сбор контактных данных LinkedIn без надлежащей прозрачности или правового основания, так что в этой области правоприменение активно.
3. Какой самый крупный штраф за незаконный веб-скрейпинг в Европе?
В 2024 году нидерландский DPA оштрафовал Clearview AI на за незаконный сбор данных для распознавания лиц из открытого веба. Несколько других DPA в ЕС также оштрафовали Clearview на €20 млн каждый. Общая сумма штрафов ЕС/ЕЭЗ, связанных со скрейпингом, с 2022 по 2026 год превышает €95 млн.
4. Делает ли соблюдение robots.txt веб-скрейпинг законным в Европе?
Соблюдение robots.txt — это лучшая практика, и она соответствует , но само по себе не гарантирует законность. Вам всё равно нужно соблюдать GDPR (если затронуты персональные данные), Директиву о базах данных и ToS сайта. Считайте соблюдение robots.txt одним из слоёв в многослойной системе compliance.
5. Чем закон о веб-скрейпинге в Европе отличается от США?
ЕС значительно строже. GDPR применяется к любым персональным данным — даже общедоступным — а Директива о базах данных обеспечивает сильную защиту организованных наборов данных. В США нет федерального закона, эквивалентного ни одному из них; после hiQ v. LinkedIn сбор публичных данных в США обычно допустим. Великобритания после Brexit находится между этими моделями: UK GDPR и сохранённые права на базы данных в основном повторяют правила ЕС, но применяются через ICO. Для трансграничного бизнеса правила ЕС задают самую высокую планку — и если вы собираете данные о жителях ЕС, эти правила действуют независимо от того, где находится ваша компания.
Узнать больше
