Поиск на GitHub по запросу "linkedin scraper" по состоянию на апрель 2026 года возвращает примерно . Большинство из них только отнимут у вас время. Жестко? Возможно. Но именно к такому выводу я пришел после аудита восьми самых заметных репозиториев, чтения десятков веток GitHub Issues и сопоставления отчетов сообщества с Reddit и форумов по scraping. Картина повторяется снова и снова: популярные репозитории привлекают внимание, команда LinkedIn по борьбе с ботами изучает код, защита от обнаружения быстро патчится, а пользователи в итоге получают сломанные селекторы, бесконечные CAPTCHA или даже бан аккаунта. Один пользователь Reddit описал текущее положение прямо: LinkedIn добавил «более жесткие лимиты, лучшее обнаружение ботов, отслеживание сессий и частые изменения», а старые инструменты теперь «быстро ломаются или приводят к пометке аккаунтов/IP». Если вы продавец, рекрутер или операционный менеджер и вам нужны данные LinkedIn в таблице, репозиторий, который вы клонировали в прошлом месяце, уже может быть мертв. Этот гид поможет понять, какие проекты на GitHub действительно стоят вашего времени, как не спалить аккаунт и когда разумнее вообще обойтись без кода.
Что такое LinkedIn Scraper на GitHub?
Проект LinkedIn scraper на GitHub — это open-source скрипт, обычно на Python, иногда на Node.js, который автоматизирует извлечение структурированных данных со страниц LinkedIn. Типичные цели:
- Профили людей: имя, заголовок, компания, местоположение, навыки, опыт
- Вакансии: должность, компания, местоположение, дата публикации, URL вакансии
- Страницы компаний: обзор, численность штата, отрасль, число подписчиков
- Посты и вовлеченность: текст контента, лайки, комментарии, репосты
Под капотом большинство репозиториев используют один из двух подходов. Скрейперы на базе браузера полагаются на Selenium, Playwright или Puppeteer, чтобы рендерить страницы, проходить по сценариям и извлекать данные через CSS-селекторы или XPath. Меньшая часть пытается напрямую вызывать внутренние, не документированные API-эндпоинты LinkedIn. А новое направление — пока еще редкое на GitHub, но быстро растущее — сочетает браузерную автоматизацию с LLM вроде GPT-4o mini, чтобы превращать текст страницы в структурированные поля без хрупких селекторов.
Здесь есть фундаментальное несоответствие аудитории. Эти инструменты создают разработчики, которым комфортны виртуальные окружения, зависимости браузера и настройка прокси. Но значительная часть тех, кто ищет "linkedin scraper github", — это рекрутеры, SDR, менеджеры по RevOps и основатели, которым просто нужны строки в таблице.
Именно этот разрыв и объясняет большую часть раздражения в ветках Issues.
Почему люди идут на GitHub за скрейпингом LinkedIn
Причины очевидны. Бесплатно. Настраиваемо. Никакой привязки к вендору. Полный контроль над вашим конвейером данных. Если SaaS-инструмент меняет тарифы или закрывается, ваш код по-прежнему остается у вас.
| Сценарий | Кому это нужно | Какие данные обычно извлекают |
|---|---|---|
| Генерация лидов | Отделы продаж | Имена, должности, компании, URL профилей, подсказки по email |
| Поиск кандидатов | Рекрутеры | Профили, навыки, опыт, местоположения |
| Исследование рынка | Операционные и стратегические команды | Данные о компаниях, численность, вакансии |
| Конкурентная разведка | Маркетинговые команды | Посты, вовлеченность, обновления компаний, сигналы найма |
Но «бесплатно» — это не стоимость эксплуатации, а только ярлык на лицензии. Реальные расходы — это:
- Время на настройку: даже дружелюбные репозитории обычно требуют от 30 минут до 2+ часов на окружение, зависимости браузера, извлечение cookie и настройку прокси
- Поддержка: LinkedIn регулярно меняет DOM и антибот-защиту — рабочий сегодня скрейпер может сломаться уже на следующей неделе
- Прокси: трафик через residential-прокси стоит примерно в зависимости от провайдера и тарифа
- Риск для аккаунта: ваш LinkedIn-аккаунт — самая дорогая вещь на кону, и его нельзя заменить так же легко, как IP прокси
Таблица оценки здоровья репозитория: как проверять любой LinkedIn Scraper на GitHub
Большинство списков «лучших LinkedIn scraper» ранжируют репозитории по числу звезд. Звезды показывают исторический интерес, а не текущую работоспособность. Репозиторий с 3000 звезд и без коммитов с 2022 года — это музейный экспонат, а не production-инструмент.
Прежде чем запускать git clone, проверьте по этой схеме:
| Критерий | Почему это важно | Красный флаг |
|---|---|---|
| Дата последнего коммита | LinkedIn часто меняет DOM | Более 6 месяцев назад для браузерных репозиториев |
| Соотношение открытых и закрытых Issues | Насколько быстро отвечает мейнтейнер | Более 3:1 в пользу открытых, особенно если есть свежие жалобы на "blocked" или "CAPTCHA" |
| Функции антиобнаружения | LinkedIn жестко банит | В README нет упоминаний cookie, сессий, pacing или прокси |
| Способ авторизации | 2FA и CAPTCHA ломают логин | Поддерживается только вход по паролю в headless-режиме |
| Тип лицензии | Юридические риски при коммерческом использовании | Нет лицензии или формулировки расплывчаты |
| Поддерживаемые типы данных | Для разных задач нужны разные репозитории | Поддерживается только один тип данных, хотя вам нужно несколько |
Один прием экономит больше всего времени: перед тем как всерьез брать репозиторий, поищите в его вкладке Issues слова "blocked", "banned", "CAPTCHA" или "not working". Если свежие issues забиты такими терминами и при этом нет ответа мейнтейнера, проходите мимо. Этот репозиторий уже проиграл.
Что на самом деле показал аудит 2026 года

Я применил эту таблицу к восьми самым заметным репозиториям LinkedIn scraper на GitHub. Результаты были неутешительными.
| Репозиторий | Звезды | Последний коммит | Работает в 2026? | Основной охват | Ключевые замечания |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3,983 | Апрель 2026 | ✅ С оговорками | Профили, компании, посты, вакансии | Переписан на Playwright, повторное использование сессии — но свежие issues показывают блокировки безопасности и сломанный поиск вакансий |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | Январь 2026 | ✅ Для туториалов и публичных данных | Люди, компании, вакансии | Интеграция с прокси ScrapeOps; бесплатный тариф позволяет 1000 запросов в месяц при 1 потоке |
| spinlud/py-linkedin-jobs-scraper | ~472 | Март 2025 | ⚠️ Только вакансии | Вакансии | Поддержка cookie, экспериментальный режим прокси — полезно, если нужны только публичные вакансии |
| madingess/EasyApplyBot | ~170 | Март 2025 | ⚠️ Не тот инструмент | Автоматизация Easy Apply | Это не data scraper — он автоматизирует отклики на вакансии |
| linkedtales/scrapedin | ~611 | Май 2021 | ❌ | Профили | В README до сих пор сказано «working in 2020»; в issues видны проблемы с проверкой пин-кода и изменениями HTML |
| austinoboyle/scrape-linkedin-selenium | ~526 | Октябрь 2022 | ❌ | Профили, компании | Когда-то был полезен, но к 2026 году слишком устарел |
| eilonmore/linkedin-private-api | ~291 | Июль 2022 | ❌ | Профили, вакансии, компании, посты | Обертка над private API; не документированные эндпоинты меняются непредсказуемо |
| nsandman/linkedin-api | ~154 | Июль 2019 | ❌ | Профили, сообщения, поиск | Исторически интересен; задокументировано ограничение скорости примерно после ~900 запросов в час |
Только 2 из 8 репозиториев выглядели действительно пригодными для читателя в 2026 году без серьезных оговорок. Для GitHub-скрейпинга LinkedIn это не исключение — это норма.
План предотвращения банов: прокси, rate limits и безопасность аккаунта
Баны аккаунтов — самый большой операционный риск. Даже технически грамотные скрейперы здесь часто проваливаются. Код работает; аккаунт — нет. Пользователи сообщают о пометках уже после , несмотря на прокси и большие задержки.
Ограничение скорости: что сообщает сообщество

Гарантированно безопасного числа не существует. LinkedIn оценивает возраст сессии, тайминг кликов, всплески активности, репутацию IP и поведение аккаунта — не только общий объем. Данные сообщества складываются в такие диапазоны:
- Один пользователь сообщил об обнаружении после 40–80 профилей с прокси и темпом по 33 секунды
- Другой советовал держаться около 30 профилей в день на аккаунт
- Более агрессивный оператор утверждал, что обрабатывает , распределяя их по всему дню
- задокументировал внутреннее предупреждение о rate limit примерно после 900 запросов за один час
Практический вывод: менее 50 просмотров профилей в день на аккаунт — зона пониженного риска. 50–100 в день — это средний риск, где качество сессии имеет большое значение. Выше 100 в день на аккаунт — уже все более агрессивная территория.
Стратегия прокси: residential против datacenter
Residential-прокси остаются стандартом для LinkedIn, потому что они похожи на обычный трафик конечного пользователя. Datacenter-IP дешевле, но на более продвинутых сайтах их быстрее помечают — а LinkedIn как раз и относится к таким сайтам, где дешевые IP быстро замечают.
Текущий ценовой ориентир:
- : $3.00–$4.00/GB в зависимости от тарифа
- : $4.00–$6.00/GB в зависимости от тарифа
Ротацию делайте по сессиям, а не по каждому запросу. Ротация на каждый запрос создает отпечаток, который громче любого отдельного IP говорит: «это прокси-инфраструктура».
Протокол для запасного аккаунта
Совет сообщества в этом вопросе прямолинеен: не рассматривайте свой основной LinkedIn-аккаунт как расходную инфраструктуру для скрейпинга.
Если вы все же настаиваете на скрейпинге через аккаунт:
- Используйте отдельный аккаунт, не связанный с вашей основной профессиональной идентичностью
- Полностью заполните профиль и дайте ему вести себя как человеку несколько дней до начала скрейпинга
- Никогда не привязывайте свой реальный номер телефона к аккаунтам для скрейпинга
- Держите сессии скрейпинга полностью отдельно от реального аутрича и переписок
Важно отметить: LinkedIn (вступило в силу 3 ноября 2025 года) прямо запрещает ложные личности и совместное использование аккаунтов. Тактика с запасным аккаунтом часто применяется на практике, но с точки зрения договора это грязная история.
Как обрабатывать CAPTCHA
CAPTCHA — это не просто неудобство. Это сигнал, что ваша сессия уже находится под наблюдением. Варианты:
- Ручное прохождение, чтобы продолжить сессию
- Повторное использование cookie вместо повторного запуска логина
- Сервисы-решатели вроде (~$0.50–$1.00 за 1000 image CAPTCHA, ~$1.00–$2.99 за 1000 решений reCAPTCHA v2)
Но если ваш рабочий процесс регулярно вызывает CAPTCHA, стоимость сервисов-решателей — это далеко не главная проблема. Ваш стек проигрывает в скрытности.
Спектр риска
| Объем | Уровень риска | Рекомендуемый подход |
|---|---|---|
| < 50 профилей в день | Низкий | Браузерная сессия или повторное использование cookie, медленный темп, без агрессивной автоматизации |
| 50–500 профилей в день | Средний — высокий | Residential-прокси, прогретые аккаунты, повторное использование сессии, случайные задержки |
| 500+ в день | Очень высокий | Коммерческие API или поддерживаемые инструменты со встроенной антидетекцией; одних публичных репозиториев GitHub обычно недостаточно |
Парадокс open source: почему популярные репозитории LinkedIn scraper на GitHub ломаются быстрее
Пользователи поднимают справедливый вопрос: «Если сделать open-source версию, LinkedIn просто посмотрит, что вы делаете, и заблокирует это». Это беспокойство не параноидальное. Оно структурно верное.
Проблема видимости
Большое число звезд создает сразу два сигнала: доверие для пользователей и цель для команды безопасности LinkedIn. Чем популярнее становится репозиторий, тем выше шанс, что LinkedIn специально подстроит защиту против его методов.
Этот жизненный цикл хорошо видно в данных аудита. linkedtales/scrapedin был достаточно заметен, чтобы заявлять, что работает с «новым сайтом» LinkedIn в 2020 году. Но репозиторий не успел за последующими изменениями верификации и верстки. nsandman/linkedin-api когда-то документировал полезные приемы, но последний коммит был сделан за годы до текущей антибот-среды.
Преимущество патчей от сообщества
У open source есть и один реальный плюс: активные мейнтейнеры и контрибьюторы могут быстро выпускать патчи, когда LinkedIn меняет защиту. joeyism/linkedin_scraper — главный пример из этого аудита: у него все еще встречаются issues с blocked-auth и сломанным поиском, но проект хотя бы живой. Форки часто внедряют новые методы обхода быстрее, чем оригинальный репозиторий.
Что с этим делать
- Не полагайтесь на один публичный репозиторий как на постоянную инфраструктуру
- Следите за активными форками, которые внедряют обновленные методы обхода
- Для production-использования рассмотрите частный форк, чтобы ваши конкретные доработки не были публичными
- Будьте готовы менять методы, когда LinkedIn меняет детекцию или поведение интерфейса
- Диверсифицируйте подходы, а не ставьте все на один инструмент
Извлечение на базе AI против CSS-селекторов: практическое сравнение

Самое интересное техническое разделение в 2026 году — не GitHub против no-code. Это извлечение на основе селекторов против семантического извлечения — и разница здесь важнее, чем признают многие обзоры.
Как работают CSS-селекторы (и почему ломаются)
Традиционные скрейперы анализируют DOM LinkedIn и сопоставляют каждое поле CSS-селектору или XPath-выражению. Когда структура страницы стабильна, это отличный подход: высокая точность, низкая предельная стоимость, очень быстрое парсение.
Провал тоже предсказуем. LinkedIn меняет названия классов, вложенность, поведение lazy-loading или прячет контент за другими auth wall — и скрейпер ломается сразу. Заголовки issues в аудите репозиториев сами говорят за себя: «changed HTML», «broken job search», «missing values», «authwall blocks».
Как работает AI/LLM-извлечение
Новый паттерн проще по идее: отрендерить страницу, собрать видимый текст, попросить модель выдать структурированные поля. Именно так устроены многие no-code AI scraper и некоторые новые кастомные workflows.
Если брать текущие ($0.15/1M input tokens, $0.60/1M output tokens), текстовое извлечение одного профиля обычно стоит $0.0006–$0.0018 за профиль. Для рабочих процессов среднего объема это настолько мало, что практически не имеет значения.
Сравнение лицом к лицу
| Параметр | CSS-селектор / XPath | AI/LLM-извлечение |
|---|---|---|
| Усилия на настройку | Высокие — нужно изучать DOM и писать селекторы под каждое поле | Низкие — достаточно описать желаемый результат на естественном языке |
| Поломка при изменении верстки | Ломается сразу | Адаптируется автоматически (читает семантику) |
| Точность на структурированных полях | ~99% при правильных селекторах | ~95–98% (иногда бывают ошибки интерпретации LLM) |
| Работа с неструктурированными/переменными данными | Слабо без дополнительной логики | Сильно — AI понимает контекст |
| Стоимость на профиль | Почти нулевая (только вычисления) | ~$0.001–$0.002 (стоимость API-токенов) |
| Разметка/категоризация | Нужна отдельная постобработка | Может категоризировать, переводить и размечать за один проход |
| Поддержка | Постоянные правки селекторов | Почти отсутствует |
Что выбрать?
Для очень больших, стабильных конвейеров, которыми управляют инженеры, подход на селекторах все еще может выигрывать по цене. Но для большинства небольших и средних команд, которые скрейпят сотни, а не миллионы профилей, AI-извлечение — лучшая долгосрочная инвестиция, потому что изменения верстки LinkedIn обходятся дороже во времени разработчика, чем токены модели, которые вы экономите.
Когда репозитории GitHub — это избыточно: no-code путь
Большинство людей, ищущих "linkedin scraper github", не хотят становиться мейнтейнерами браузерной автоматизации.
Им нужны строки в таблице.
Пользователи прямо жалуются на удобство GitHub-скрейперов в ветках Issues: «Он не умеет работать с 2FA, и им неудобно пользоваться, потому что нет UI». Среди аудитории — рекрутеры, SDR и операционные менеджеры, а не только Python-разработчики.
Решение: собрать самим или купить
| Фактор | Репозиторий GitHub | No-code инструмент (например, Thunderbit) |
|---|---|---|
| Время на настройку | 30 минут–2+ часа (Python, зависимости, прокси) | Менее 2 минут (установить расширение, нажать кнопку) |
| Поддержка | Вы чините всё сами, когда LinkedIn меняется | Обновления делает поставщик инструмента |
| Антиобнаружение | Вы настраиваете прокси, задержки, сессии | Встроено в инструмент |
| Структурирование данных | Вы пишете логику парсинга | AI автоматически предлагает поля |
| Экспорт | Вы строите пайплайн экспорта | Экспорт в Excel, Google Sheets, Airtable, Notion в один клик |
| Стоимость | Бесплатный репозиторий + расходы на прокси + ваше время | Есть бесплатный тариф; для больших объемов — оплата по кредитам |
Как Thunderbit решает задачу скрейпинга LinkedIn без кода
подходит к проблеме иначе, чем репозитории на GitHub. Вместо написания селекторов или настройки браузерной автоматизации вы:
- Устанавливаете
- Переходите на любую страницу LinkedIn (результаты поиска, профиль, страница компании)
- Нажимаете "AI Suggest Fields" — AI Thunderbit читает страницу и предлагает структурированные колонки (имя, должность, компания, местоположение и т. д.)
- При необходимости корректируете колонки, затем запускаете извлечение
- Экспортируете прямо в Excel, Google Sheets, или Notion
Поскольку Thunderbit каждый раз читает страницу семантически с помощью AI, он не ломается, когда LinkedIn меняет DOM. Это то же преимущество, что и у подхода с GPT в кастомных Python-скриптах, но упакованное в no-code-расширение, а не в кодовую базу, которую вам нужно поддерживать.
Для — перехода в отдельные профили из списка результатов поиска, чтобы обогатить таблицу данных — Thunderbit делает это автоматически. Режим браузера работает со страницами, требующими входа, без отдельной настройки прокси.
Кому все еще стоит использовать репозиторий GitHub?
Репозитории GitHub по-прежнему имеют смысл для:
- Разработчиков, которым нужна глубокая кастомизация или необычные типы данных
- Команд, которые скрейпят очень большие объемы, где важна стоимость на кредит
- Пользователей, которым нужно запускать скрейпинг в CI/CD-пайплайнах или на серверах
- Людей, строящих на данных LinkedIn более крупные автоматизированные workflows
Для всех остальных — особенно для отделов продаж, рекрутинга и ops-команд — убирает весь цикл настройки и поддержки.
Пошагово: как оценить и использовать LinkedIn Scraper с GitHub
Если вы решили, что GitHub — правильный путь, вот поэтапный рабочий процесс, который минимизирует потери времени и риск для аккаунта.
Шаг 1: Найдите и сократите список репозиториев
Ищите на GitHub "linkedin scraper" и фильтруйте по:
- Недавним обновлениям (последние 6 месяцев)
- Языку, совпадающему с вашим стеком (чаще всего Python)
- Области, которая соответствует вашей задаче (профили, вакансии или компании)
Сократите список до 3–5 живых на вид репозиториев.
Шаг 2: Примените таблицу оценки здоровья репозитория
Прогоните каждый репозиторий через таблицу оценки выше. Удаляйте все, где есть:
- Нет коммитов за последний год
- Не решены issues про "blocked" или "CAPTCHA"
- Только вход по паролю
- Нет упоминаний сессий, cookie или прокси
Шаг 3: Настройте окружение
Типичные команды из репозиториев, которые я проверял:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Постоянные точки трения:
- Отсутствующие файлы
session.json - Несовпадение версий драйвера браузера (Chromium/Playwright)
- Извлечение cookie через DevTools браузера
- Тайм-ауты при авторизации через прокси
Шаг 4: Запустите небольшой тестовый скрейпинг
Начните с 10–20 профилей. Проверьте:
- Правильно ли разобраны поля?
- Полные ли данные?
- Не попали ли вы на security checkpoint?
- Удобен ли формат вывода или это просто сырой JSON-шум?
Шаг 5: Масштабируйте осторожно
Добавьте случайные задержки (5–15 секунд между запросами), снизьте параллелизм, повторно используйте сессии и применяйте residential-прокси. Не переходите сразу к сотням профилей в день на новом аккаунте.
Шаг 6: Экспортируйте и структурируйте данные
Большинство репозиториев GitHub выводят сырой JSON или CSV. Вам все равно придется:
- Удалить дубликаты
- Нормализовать должности и названия компаний
- Сопоставить поля с вашей CRM или ATS
- Задокументировать происхождение данных для compliance
(Thunderbit автоматически выполняет структурирование и экспорт, если вы хотите пропустить этот шаг.)
LinkedIn Scraper GitHub против no-code инструментов: полное сравнение
| Параметр | Репозиторий GitHub (CSS-селекторы) | Репозиторий GitHub (AI/LLM) | No-code инструмент (Thunderbit) |
|---|---|---|---|
| Время настройки | 1–2+ часа | 1–3+ часа (+ API key) | Менее 2 минут |
| Технические навыки | Высокие (Python, CLI) | Высокие (Python + LLM APIs) | Не нужны |
| Поддержка | Высокая (селекторы ломаются) | Средняя (LLM адаптируется, но код все равно требует обновлений) | Нет (поддерживает провайдер) |
| Антиобнаружение | Вручную (прокси, задержки) | Вручную | Встроено |
| Точность | Высокая, когда работает | Высокая, но с редкими ошибками LLM | Высокая (на базе AI) |
| Стоимость | Бесплатно + расходы на прокси + ваше время | Бесплатно + расходы на LLM API + расходы на прокси | Бесплатный тариф; для больших объемов — кредиты |
| Экспорт | Вручную (JSON, CSV) | Вручную | Excel, Sheets, Airtable, Notion |
| Лучше всего подходит для | Разработчиков, кастомных пайплайнов | Разработчиков, которым нужна меньшая поддержка | Отделов продаж, рекрутинга, ops |
Юридические и этические соображения
Сделаю этот раздел коротким, но пропускать его нельзя.
LinkedIn (действует с 3 ноября 2025 года) прямо запрещает использовать программное обеспечение, скрипты, роботы, краулеры или браузерные плагины для скрейпинга сервиса. LinkedIn подтвердил это действиями:
- : LinkedIn объявил о судебных действиях против Proxycurl
- : LinkedIn сообщил, что дело было урегулировано
- : Law360 сообщил, что LinkedIn подал иск против дополнительных ответчиков из-за массового скрейпинга
Линия дел hiQ v. LinkedIn создала определенные нюансы вокруг доступа к публичным данным, но чаще поддерживали LinkedIn по теориям нарушения договора. «Публично видно» не значит «однозначно безопасно скрейпить в масштабе для коммерческого повторного использования».
Для workflows, связанных с ЕС, . со стороны французского органа по защите данных — наглядный пример того, как регуляторы рассматривают скрейпнутые данные LinkedIn как персональные данные, подпадающие под правила защиты данных.
Использование поддерживаемого инструмента вроде Thunderbit не снимает с вас юридических обязательств. Но оно снижает риск случайно вызвать реакцию систем безопасности или нарушить rate limits так, что это привлечет внимание LinkedIn.
Что работает, а что нет в 2026 году
Что работает
- Применение таблицы оценки здоровья репозитория перед тем, как связываться с любым проектом
- Повторное использование cookie/сессий вместо многократного автоматического входа
- Residential-прокси, если вам все же нужно скрейпить через аккаунт
- Более маленькие, медленные, похожие на человеческие сценарии скрейпинга
- Извлечение с поддержкой AI, если вам важнее адаптивность, чем предельная экономия токенов
- , когда реальная потребность — это вывод в таблицу, а не владение скрейпером
- Диверсификация подходов вместо ставки на один публичный репозиторий
Что не работает
- Клонирование репозиториев с большим числом звезд без проверки поддержки и свежих issues
- Использование datacenter-прокси или бесплатных списков прокси для LinkedIn
- Масштабирование до сотен профилей в день без rate limits и антиобнаружения
- Долгосрочная ставка на CSS-селекторы без плана поддержки
- Использование своего реального LinkedIn-аккаунта как расходной инфраструктуры
- Путаница между «публично доступно» и «договорно или юридически безболезненно»
FAQ
Работают ли LinkedIn scraper репозитории на GitHub в 2026 году?
Некоторые работают, но только небольшая часть. В этом аудите восьми заметных репозиториев только два выглядели действительно пригодными для читателя в 2026 году без серьезных оговорок. Ключ в том, чтобы оценивать репозитории по активности поддержки и состоянию issues, а не по числу звезд. Используйте таблицу оценки здоровья репозитория, прежде чем тратить время на настройку любого проекта.
Сколько профилей LinkedIn можно скрейпить в день без бана?
Гарантированно безопасного числа нет, потому что LinkedIn оценивает поведение сессии, а не только объем. По отчетам сообщества, менее 50 профилей в день на аккаунт — зона меньшего риска, 50–100 в день — средний риск, где качество инфраструктуры имеет значение, а выше 100 в день — уже все более агрессивно. Случайные задержки 5–15 секунд и residential-прокси помогают, но полностью риск не убирает ничто.
Есть ли no-code альтернатива проектам LinkedIn scraper на GitHub?
Да. позволяет скрейпить страницы LinkedIn в несколько кликов с AI-распознаванием полей, браузерной авторизацией (без отдельной настройки прокси) и экспортом в Excel, Google Sheets, Airtable или Notion в один клик. Он создан для отделов продаж, рекрутинга и ops, которым нужны данные без поддержки кода. Попробовать можно через .
Законно ли скрейпить данные LinkedIn?
Это серая зона, и ее границы становятся все жестче. Пользовательское соглашение LinkedIn прямо запрещает скрейпинг, и LinkedIn в предпринимал юридические действия против скрейперов. Прецедент hiQ v. LinkedIn по доступу к публичным данным был сузжен более поздними решениями. GDPR применяется к персональным данным резидентов ЕС независимо от способа сбора. Для любого коммерческого кейса получите юридическую консультацию, соответствующую вашей ситуации.
AI-извлечение или CSS-селекторы — что лучше использовать для скрейпинга LinkedIn?
CSS-селекторы быстрее и дешевле на запись, когда они работают, но создают бесконечную гонку за поддержкой, потому что LinkedIn регулярно меняет DOM. AI/LLM-извлечение стоит немного дороже на профиль (~$0.001–$0.002 по текущим ), зато автоматически адаптируется к изменениям верстки. Для большинства пользователей вне enterprise, которые скрейпят сотни, а не миллионы профилей, AI-извлечение — лучшая долгосрочная инвестиция. Встроенный AI-движок Thunderbit дает это преимущество без необходимости писать или поддерживать код.
Узнать больше
