LinkedInスクレイパー GitHub:2026年に使えるもの、使えないもの

最終更新日 April 22, 2026

2026年4月時点で、GitHubで「linkedin scraper」を検索すると、およそが見つかります。その大半は、時間の無駄になるでしょう。 きつい言い方でしょうか。たぶんそうです。ただ、私が目立つリポジトリ8件を監査し、何十本ものGitHub issueスレッドを読み、Redditやスクレイピング系フォーラムのコミュニティ報告を突き合わせた結果は、まさにそうでした。パターンは毎回同じです。スター数の多いリポジトリは注目を集め、LinkedInの対ボット担当チームがコードを分析し、検知対策は修正され、ユーザーは壊れたセレクター、CAPTCHAループ、あるいはアカウント停止に行き着きます。あるRedditユーザーは現状を率直にこう表現していました。LinkedInは「より厳しいレート制限、より優れたボット検知、セッショントラッキング、頻繁な変更」を導入しており、古いツールは今や「すぐ壊れるか、アカウントやIPがフラグされる」とのことです。営業担当、採用担当、あるいはオペレーション担当として、スプレッドシートでLinkedInデータを扱いたいなら、先月クローンしたそのリポジトリは、もう使い物にならないかもしれません。このガイドは、どのGitHubプロジェクトが本当に時間をかける価値があるのか、どうすればアカウントを焼かれずに済むのか、そして、そもそもコードを使わないほうが合理的なのはいつか、を見極めるためのものです。

GitHubのLinkedInスクレイパーとは?

GitHub上のLinkedInスクレイパープロジェクトは、LinkedInページから構造化データを抽出する処理を自動化するオープンソースのスクリプトです。通常はPython、場合によってはNode.jsで書かれています。典型的な対象は次のとおりです。

  • 人物プロフィール:氏名、肩書き、会社、所在地、スキル、職歴
  • 求人情報:職種名、企業名、勤務地、掲載日、求人URL
  • 企業ページ:概要、従業員数、業界、フォロワー数
  • 投稿とエンゲージメント:本文、いいね、コメント、シェア

内部では、多くのリポジトリが2つのどちらかの方式を採用しています。ブラウザ駆動型のスクレイパーは、SeleniumPlaywrightPuppeteerを使ってページを描画し、画面遷移をクリックで進め、CSSセレクターやXPathでデータを抽出します。もう少し少数派ですが、LinkedInの内部API(非公開)エンドポイントを直接叩こうとするものもあります。さらに新しい流れとして、GitHubではまだ少数ですが増えつつあるのが、ブラウザ自動化にGPT-4o miniのようなLLMを組み合わせ、壊れやすいセレクターに頼らずページテキストを構造化フィールドへ変換する手法です。

ただし、ここには根本的な利用者のズレがあります。こうしたツールは、仮想環境、ブラウザ依存関係、プロキシ設定に慣れた開発者向けに作られています。一方で、「linkedin scraper github」と検索する人の多くは、採用担当者、SDR、RevOpsマネージャー、創業者などで、欲しいのはただスプレッドシートの行だけです。

このギャップが、issueスレッドで見られる大半の不満の理由です。

なぜLinkedInスクレイピングにGitHubを使うのか

魅力は明白です。無料。カスタマイズ可能。ベンダーロックインなし。データパイプラインを完全に自分で管理できる。SaaSツールの価格が変わったり、サービス終了したりしても、コードは残ります。

ユースケース必要とする人一般的に抽出するデータ
リード獲得営業チーム氏名、肩書き、企業名、プロフィールURL、メールの手がかり
候補者探索採用担当プロフィール、スキル、職歴、所在地
市場調査オペレーション/戦略チーム企業データ、従業員数、求人情報
競合インテリジェンスマーケティングチーム投稿、エンゲージメント、企業更新情報、採用動向

ただし、「無料」はライセンス上のラベルであって、運用コストではありません。実際のコストは次のとおりです。

  • セットアップ時間:扱いやすいリポジトリでも、環境構築、ブラウザ依存関係、Cookie抽出、プロキシ設定に30分〜2時間以上かかることがある
  • 保守:LinkedInはDOMや対ボット対策を頻繁に変えるため、今日動くスクレイパーが来週には壊れることがある
  • プロキシ:住宅用プロキシの帯域は、プロバイダとプランによってほどかかる
  • アカウントリスク:一番高くつくのはLinkedInアカウントで、プロキシIPのように代替できるものではない

リポジトリ健全性スコアカード:あらゆるLinkedInスクレイパー GitHubプロジェクトをどう評価するか

「おすすめLinkedInスクレイパー」系の記事の多くは、スター数でリポジトリを並べています。しかしスター数は、過去の関心を示すだけで、現在の動作状況を示すものではありません。3,000スターあっても2022年以降コミットがないリポジトリは、実用ツールではなく博物館の展示品です。

git cloneする前に、次のフレームワークを使ってください。

評価基準重要な理由赤信号
最終コミット日LinkedInはDOMを頻繁に変更するブラウザ駆動型で6か月以上前
open/closed issue比率メンテナの対応速度openがclosedの3倍超、特に最近の「blocked」や「CAPTCHA」報告が多い
対検知機能LinkedInは容赦なくBANするREADMEにCookie、セッション、速度調整、プロキシの記載がない
認証方式2FAとCAPTCHAでログインフローが壊れるパスワードだけのヘッドレスログインしか対応していない
ライセンス種別商用利用時の法的リスクライセンスなし、または条件が曖昧
対応データ型用途によって必要なリポジトリは異なる必要なのに1種類のデータしか扱えない

一番時間を節約できるコツは、どのリポジトリでも使う前にIssueタブで「blocked」「banned」「CAPTCHA」「not working」を検索することです。最近のissueがそうした語句だらけで、メンテナの返答がないなら、次へ進んでください。そのリポジトリは、もう負けています。

2026年の監査で実際に分かったこと

linkedin_scraper_repo_audit_v2_17d346a6d6.png

GitHub上で目立つLinkedInスクレイパーリポジトリ8件に、このスコアカードを適用しました。結果は、あまり明るいものではありませんでした。

リポジトリスター数最終コミット2026年も動く?主な対象主なメモ
joeyism/linkedin_scraper約3,9832026年4月✅ 条件付きで可プロフィール、企業、投稿、求人Playwrightベースへ再実装、セッション再利用あり。ただし最近のissueではセキュリティブロックや求人検索の破損が見られる
python-scrapy-playbook/linkedin-python-scrapy-scraper約1112026年1月✅ チュートリアル/公開データ向け人物、企業、求人ScrapeOpsプロキシ統合。無料プランは1スレッドで月1,000リクエストまで可
spinlud/py-linkedin-jobs-scraper約4722025年3月⚠️ 求人のみ求人Cookie対応、実験的なプロキシモードあり。公開求人情報だけ欲しいなら有用
madingess/EasyApplyBot約1702025年3月⚠️ 用途違いEasy Apply自動化データスクレイパーではない。求人応募を自動化するツール
linkedtales/scrapedin約6112021年5月プロフィールREADMEには今でも「2020年に動作」とある。issueではPIN認証やHTML変更の問題が見られる
austinoboyle/scrape-linkedin-selenium約5262022年10月プロフィール、企業以前は有用だったが、2026年には古すぎる
eilonmore/linkedin-private-api約2912022年7月プロフィール、求人、企業、投稿非公開APIラッパー。非公開エンドポイントは予測不能に変わる
nsandman/linkedin-api約1542019年7月プロフィール、メッセージ、検索歴史的には興味深いが、約900リクエスト/時のレート制限警告が文書化されている

2026年の読者にとって、重い注意書きなしで実用的に使えそうだったのは、8件中わずか2件でした。これは特別な例外ではなく、GitHub上のLinkedInスクレイピングではむしろ普通です。

BAN防止の実践策:プロキシ、レート制限、アカウント保護

アカウント停止は、運用上の最大リスクです。技術的には優秀なスクレイパーでも、ここで失敗します。コードは動いても、アカウントが持ちません。ユーザー報告では、プロキシと長い待機を入れていても、でフラグが立った例があります。

レート制限:コミュニティ報告はどうなっているか

linkedin_scraper_risk_spectrum_v2_a602c90b7d.png

完全に安全な件数は存在しません。LinkedInは生の件数だけでなく、セッションの経過時間、クリックのタイミング、バーストのパターン、IPの信用度、アカウントの挙動を評価します。コミュニティデータは、おおむね次の帯に集まっています。

  • あるユーザーは、プロキシと33秒間隔でも40〜80件のプロフィールで検知されたと報告
  • 別のユーザーは、1アカウント1日30件前後に抑えるべきと助言
  • より攻めた運用者は、を1日を通して分散させたと主張
  • では、約1時間に900リクエストで内部レート制限警告が出ることが文書化されている

実務的な結論としては、1アカウントあたり1日50件未満のプロフィール閲覧が低リスク帯です。1日50〜100件は中リスクで、セッションの質がかなり重要になります。1日100件超/アカウントは、かなり攻めた領域です。

プロキシ戦略:住宅用 vs データセンター

LinkedInでは、通常のユーザー通信に見えやすい住宅用プロキシが標準です。データセンターIPは安いものの、高度なサイトでは検知されやすく、LinkedInはまさにそうした「安いトラフィックが見つかりやすい」サイトです。

現在の価格感は次のとおりです。

  • :プランによって**$3.00〜$4.00/GB**
  • :プランによって**$4.00〜$6.00/GB**

回転はリクエスト単位ではなく、セッション単位で行ってください。リクエストごとに切り替えると、単一IPよりも「プロキシ基盤です」と強く示す指紋になります。

捨てアカウントの運用ルール

この点については、コミュニティの助言はかなりはっきりしています。メインのLinkedInアカウントを、使い捨てのスクレイピング基盤として扱わないでください。

アカウントを使ったスクレイピングをどうしてもやるなら、次を守ってください。

  • 本業のプロフィールとは別アカウントを使う
  • プロフィールをきちんと埋め、数日間は人間らしく振る舞わせてからスクレイピングを始める
  • スクレイピング用アカウントに本物の電話番号を紐づけない
  • スクレイピングセッションを、実際の営業活動やメッセージ送信と完全に分離する

なお、LinkedInの(2025年11月3日施行)では、虚偽の身元やアカウント共有が明確に禁止されています。捨てアカウント戦略は運用上は一般的ですが、契約上はかなりグレーです。

CAPTCHAへの対処

CAPTCHAは単なる邪魔ではありません。あなたのセッションが、すでに監視対象になっているというサインです。対処法には次のようなものがあります。

  • 手動で解いてセッションを続ける
  • ログインフローを毎回やり直すのではなく、Cookieを再利用する
  • のような解決サービスを使う(画像CAPTCHAは1,000件あたり約$0.50〜$1.00、reCAPTCHA v2は1,000件あたり約$1.00〜$2.99)

ただし、ワークフローが頻繁にCAPTCHAを踏むなら、解決サービスのコストは最優先ではありません。あなたのスタックは、秘匿性の戦いに負けています。

リスクの帯域

件数リスクレベル推奨アプローチ
< 50件/日ブラウザセッションまたはCookie再利用、低速ペース、強引な自動化はしない
50〜500件/日中〜高住宅用プロキシ、温まったアカウント、セッション再利用、ランダム遅延
500件超/日非常に高い商用API、または対検知機能を内蔵した保守済みツール。公開GitHubリポジトリだけでは通常足りない

オープンソースの逆説:人気のLinkedInスクレイパー GitHubリポジトリほど壊れやすい理由

ユーザーの懸念はもっともです。「オープンソース版を公開したら、LinkedInは何をしているか見て対策できるのでは?」というものです。その心配は被害妄想ではありません。構造上、正しい懸念です。

見つかりやすさの問題

スター数が多いと、ユーザーからの信頼と、LinkedInのセキュリティチームの標的化、2つのシグナルが同時に立ちます。リポジトリが有名になるほど、LinkedInがその手法を個別に潰す可能性が高まります。

このライフサイクルは監査データにも表れています。linkedtales/scrapedin は、2020年当時のLinkedInの「新しいウェブサイト」で動くと宣伝できるほど、十分に注目されていました。しかし、その後の認証やレイアウト変更に追随できませんでした。nsandman/linkedin-api も、かつては有用なテクニックを示していましたが、最終コミットは現在の対ボット環境よりずっと前です。

コミュニティパッチの強み

オープンソースの本当の利点は1つあります。LinkedInが対策を変えたとき、活発なメンテナやコントリビューターがすばやく修正できることです。今回の監査では joeyism/linkedin_scraper がその代表例でした。依然として認証ブロックや検索破損のissueは出ていますが、少なくとも更新は続いています。フォーク版は、元リポジトリより新しい回避手法を早く実装することがよくあります。

どう対処するか

  • 公開リポジトリ1本に、恒久的な基盤として頼らない
  • 更新された回避手法を実装する活発なフォークを追う
  • 本番用途では、非公開のフォークを保守することを検討する(固有の調整を公開しないため)
  • LinkedInが検知やUIの挙動を変えたら、手法も変わると考える
  • 1つのツールに全賭けせず、複数の方法を持つ

AIによる抽出 vs CSSセレクター:実務的な比較

linkedin_scraper_selectors_vs_ai_v2_2d42fbf5c4.png

2026年における、より興味深い技術的な分岐は、GitHubかノーコードかではありません。セレクタベース抽出意味理解ベース抽出か、です。この差は、多くの比較記事が認める以上に重要です。

CSSセレクターの仕組みと壊れ方

従来型のスクレイパーは、LinkedInのDOMを解析し、各フィールドをCSSセレクターまたはXPath式に対応付けます。ページ構造が安定しているなら、この方法は非常に優秀です。精度が高く、限界コストが低く、解析も速い。

失敗のしかたも明快です。LinkedInがクラス名、ネスト、遅延読み込みの挙動を変えたり、異なる認証壁の向こうにコンテンツを置いたりすると、スクレイパーは即座に壊れます。監査で見たissueタイトルがそれを物語っています。「HTMLが変わった」「求人検索が壊れた」「値が欠ける」「authwallでブロックされる」。

AI/LLM抽出の仕組み

新しい手法は、概念としてはシンプルです。ページをレンダリングし、表示テキストを集め、モデルに構造化フィールドを出力させる。多くのノーコードAIスクレイパーや、新しいカスタムワークフローの基盤はこれです。

現在の(入力100万トークンあたり$0.15、出力100万トークンあたり$0.60)を使うと、1プロフィールのテキスト抽出は通常1件あたり約$0.0006〜$0.0018です。中規模のワークフローなら、ほぼ誤差レベルです。

直接比較

観点CSSセレクター / XPathAI/LLM抽出
セットアップ工数高い — DOMを調べ、フィールドごとにセレクターを書く低い — 欲しい出力を自然言語で説明するだけ
レイアウト変更時の壊れやすさすぐ壊れる自動で適応する(意味を読める)
構造化フィールドの精度セレクターが正しければ約99%約95〜98%(たまにLLMの解釈ミスあり)
非構造/可変データへの対応独自ロジックなしでは弱い強い — AIが文脈を解釈する
1プロフィールあたりのコストほぼゼロ(計算コストのみ)約$0.001〜$0.002(APIトークン費用)
ラベル付け/分類別の後処理が必要1回で分類・翻訳・ラベル付けが可能
保守負担継続的にセレクター修正が必要ほぼゼロ

どちらを選ぶべきか?

非常に大量で、安定していて、エンジニアが管理するパイプラインなら、コスト面ではセレクタベースがまだ勝つことがあります。ですが、数百件規模(数百万件ではない)のプロフィールを扱う中小規模ユーザーの多くにとっては、AI抽出のほうが長期的な投資として優れています。LinkedInのレイアウト変更で失う開発者工数のほうが、モデルのトークン代より高くつくからです。

GitHubリポジトリが過剰なとき:ノーコードという選択肢

「linkedin scraper github」と検索する人の多くは、ブラウザ自動化の保守担当になりたいわけではありません。

欲しいのは、表の行です。

issueスレッドでは、GitHub系スクレイパーの使い勝手に対する不満がはっきり出ています。「2FAに対応していないし、UIがないので使いやすくない」。利用者には採用担当、SDR、オペレーション担当が含まれており、Python開発者だけではありません。

作るか、買うか

観点GitHubリポジトリノーコードツール(例:Thunderbit)
セットアップ時間30分〜2時間超(Python、依存関係、プロキシ)2分未満(拡張機能を入れてクリック)
保守LinkedInが変わるたび自分で直すツール提供側が更新を担当
対検知プロキシ、遅延、セッションを自分で設定ツールに内蔵
データ構造化解析ロジックを自分で書くAIが自動で項目を提案
出力先自分でエクスポート経路を作るExcel、Google Sheets、Airtable、Notionへワンクリック
コスト無料リポジトリ + プロキシ代 + あなたの時間無料枠あり。大量利用はクレジット制

ThunderbitがコードなしでLinkedInスクレイピングを処理する方法

は、GitHubリポジトリとは別のやり方でこの問題に向き合います。セレクターを書いたり、ブラウザ自動化を設定したりする代わりに、次のように使います。

  1. をインストールする
  2. 任意のLinkedInページ(検索結果、プロフィール、企業ページ)へ移動する
  3. 「AIで項目を提案」をクリックする — ThunderbitのAIがページを読み取り、構造化された列(氏名、肩書き、会社、所在地など)を提案する
  4. 必要に応じて列を調整し、抽出を実行する
  5. Excel、Google Sheets、、またはNotionへ直接エクスポートする

Thunderbitは毎回AIでページを意味的に読むため、LinkedInがDOMを変えても壊れません。これは、カスタムPythonスクリプトにGPTを組み込む場合の利点と同じですが、コードベースを自分で保守するのではなく、ノーコード拡張機能として使える点が違います。

— 検索結果一覧から個々のプロフィールを開いて、データ表を充実させる作業 — も、Thunderbitなら自動で処理できます。ログイン必須ページでも、別途プロキシ設定なしでブラウザモードが使えます。

それでもGitHubリポジトリを使うべき人は?

GitHubリポジトリが向いているのは、次のような人です。

  • 深いカスタマイズや特殊なデータ型が必要な開発者
  • 非常に大量にスクレイピングするため、1クレジットあたりのコストが重要なチーム
  • CI/CDパイプラインやサーバー上でスクレイピングを実行する必要がある人
  • LinkedInデータをより大きな自動化ワークフローに組み込む人

それ以外、とくに営業、採用、オペレーションの各チームには、が、セットアップと保守の両方をまるごと不要にします。

ステップごと:GitHubのLinkedInスクレイパーを評価し、使う方法

GitHubが正しい選択だと判断したなら、時間の無駄とアカウントリスクを最小化するために、次の段階的なワークフローを使ってください。

STEP 1: リポジトリを検索して候補を絞る

GitHubで「linkedin scraper」を検索し、次で絞り込みます。

  • 最近更新されている(過去6か月以内)
  • 自分のスタックに合う言語(最も一般的なのはPython)
  • 実際の用途に合う範囲(プロフィール、求人、企業のどれか)

動いていそうなものを3〜5件に絞ります。

STEP 2: リポジトリ健全性スコアカードを適用する

先ほどのスコアカードで各リポジトリを評価します。次のいずれかがあれば除外してください。

  • 過去1年にコミットがない
  • 未解決の「blocked」や「CAPTCHA」issueがある
  • パスワード認証しかない
  • セッション、Cookie、プロキシの記載がない

STEP 3: 環境をセットアップする

今回の監査で見られた一般的なセットアップコマンドは次のとおりです。

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

よくあるつまずきは次のとおりです。

  • session.json ファイルがない
  • ブラウザドライバのバージョン不一致(Chromium / Playwright)
  • ブラウザのDevToolsからのCookie抽出
  • プロキシ認証のタイムアウト

STEP 4: 小規模なテストスクレイプを実行する

まずは10〜20件のプロフィールから始めます。次を確認してください。

  • フィールドは正しく解析されているか
  • データは十分か
  • セキュリティチェックに引っかかったか
  • 出力形式は使いやすいか、それとも生のJSONが雑然と出ているだけか

STEP 5: 慎重にスケールする

ランダム遅延(リクエスト間で5〜15秒)、同時実行数の抑制、セッション再利用、住宅用プロキシを追加します。新しいアカウントで、いきなり1日何百件も回さないでください。

STEP 6: データをエクスポートし、構造化する

多くのGitHubリポジトリは、生のJSONまたはCSVを出力します。結局、次の作業が必要になります。

  • レコードの重複排除
  • 肩書きと企業名の正規化
  • CRMやATSへの項目マッピング
  • コンプライアンス向けのデータ出典の記録

(この手順を飛ばしたいなら、Thunderbitが構造化とエクスポートを自動で処理します。)

LinkedInスクレイパー GitHub vs ノーコードツール:完全比較

観点GitHubリポジトリ(CSSセレクター)GitHubリポジトリ(AI/LLM)ノーコードツール(Thunderbit)
セットアップ時間1〜2時間超1〜3時間超(+ APIキー)2分未満
技術スキル高い(Python、CLI)高い(Python + LLM API)不要
保守高い(セレクターが壊れる)中程度(LLMは適応するが、コード更新は必要)なし(提供側が保守)
対検知自前(プロキシ、遅延)自前内蔵
精度動いていれば高い高いが、たまにLLMの誤りあり高い(AI駆動)
コスト無料 + プロキシ代 + あなたの時間無料 + LLM API代 + プロキシ代無料枠あり。大量利用はクレジット制
出力自前(JSON、CSV)自前Excel、Sheets、Airtable、Notion
最適な人開発者、カスタムパイプライン保守を減らしたい開発者営業、採用、オペレーションチーム

法的・倫理的な考慮事項

短くしますが、ここは飛ばせません。

LinkedInの(2025年11月3日施行)では、ソフトウェア、スクリプト、ロボット、クローラー、ブラウザプラグインを使ってサービスをスクレイピングすることが明確に禁止されています。LinkedInはこれを執行でも裏付けています。

  • :LinkedInがProxycurlに対して法的措置を発表
  • :その件は解決したと発表
  • :Law360が、LinkedInが大規模データスクレイピングをめぐり追加被告を提訴したと報道

hiQ対LinkedInの一連の裁判は公開データアクセスに関する一定のニュアンスを生みましたが、では、契約違反の理論に基づきLinkedInが有利でした。「公開されている」ことは、「商用再利用のために大規模スクレイピングしても明らかに安全」という意味ではありません。

EU関連のワークフローでは、。フランスのデータ保護当局によるは、スクレイピングされたLinkedInデータを、データ保護ルールの対象となる個人データとして規制当局が扱った具体例です。

Thunderbitのような保守済みツールを使っても、法的義務が消えるわけではありません。ただし、セキュリティ反応をうっかり引き起こしたり、レート制限に触れてLinkedInの注意を引いたりするリスクは下がります。

2026年に何が機能し、何が機能しないか

機能するもの

  • どのリポジトリでも、まずリポジトリ健全性スコアカードを適用する
  • 自動ログインを繰り返すより、Cookie/セッションを再利用する
  • アカウントベースのスクレイピングが必要なときは住宅用プロキシを使う
  • 小さく、遅く、人間らしいスクレイピングワークフローにする
  • 柔軟性をトークン単価より重視するなら、AI支援抽出を使う
  • 実際に欲しいのがスクレイパーの所有ではなくスプレッドシート出力なら、を使う
  • 1つの公開リポジトリに賭けず、複数の方法を持つ

機能しないもの

  • メンテナンス状況や最近のissueを確認せずに、スター数の多いリポジトリをクローンする
  • LinkedInにデータセンタープロキシや無料プロキシリストを使う
  • レート制限や対検知対策なしで、1日何百件にもスケールする
  • 保守計画なしでCSSセレクターに長期依存する
  • 本物のLinkedInアカウントを使い捨て基盤として扱う
  • 「公開アクセス可能」と「契約上または法的に問題ない」を混同する

FAQ

LinkedInスクレイパーのGitHubリポジトリは2026年でもまだ動きますか?

動くものもありますが、ごく一部です。目立つ8件のリポジトリを監査したところ、2026年の読者にとって重い注意書きなしで実用的に使えそうだったのは2件だけでした。重要なのは、スター数ではなく、保守活動とissueの健全性で評価することです。どのプロジェクトでも、セットアップ時間をかける前にリポジトリ健全性スコアカードを使ってください。

BANされずに1日何件のLinkedInプロフィールをスクレイピングできますか?

LinkedInは単なる件数ではなくセッション挙動を評価するため、絶対に安全な件数はありません。コミュニティ報告では、1アカウント1日50件未満が低リスク帯、50〜100件/日はインフラ品質が重要な中リスク帯、100件超/日はより攻めた領域とされています。5〜15秒のランダム遅延と住宅用プロキシは助けになりますが、リスクを完全には消せません。

LinkedInスクレイパー GitHubプロジェクトのノーコード代替はありますか?

あります。なら、AIによるフィールド検出、ブラウザベースの認証(プロキシ設定不要)、Excel、Google Sheets、Airtable、Notionへのワンクリック出力で、数クリックでLinkedInページをスクレイピングできます。コードを保守せずにデータを欲しい営業、採用、オペレーションチーム向けに作られています。から試せます。

LinkedInデータのスクレイピングは合法ですか?

グレーゾーンですが、年々輪郭は厳しくなっています。LinkedInの利用規約はスクレイピングを明確に禁止しており、LinkedInはにスクレイパーに対して法的措置を取りました。公開データアクセスに関するhiQ対LinkedInの先例も、最近の判断で狭められています。GDPRは、収集方法にかかわらずEU居住者の個人データに適用されます。商用利用なら、必ず自分の状況に即した法的助言を得てください。

AI抽出とCSSセレクター、LinkedInスクレイピングではどちらを使うべきですか?

CSSセレクターは、動いている間はレコードあたり速くて安いですが、LinkedInがDOMを頻繁に変えるため、保守の終わりなき作業を生みます。AI/LLM抽出は、1プロフィールあたりのコストが少し高く(現在ので約$0.001〜$0.002)、レイアウト変更に自動で適応します。数百万件ではなく数百件のプロフィールを扱う多くの非エンタープライズユーザーにとっては、AI抽出のほうが長期的な投資として優れています。Thunderbitの内蔵AIエンジンなら、コードを書いたり保守したりする必要なく、この利点を得られます。

詳しく見る

Ke
Ke
Thunderbit の CTO。Ke は、データがぐちゃぐちゃになったときにみんなが真っ先に相談する相手です。彼はこれまでのキャリアを通じて、面倒で繰り返しの多い作業を、何もしなくても動き続ける小さな自動化へと変えてきました。スプレッドシートが自動で埋まってくれたらいいのにと思ったことがあるなら、Ke はたぶん、もうそれを実現するものを作っています。
目次

Thunderbitを試す

リードやその他のデータをたった2クリックで抽出。AI搭載。

Thunderbitを入手 無料です
AIでデータを抽出
Google Sheets、Airtable、Notionへ簡単にデータを移行
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week