LinkedIn 爬蟲 GitHub：2026 年哪些可用（哪些不行）

截至 2026 年 4 月，GitHub 上搜尋「linkedin scraper」大約會出現。但大多數只會浪費你的時間。很毒舌？也許吧。但這是我審核了 8 個最顯眼的 repo、閱讀數十串 GitHub issue 討論，並交叉比對 Reddit 與爬蟲論壇社群回報後得出的結論。模式一再重演：高星 repo 吸引注意力，LinkedIn 的反機器人團隊研究程式碼，偵測機制被修補，最後使用者只剩壞掉的 selector、CAPTCHA 迴圈，或直接帳號被封。某位 Reddit 使用者很直接地描述現況——LinkedIn 已加入「更嚴格的速率限制、更好的機器人偵測、工作階段追蹤，以及頻繁變動」，而舊工具現在不是「很快失效」，就是「帳號／IP 被標記」。如果你是業務、招募或營運管理者，只是想把 LinkedIn 資料放進試算表裡，那你上個月 clone 的 repo 可能早就不能用了。這份指南的目的，是幫你判斷哪些 GitHub 專案真的值得花時間、如何避免把帳號燒掉，以及什麼時候乾脆跳過程式碼最划算。

GitHub 上的 LinkedIn 爬蟲是什麼？

GitHub 上的 LinkedIn 爬蟲專案，通常是開源腳本——多半是 Python，有時候是 Node.js——用來自動化擷取 LinkedIn 頁面上的結構化資料。常見目標包括：

個人檔案：姓名、職稱、公司、地點、技能、經歷
職缺列表：標題、公司、地點、發佈日期、職缺網址
公司頁面：簡介、人數規模、產業、追蹤者數
貼文與互動：內容文字、按讚、留言、分享

在底層，大多數 repo 會採用兩種方法之一。瀏覽器驅動型爬蟲依賴 Selenium、Playwright 或 Puppeteer 來渲染頁面、模擬點擊流程，並透過 CSS selector 或 XPath 擷取資料。另一小部分則嘗試直接呼叫 LinkedIn 內部未公開的 API 端點。還有一波較新的做法——GitHub 上仍不算常見，但正在增加——會把瀏覽器自動化和像 GPT-4o mini 這類 LLM 搭配，直接將頁面文字解析成結構化欄位，而不用脆弱的 selectors。

這裡有個根本性的受眾錯配。這些工具是給熟悉虛擬環境、瀏覽器依賴與 proxy 設定的開發者設計的。但搜尋「linkedin scraper github」的人裡，有很大一部分其實是招募人員、SDR、RevOps 經理和創辦人，他們只想要試算表中的幾列資料。

這個落差，也解釋了 issue 討論串裡大多數的挫折感。

為什麼大家會轉向 GitHub 來做 LinkedIn 爬取

吸引力很明顯。免費、可自訂、沒有供應商綁定、對資料管線有完整控制權。如果 SaaS 工具改了價格或停服，你的程式碼還在。

使用情境	需要的人	常見擷取資料
潛在客戶開發	業務團隊	姓名、職稱、公司、個人檔案網址、Email 線索
人才搜尋	招募人員	個人檔案、技能、經歷、地點
市場研究	營運與策略團隊	公司資料、人數規模、職缺
競爭情報	行銷團隊	貼文、互動、公司動態、招募訊號

但「免費」只是授權標籤，不是營運成本。真正的成本是：

設定時間：即使是友善的 repo，環境設定、瀏覽器依賴、Cookie 擷取與 proxy 設定，通常也要 30 分鐘到 2 小時以上
維護成本：LinkedIn 會定期調整 DOM 與反機器人防禦——今天能用的爬蟲，下週就可能壞掉
Proxy 費用：住宅 proxy 頻寬依供應商與方案不同，大約是
帳號風險：LinkedIn 帳號是你賭上最昂貴的資產，而且不像 proxy IP 那樣能隨便替換

Repo 健康度評分卡：如何評估任何 LinkedIn 爬蟲 GitHub 專案

多數「最佳 LinkedIn 爬蟲」清單都是照星數排行。星星只代表歷史關注度，不代表現在還能用。一個有 3,000 顆星、最後一次 commit 停在 2022 年的 repo，不是生產工具，而是博物館展品。

在你 git clone 之前，先套用這套框架：

評估標準	為什麼重要	警訊
最後一次 commit 日期	LinkedIn 經常變更 DOM	若是瀏覽器驅動型 repo，超過 6 個月沒更新就要小心
未解決／已關閉 issue 比例	維護者回應速度	未解決與已關閉比超過 3:1，尤其最近還有「blocked」或「CAPTCHA」回報
反偵測功能	LinkedIn 封鎖很積極	README 完全沒提 cookies、sessions、節流或 proxies
驗證方式	2FA 和 CAPTCHA 會打斷登入流程	只支援密碼式無頭登入
授權類型	商業使用的法律風險	沒有 license 或條款含糊不清
支援的資料類型	不同用途需要不同 repo	你需要多種資料時，它卻只支援一種

最省時間的一招：在決定用某個 repo 前，先去它的 Issues 分頁搜尋「blocked」、「banned」、「CAPTCHA」或「not working」。如果最近 issue 裡滿是這些字，卻沒有維護者回應，那就直接跳過。那個 repo 其實已經輸了。

2026 年審核實際發現了什麼

我把這套評分卡套用到 GitHub 上 8 個最顯眼的 LinkedIn 爬蟲 repo。結果並不樂觀。

Repo	星數	最後更新	2026 年還能用嗎？	主要範圍	重點備註
joeyism/linkedin_scraper	約 3,983	2026 年 4 月	✅ 但有前提	個人檔案、公司、貼文、職缺	以 Playwright 重寫、可重用 session——但最近 issue 顯示有安全封鎖與職缺搜尋損壞
python-scrapy-playbook/linkedin-python-scrapy-scraper	約 111	2026 年 1 月	✅ 適合教學／公開資料	個人、公司、職缺	整合 ScrapeOps proxy；免費方案每月 1,000 次請求、1 個 thread
spinlud/py-linkedin-jobs-scraper	約 472	2025 年 3 月	⚠️ 只限職缺	職缺	支援 Cookie、實驗性 proxy 模式——如果你只需要公開職缺列表，還算有用
madingess/EasyApplyBot	約 170	2025 年 3 月	⚠️ 用錯工具	Easy Apply 自動化	這不是資料爬蟲——它是自動投遞職缺
linkedtales/scrapedin	約 611	2021 年 5 月	❌	個人檔案	README 還寫著「working in 2020」；issue 顯示 pin 驗證與 HTML 變動問題
austinoboyle/scrape-linkedin-selenium	約 526	2022 年 10 月	❌	個人檔案、公司	曾經有用，但到 2026 年已經太舊
eilonmore/linkedin-private-api	約 291	2022 年 7 月	❌	個人檔案、職缺、公司、貼文	Private API wrapper；未公開端點變動很不穩定
nsandman/linkedin-api	約 154	2019 年 7 月	❌	個人檔案、訊息、搜尋	歷史上有意思；文件記錄在每小時約 900 次請求後會遇到速率限制

在沒有大量提醒前提的情況下，真正能讓 2026 年讀者實際使用的 repo，8 個裡只有 2 個。這在 GitHub 的 LinkedIn 爬取世界裡並不罕見——這就是常態。

防封鎖作戰手冊：Proxy、速率限制與帳號安全

帳號被封是最大營運風險。就算技術上很會寫爬蟲，也常常倒在這一關。程式碼能跑，帳號不能。使用者回報即使有 proxy 和長延遲，還是可能在只抓後就被標記。

速率限制：社群回報了什麼

沒有絕對安全的數字。LinkedIn 評估的是 session 年齡、點擊節奏、爆量模式、IP 信譽與帳號行為，而不只是總量。社群資料大致集中在這些區間：

有人回報使用 proxy 並以每 33 秒一筆的節奏，在 40–80 個個人檔案 後就被偵測
另一位建議控制在 每帳號每天約 30 個個人檔案
更激進的操作者宣稱每天可抓，而且分散在整天執行
記錄到約 每小時 900 次請求 後會出現內部速率限制警告

實務上可這樣總結：每天每帳號少於 50 個個人檔案 屬於較低風險區。每天 50–100 個 是中風險區，session 品質非常重要。超過 每天每帳號 100 個，就屬於越來越激進的操作。

Proxy 策略：住宅型 vs 資料中心型

對 LinkedIn 來說，住宅 proxy 仍是標準做法，因為它看起來比較像一般使用者流量。資料中心 IP 雖然便宜，但在防禦較成熟的網站上更容易被標記——而 LinkedIn 正是那種便宜流量很容易被注意到的網站。

目前的價格概況：

：依方案約 每 GB 3.00–4.00 美元
：依方案約 每 GB 4.00–6.00 美元

請以 session 為單位輪換，不要每個請求都換 IP。逐請求輪換會留下「這是 proxy 基礎設施」的指紋，比任何單一 IP 都更明顯。

小號帳號操作守則

社群在這點上講得很直白：不要把你的主要 LinkedIn 帳號當成可丟棄的爬蟲基礎設施。

如果你堅持使用帳號式爬取：

使用和主要職業身份不同的獨立帳號
把個人資料完整填好，先讓它像真人一樣活動幾天，再開始爬取
絕對不要把你的真實手機號碼連到爬取帳號
爬取 session 要和真正的外聯與訊息互動完全分開

值得注意的是：LinkedIn 的（2025 年 11 月 3 日生效）明確禁止使用虛假身份與帳號共享。小號策略在實務上很常見，但在合約層面相當麻煩。

如何處理 CAPTCHA

CAPTCHA 不只是麻煩，它代表你的 session 已經被特別關注。可行選項包括：

手動完成 CAPTCHA 以繼續 session
重用 cookies，而不是每次都重新登入
使用像這類解題服務（圖片 CAPTCHA 約每 1,000 題 0.50–1.00 美元，reCAPTCHA v2 約每 1,000 題 1.00–2.99 美元）

但如果你的工作流程經常觸發 CAPTCHA，那你真正的問題不是解題服務有多貴，而是你的整個流程已經輸了隱蔽性之戰。

風險光譜

量級	風險等級	建議做法
< 每天 50 個個人檔案	較低	瀏覽器 session 或 cookie 重用、慢速節奏、不做激進自動化
每天 50–500 個個人檔案	中到高	住宅 proxy、暖機過的帳號、session 重用、隨機延遲
每天 500+ 個	非常高	使用商業 API 或內建反偵測的成熟工具；單靠公開 GitHub repo 通常不夠

開源悖論：為什麼熱門 LinkedIn 爬蟲 GitHub repo 壞得更快

使用者提出一個合理的擔心：「把它做成開源，LinkedIn 不就能直接看你怎麼做，然後反制嗎？」這不是多慮，而是結構上正確。

可見度問題

高星數會同時帶來兩個訊號：使用者的信任，以及 LinkedIn 安全團隊的目標。repo 越熱門，LinkedIn 越可能專門針對它的手法下手。

你可以在這次審核資料裡看到這個生命週期。linkedtales/scrapedin 曾經夠有名，能宣稱自己可配合 2020 年的 LinkedIn「新網站」運作。但 repo 沒有跟上後來的驗證與版面變動。nsandman/linkedin-api 曾經記錄過有用的技巧，但最後一次 commit 距離現在的反機器人環境已經好多年。

社群修補優勢

開源還是有一個實際優點：當 LinkedIn 改變防禦時，活躍的維護者與貢獻者能更快修補。joeyism/linkedin_scraper 是這次審核中的主要例子——它仍會冒出 blocked auth 和 broken search 這些問題，但至少還在更新。fork 版本通常比原始 repo 更快實作新的繞過技巧。

你可以怎麼做

不要把單一公開 repo 當成永久基礎設施
留意有沒有活躍 fork 採用了更新的繞過技巧
如果用於正式環境，考慮維護一個私有 fork（避免你的客製調整公開）
預期 LinkedIn 改變偵測方式或 UI 行為時，你也得跟著改方法
採取多元策略，不要把所有賭注壓在單一工具上

AI 擷取 vs. CSS Selector：實務比較

2026 年更值得討論的技術分歧，不是 GitHub 還是無程式碼，而是 基於 selector 的擷取 跟 語意擷取 的差別——而這個差別，比多數總整理文章承認的還重要。

CSS Selector 怎麼運作（以及怎麼壞掉）

傳統爬蟲會檢查 LinkedIn 的 DOM，並把每個欄位對應到 CSS selector 或 XPath 表達式。當頁面結構穩定時，這種方法非常好：精準度高、邊際成本低、解析速度快。

但失敗方式也同樣明顯。LinkedIn 只要改 class 名稱、巢狀結構、lazy-loading 行為，或把內容藏進不同的 auth wall，爬蟲就會立刻壞掉。這次 repo 審核中的 issue 標題已經把故事說完了：「changed HTML」、「broken job search」、「missing values」、「authwall blocks」。

AI／LLM 擷取怎麼運作

較新的模式概念很簡單：渲染頁面、收集可見文字，然後請模型輸出結構化欄位。這就是許多無程式碼 AI 爬蟲，以及部分較新的自訂流程的核心邏輯。

以目前（輸入每 100 萬 token 0.15 美元、輸出每 100 萬 token 0.60 美元）來算，單次純文字擷取一個個人檔案通常只要 每個檔案 0.0006–0.0018 美元。對中量級工作流程來說，這幾乎可以忽略不計。

正面對比

面向	CSS Selector / XPath	AI／LLM 擷取
設定成本	高——要檢查 DOM，針對每個欄位寫 selector	低——用自然語言描述想要的輸出即可
版面變動時的破壞性	立刻失效	自動適應（以語意方式閱讀）
結構化欄位準確率	selector 正確時約 99%	約 95–98%（偶爾會有 LLM 解讀誤差）
處理非結構化／變動資料	若無自訂邏輯則較弱	很強——AI 會理解上下文
每個檔案成本	幾乎為零（只算運算）	約 0.001–0.002 美元（API token 成本）
標記／分類	需要另外做後處理	可一次完成分類、翻譯與標記
維護負擔	持續修 selector	幾乎為零

你該怎麼選？

如果是超高量、結構穩定、由工程團隊擁有的管線，selector 解析在成本上仍可能勝出。對大多數小型與中型用戶來說，抓幾百個而不是幾百萬個個人檔案時，AI 擷取是更好的長期投資，因為 LinkedIn 版面變動造成的開發時間成本，往往比你省下來的模型 token 還高。

什麼情況下 GitHub repo 太大材小用：無程式碼路線

大多數搜尋「linkedin scraper github」的人，其實不是想變成瀏覽器自動化維護者。

他們只是想在表格裡看到幾列資料。

使用者在 issue 串裡也明白抱怨 GitHub 爬蟲的可用性：「它不支援 2FA，而且沒有 UI，很難用。」這些受眾包括招募、SDR 和營運團隊，而不只是 Python 開發者。

自建 vs 購買的決策

因素	GitHub repo	無程式碼工具（例如 Thunderbit）
設定時間	30 分鐘–2 小時以上（Python、依賴、proxy）	2 分鐘內（安裝擴充功能，點一下即可）
維護	LinkedIn 變動時你自己修	由工具供應商負責更新
反偵測	你自己設定 proxy、延遲、session	內建於工具中
資料結構化	你自己寫解析邏輯	AI 自動建議欄位
匯出選項	你自己建匯出管線	一鍵匯出到 Excel、Google Sheets、Airtable、Notion
成本	免費 repo + proxy 成本 + 你的時間	有免費方案；大量使用採點數制

Thunderbit 如何無程式碼處理 LinkedIn 爬取

處理這個問題的方式，和 GitHub repo 不太一樣。你不需要寫 selector，也不需要配置瀏覽器自動化，而是：

安裝
前往任何 LinkedIn 頁面（搜尋結果、個人檔案、公司頁面）
點擊「AI 建議欄位」——Thunderbit 的 AI 會讀取頁面並提議結構化欄位（姓名、職稱、公司、地點等）
視需要調整欄位，然後按一下開始擷取
直接匯出到 Excel、Google Sheets、或 Notion

因為 Thunderbit 每次都用 AI 以語意方式讀頁面，所以 LinkedIn 改 DOM 時它不會壞掉。這和自訂 Python 腳本裡整合 GPT 的方法一樣有優勢，只是被包裝在無程式碼擴充功能裡，而不是你要自己維護的程式碼庫。

如果你要做 ——例如從搜尋結果列表點進單一個人檔案，來補強你的資料表——Thunderbit 會自動處理。瀏覽器模式也能對需要登入的頁面運作，不需要另外設定 proxy。

什麼人還是該用 GitHub repo？

GitHub repo 仍然適合：

需要深度客製化或特殊資料類型的開發者
每天抓取量非常高、每筆點數成本很在意的團隊
需要把爬取流程跑在 CI/CD 管線或伺服器上的使用者
要把 LinkedIn 資料整合進更大型自動化流程的人

對其他人——尤其是業務、招募與營運團隊—— 可以直接省掉整套設定與維護循環。

步驟教學：如何評估並使用 GitHub 上的 LinkedIn 爬蟲

如果你已決定 GitHub 才是對的路，下面是一個分階段流程，可以把浪費時間與帳號風險降到最低。

第 1 步：搜尋並縮小 repo 範圍

在 GitHub 搜尋「linkedin scraper」，然後依以下條件篩選：

最近有更新（過去 6 個月內）
語言符合你的技術棧（Python 最常見）
範圍符合你的實際需求（個人檔案 vs. 職缺 vs. 公司）

先挑出 3–5 個看起來還活著的 repo。

第 2 步：套用 Repo 健康度評分卡

把每個 repo 都跑一遍前面的評分卡。凡是有以下情況的，一律淘汰：

過去一年沒有 commit
有未解決的「blocked」或「CAPTCHA」issue
只支援密碼驗證
完全沒提到 sessions、cookies 或 proxies

第 3 步：設定你的環境

這次審核中常見的安裝指令包括：

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

反覆出現的卡點：

缺少 session.json 檔案
瀏覽器 driver 版本不相容（Chromium／Playwright）
從瀏覽器 DevTools 擷取 Cookie
Proxy 驗證逾時

第 4 步：先跑小規模測試爬取

先從 10–20 個個人檔案開始。檢查：

欄位是否正確解析？
資料是否完整？
有沒有碰到任何安全檢查？
輸出格式是好用的，還是只有一堆原始 JSON 噪音？

第 5 步：小心擴量

加入隨機延遲（每次請求間 5–15 秒）、降低併發、重用 session，以及使用住宅 proxy。不要在新帳號上一下子就衝到每天幾百個個人檔案。

第 6 步：匯出並整理資料

大多數 GitHub repo 會輸出原始 JSON 或 CSV。你仍然需要：

去重資料
標準化職稱與公司名稱
把欄位對應進你的 CRM 或 ATS
為合規性記錄資料來源

（如果你想跳過這一步，Thunderbit 會自動處理結構化與匯出。）

LinkedIn 爬蟲 GitHub vs. 無程式碼工具：完整比較

面向	GitHub Repo（CSS Selector）	GitHub Repo（AI／LLM）	無程式碼工具（Thunderbit）
設定時間	1–2 小時以上	1–3 小時以上（+ API key）	2 分鐘內
技術門檻	高（Python、CLI）	高（Python + LLM API）	無
維護	高（selector 會壞）	中（LLM 會適應，但程式仍需更新）	無（由供應商維護）
反偵測	自行處理（proxies、延遲）	自行處理	內建
準確度	運作時很高	很高，但偶有 LLM 錯誤	很高（AI 驅動）
成本	免費 + proxy 成本 + 你的時間	免費 + LLM API 成本 + proxy 成本	免費方案；大量使用採點數制
匯出	自己做（JSON、CSV）	自己做	Excel、Sheets、Airtable、Notion
最適合	開發者、自訂管線	想降低維護成本的開發者	業務、招募、營運團隊

法律與倫理考量

這段我會寫短一點，但不能略過。

LinkedIn 的（2025 年 11 月 3 日生效）明確禁止使用軟體、腳本、機器人、爬蟲或瀏覽器外掛來抓取服務內容。LinkedIn 也有實際執法：

：LinkedIn 宣布對 Proxycurl 採取法律行動
：LinkedIn 表示該案已解決
：Law360 報導 LinkedIn 因大規模資料抓取而起訴其他被告

hiQ v. LinkedIn 這類案件，曾在公開資料存取上建立一些細微差異，但在違約主張上更偏向 LinkedIn。"公開可見" 不等於 "可以放心大規模爬取並用於商業再利用"。

如果是涉及歐盟的工作流程，。法國資料主管機關對就是一個具體例子，顯示監管機關把被抓取的 LinkedIn 資料視為受資料保護法規約束的個人資料。

使用像 Thunderbit 這樣的維護型工具，不會改變你的法律義務。但它確實能降低你不小心觸發安全回應，或違反速率限制而引起 LinkedIn 注意的風險。

2026 年哪些可行、哪些不可行

可行的做法

在決定採用任何 repo 前，先跑 Repo 健康度評分卡
使用 Cookie／session 重用，而不是反覆自動登入
必要時使用住宅 proxy 來執行帳號式爬取
採用更小、更慢、更像真人的爬取流程
當你重視適應性勝過少量 token 成本時，使用 AI 輔助擷取
當真正需求是輸出到試算表，而不是擁有爬蟲本身時，採用
多元化策略，不要把賭注壓在單一公開 repo 上

不可行的做法

不看維護狀態或最近 issue，就直接 clone 高星 repo
為 LinkedIn 使用資料中心 proxy 或免費 proxy 清單
在沒有速率限制或反偵測機制下，把量直接拉到每天幾百個個人檔案
長期依賴 CSS selector，卻沒有維護計畫
把你真實的 LinkedIn 帳號當成可丟棄的基礎設施
把「公開可存取」和「在合約或法律上沒問題」混為一談

LinkedIn 爬蟲 GitHub：2026 年哪些可用（哪些不行）

試試 Thunderbit