GitHub 上大多数 TikTok 爬虫都已经失效——该怎么办

最后更新于 April 22, 2026

在 GitHub 上搜索“tiktok scraper”会返回 。其中大约 已经超过一年没有更新,至少还有

如果你曾经克隆过一个热门的 TikTok 爬虫仓库,花一小时折腾依赖,最后却什么都没抓到——你并不孤单。GitHub 上 star 最高的 TikTok 爬虫 drawrowfly/tiktok-scraper 现在仍然有 5,000 多颗星,但它的问题区里充满了像 这样的帖子——两者都反馈没有任何输出。我在 Thunderbit 已经持续跟踪 TikTok 爬虫仓库的状态好几个月了,规律非常明显:这些工具坏得很快,而且大多数最终都没人修。这篇文章就是我当初开始评估这些仓库时,希望能有的一份实用生存指南。我们会讲清楚哪些还活着、哪些已经死了、还能怎么做,以及如何避免把时间浪费在那些在你找到它之前就已经失效的代码上。

为什么 GitHub 上大多数 TikTok 爬虫都会坏掉(而且一直坏下去)

TikTok 不是一个典型的抓取目标。它的网页端变化很快。和静态的电商商品页或目录列表不同,TikTok 会轮换接口、更新反爬指纹识别、改变页面渲染方式,并引入新的会话/令牌要求——有时甚至在上一次改动后的几周内就再次变化。

开源维护者都是志愿者。当 TikTok 推送更新把爬虫的请求路径打坏时,仓库可能会坏上几天、几周,甚至永久失效。这不是在否定维护者,而是一个结构性问题:一个快速变化、资金充足的平台,对上的是有本职工作的、没有报酬的开发者。

就算是最好的 TikTok 爬虫仓库,也是在“修复—再坏—再修复”的循环里打转。如果你要用其中一个,就必须有一套评估、排障和备用方案。

TikTok 的反爬防线:你真正要面对什么

  • 限流。 TikTok 的 明确说明了请求配额,即使是获批集成也有上限。非官方爬虫会更快撞上这些限制。
  • Cookie 和会话门槛。 这样的现代仓库需要 ms_token;像 这样的老仓库在示例里还会出现 tt_webid_v2 则记录了 msTokenttwidX-BogusA_Bogus。TikTok 会检查你的请求,看起来是否像来自真实浏览会话。
  • 浏览器指纹识别。 解释了为什么网站会把请求头、Cookie、TLS 特征和 JavaScript 可见的浏览器特征,与真实用户流量进行比对。他们的 还涵盖了 Canvas、WebGL、WebRTC、字体和运行时信号。指纹识别就像 TikTok 在检查你的浏览器身份证——如果浏览器、Cookie、时间节奏和网络特征对不上,内容还没返回,请求就已经显得很假了。
  • 行为检测。 里经常提到,新的 Playwright 会话会触发验证码。来自 的社区帖子越来越多地提到,检测会关注操作节奏和交互质量,而不只是 IP 是否复用。
  • 加密/签名请求参数。 Evil0ctal 文档里有 X-BogusA_Bogus;更早的社区 gist 也围绕 URL 签名和令牌生成展开。TikTok 越来越希望请求带着和它自家浏览器/应用流量一样的“印记”到达。
  • 验证码和验证流程。 都说明,验证码仍然是反爬防线的一部分。

为什么开源维护者根本追不上

生命周期总是一样。开发者做出一个 TikTok 爬虫,它在 GitHub 上爆红,TikTok 修补它,维护者要么修复,要么离开。

下面两个仓库把这种模式体现得很清楚:

  • drawrowfly/tiktok-scraper 现在仍然有 5,052 颗星和 889 个 fork,但它的 。它是 GitHub 上按精确关键词搜索得到的 TikTok 爬虫里 star 最高的那个,看起来更像历史文物:曝光度高、信任度高,但已经没有持续维护。
  • davidteather/TikTok-Api 显示有 。它的 显示在 2025 年 4 月、7 月、10 月以及 2026 年 4 月都有实质维护——包括修复用户视频抓取以及新增代理/会话控制。但即便这个相对健康的项目,也公开警告 TikTok 会阻止请求,用户可能需要代理、Playwright 和自定义会话逻辑。

这个模式很简单:

  • 一个过时的 TikTok 爬虫仓库,大概率已经死了。
  • 一个还在更新的 TikTok 爬虫仓库,大概率还是很脆弱。
  • 真正的区别,只在于这个月还有没有人愿意来修补它。

60 秒仓库体检清单:如何评估 GitHub 上的任何 TikTok 爬虫

在你克隆任何东西之前,先跑一遍这个清单。不到一分钟,却能省下好几个小时的折腾。

信号🟢 健康🟡 有风险🔴 已失效
最近一次有效推送3 个月内3–12 个月前12 个月以上
未解决问题数量少,且近期问题有人回复累积增多,但仍有部分维护动作大量“失效/被阻止/不能用”且无人回复
最近用户投诉主要是安装问题安装问题和失效问题混杂反复出现“没有输出”“403”“还在工作吗?”
当前认证/会话模型已记录会话/Cookie 路径令牌较多,但文档完整依赖旧网页接口,没有当前认证说明
安装复杂度可复现、已测试的安装流程有一些手动步骤旧依赖、没有现代化安装说明
CI/测试有测试且较新有测试,但覆盖范围不明确没有测试,或自动化流程已经过时
数据范围匹配度符合你的实际需求只支持部分需求解决的是完全不同的问题

如何在 60 秒内检查每个信号

  1. 最后推送日期: 看 GitHub 仓库头部。如果显示“last pushed 2 years ago”,可以直接放弃。
  2. 未解决问题: 点开 Issues 标签,快速扫最近标题。搜索 not working403blockedcaptchazero output
  3. 用户投诉: 如果前 5 个未解决问题全都在说“这个已经不行了”,答案就已经很明显。
  4. 认证/会话模型: 打开 README,找当前指南,比如 ms_token、Playwright 配置或代理说明。如果 README 还在引用 2023 年的接口,直接跳过。
  5. 安装复杂度: 看有没有 requirements 文件、Docker 支持或清晰的安装说明。如果 README 只写了“npm install”,而最后测试的 Node 版本还是 14,基本可以预期会出问题。
  6. CI/测试: 看 Actions 标签。如果测试失败或根本没有测试,那修不修得好基本靠猜。
  7. 数据范围: 仓库是否真的描述了你需要的数据类型(个人资料、视频元数据、评论、标签)?很多仓库只做视频下载,不做结构化数据提取。

看到这些红旗就该“直接走人”

  • 仓库已归档。
  • README 写着“no longer maintained”。
  • 最后一次提交引用的是两年多以前的 TikTok API 版本。
  • Issues 里全是“不能用”的反馈,而且维护者几个月都没回复。
  • 仓库 star 很高,但最近没有 fork 也没有 pull request。

小技巧:在 Issues 标签里搜 is:issue is:open "not working"is:issue is:open "403"。如果结果很多而且很新,这个仓库大概率已经坏了。

热门 TikTok 爬虫 GitHub 仓库:一份诚实的现状检查(2026)

tiktok_scraper_repo_status_v1_a5c4a7a45c.png

下面是把仓库体检清单应用到你在 GitHub 搜索“tiktok scraper”时真正会看到的几个仓库:

仓库最后推送Stars未解决问题结论备注
drawrowfly/tiktok-scraper2023-05-195,05258🔴 已失效 / 仅供参考仍然很有名,但对 2026 年的生产场景来说太旧了
davidteather/TikTok-Api2026-04-016,301134🟡 还活着,但维护成本高最强的开源选择;需要 Playwright、令牌,通常还要代理
scrapfly/scrapfly-scrapers/tiktok-scraper2026-04-21938(父仓库)约 0(单体仓库)🟡 还活着,但不是纯开源目前有用,但需要 ScrapFly API key
Evil0ctal/Douyin_TikTok_Download_API2025-10-1217,397135🟡 还活着,范围广,复杂功能丰富的多平台项目,更像一个高级用户平台
naseif/tiktok-scraper2024-07-2610713🟡 有风险体量较小,用户信息和标签流程方面有公开投诉
loewehancara1rmyv/Tiktok-scraper2026-01-1240🔴 太新,不足以信任展示型仓库,不是经过社区验证的工具

drawrowfly/tiktok-scraper

多年里,这个 TypeScript 编写的抓取/下载器一直是“tiktok scraper github”这个问题的默认答案——能处理用户、趋势、标签和音乐流。到了 2026 年,最好把它当作历史文档来看。,问题队列里至今仍有 2023–2025 年留下的未解决 报告。如果你读这篇文章是因为你克隆了这个仓库却什么都没抓到,那你并不孤单。

davidteather/TikTok-Api

2026 年仍然存活的、最可信的开源 TikTok 数据封装库。它在持续更新,有 ,而且明确文档化了 Playwright 配置、异步用法、令牌处理、代理支持和会话恢复功能。但它不是一个“克隆即用”的工具。它自己的 README 还写明,EmptyResponseException 通常意味着 TikTok 在阻止请求,而且 里反复出现 ms_token、评论抓取失效、KeyError: 'ItemModule' 和特定接口失败等问题。结论:还活着、能用,但只适合开发者,而且维护成本高。

其他值得关注的仓库

  • 目前仍然更新,技术上也有参考价值,但 README 需要 SCRAPFLY_KEY。这是托管抓取平台的代码示例,不是免费的独立工具。
  • 覆盖 TikTok 和抖音,记录了签名逻辑(X-BogusA_BogusmsToken),并支持评论、粉丝、播放列表等功能。技术门槛高,而且和付费 API 参考越来越紧密。问题区在 2026 年仍不断出现关于视频链接和用户信息接口的 bug 报告。还活着、功能很强,但也很复杂。
  • 体量较小,而且有公开投诉。用于生产环境风险较高。
  • 4 颗星、0 个问题,太新,不足以信任。推广它的 Medium 文章也没有进行审慎评估。

TikTok 官方 API vs. GitHub 爬虫 vs. 无代码工具:决策框架

tiktok_scraper_decision_framework_v1_590e6b1852.png

大多数竞品文章要么忽略 TikTok 官方访问路径,要么直接从“用 GitHub”跳到“买我们的服务”。下面是一份对这三条路径的中立对比:

因素TikTok Research APIGitHub 爬虫无代码工具(例如 Thunderbit)
获取门槛需要学术/商业申请;大约 4 周 才能获批git clone + 配置安装浏览器扩展
数据范围仅限获批接口(账号、视频、评论、商店)范围较广(资料页、视频、评论、标签、商店)可见页面数据(资料页、视频、互动、标签)
维护负担低(官方、稳定)高(TikTok 一更新仓库就坏)无(AI 会适应布局变化)
封禁风险无(已授权)低(基于浏览器,模拟真实用户)
成本免费(如果获批)免费(但很耗时间)有免费套餐;按积分计费方案从每月 15 美元起
是否需要编码需要(Python/R)需要(Python/Node.js)不需要
最适合研究人员、学术界、获批机构能接受维护成本的开发者市场、销售、运营、非开发人员

什么时候 TikTok Research API 最合适

如果你符合条件,TikTok 的 是最干净的官方路径。美国、欧洲和巴西的合格研究者可以 研究公开内容和账号数据。可用的数据类别包括账号、关注者/被关注者、点赞视频、置顶视频、转发视频、内容、评论和商店。 会暴露像 video_descriptionview_countlike_countcomment_countshare_count 这样的字段,以及评论级字段如 textreply_countcreate_time

缺点是:资格仅限学术机构,以及特定地区内符合条件的非营利/独立研究者,另外还有 。如果你是需要快速拿到运营数据的增长团队或代理公司,这不是你的路径。

TikTok 还提供了一个用于广告和广告主内容数据的 ,它适合透明度研究,但不适合通用抓取。

什么时候 GitHub 爬虫仍然有意义

如果你需要官方 API 审批门槛之外的公开数据,又愿意维护整套栈,那么 GitHub 爬虫对开发者来说仍然有意义。比如抓取可见的个人主页网格、标签、评论、播放列表,或者在自定义管道里提取视频元数据,并且你能接受 fork 仓库和自己打补丁。

说实话,这不是一次性配置。即便是 2026 年最可靠的仓库之一 ,也仍然在告诉用户,他们可能需要 Playwright、Cookie/令牌、代理,以及自定义页面/会话工厂。

什么时候像 Thunderbit 这样的无代码工具更合适

你不是开发者?或者你已经受够了反复修补的循环?那么基于浏览器的 AI 工具,就是获取结构化 TikTok 数据最快的路径。

我们把 做成了一个 Chrome 扩展形式的 AI 网页爬虫。在 TikTok 上,它可以读取任何可见页面(资料页、视频页、标签页、搜索结果页),通过“AI 推荐字段”自动建议列,然后你只要点“抓取”就能提取结构化数据。 会列出发布日期、视频时长、点赞数、分享数、收藏数、评论数、浏览量和标签等字段。 展示了如何从资料页收集封面缩略图、URL、文案、创作者账号和互动信号。 则覆盖视频 URL、创作者用户名、描述、发布时间、浏览量、点赞、评论、分享、音频/配乐和封面图 URL。

子页面抓取还能让你从资料列表里点进每个视频页,补充互动指标、文案和标签——对正在搭建网红数据库或做竞品内容审计的营销人员尤其有用。

无需维护、无需安装排障、无需反封禁配置。AI 会自动适应页面布局变化。你可以免费导出到 Google Sheets、Excel、Airtable、Notion、CSV 或 JSON。

如果你已经在坏掉的 GitHub 仓库上浪费了好几个小时,这就是一个真正的替代方案——不是硬推产品。

安装排障:修复 TikTok 爬虫 GitHub 设置中最常见的 5 种失败

安装失败是 TikTok 抓取论坛里第三常被提到的痛点,而且没有任何一篇主流指南真的能帮你解决。下面说说常见问题。

Node.js 版本冲突

问题: 许多较老的 TikTok 爬虫仓库(尤其是 drawrowfly/tiktok-scraper)是为 Node.js 14–16 构建的。如果你在用 Node 20+,npm install 可能会静默失败,或者生成不兼容的二进制文件。

解决: 使用 nvm(Node 版本管理器)安装并切换到正确版本:

1nvm install 16
2nvm use 16
3npm install

如果仓库没有指定 Node 版本,请查看 package.json 里的 engines 字段,或者看 CI 配置。

Python 依赖问题和 Playwright 配置

问题: 需要 和带特定浏览器二进制的 Playwright。用户经常会遇到“找不到浏览器”或依赖冲突之类的错误。

解决: 一定先使用虚拟环境,再显式安装 Playwright 浏览器:

1python -m venv .venv
2source .venv/bin/activate   # Windows 上:.venv\Scripts\activate
3pip install TikTokApi
4python -m playwright install

如果 playwright install 失败,检查系统包管理器里是否缺少系统依赖(例如 Ubuntu 上的 libnss3)。

Linux/Ubuntu 权限错误

问题: 运行 sudo pip install 会破坏系统 Python 环境,并引发连锁依赖问题。

解决: 永远不要用 sudo pip install。先创建虚拟环境:

1python3 -m venv .venv
2source .venv/bin/activate
3pip install -r requirements.txt

这样可以把爬虫的依赖和系统 Python 隔离开来。

Windows 路径和编码问题

问题: Windows CMD 会有编码问题和路径长度限制,导致爬虫安装失败,尤其是在 Playwright 把浏览器二进制下载到很深的目录时。

解决: 用 WSL(Windows Subsystem for Linux)或者 Git Bash,别用 CMD。WSL 能让你在 Windows 里获得完整的 Linux 环境:

1wsl --install
2# 然后打开 WSL 终端,继续按照 Linux 的安装步骤操作

Docker 快捷方案:彻底跳过依赖问题

问题: 上面这些情况全都可能发生。

解决: 如果你会用 Docker,直接把爬虫环境容器化。一个基于 Python 的 TikTok 爬虫的基础 Dockerfile 看起来像这样:

1FROM python:3.11-slim
2RUN apt-get update && apt-get install -y libnss3 libatk-bridge2.0-0 libdrm2 libxcomposite1 libxdamage1 libxrandr2 libgbm1 libasound2
3RUN pip install TikTokApi playwright && python -m playwright install --with-deps chromium
4WORKDIR /app
5COPY . .
6CMD ["python", "scrape.py"]

这样可以确保无论你的宿主机是什么系统,环境都是可复现的。如果爬虫在 Docker 里能跑,那 Docker 之外的任何失败,都是环境问题,不是代码问题。

排障流程图:

  1. 仓库自带示例能跑通吗?→ 如果不能,先检查运行时版本。
  2. 运行时版本正确吗?→ 检查浏览器/Playwright 是否安装。
  3. 浏览器已安装?→ 检查令牌/Cookie。
  4. 令牌/Cookie 有效?→ 检查 TikTok 是否在阻止当前会话。
  5. 上面全都不行?→ 默认是仓库坏了,不是用户操作错误。换工具。

TikTok 抓取的反封禁最佳实践(不花代理钱)

论坛用户反复抱怨封禁和检测:“他们会把你的账号封掉,这还得额外花钱”和“没有用 Apify 或昂贵的付费 API”。下面是一些不需要购买代理订阅的免费实用办法。

tiktok_scraper_antiban_playbook_v1_3f3a302f6b.png

做法难度成本效果
随机请求延迟(2–8 秒抖动)简单免费中等
会话/Cookie 轮换中等免费中等
只抓取已登出的公开页面简单免费中等
遵守 robots.txt + 限流响应头简单免费基础
无头浏览器指纹随机化(Playwright)中等免费
使用 TikTok 的移动端 API 接口(更低检测率)困难免费
住宅代理轮换中等每月 20–100 美元

真正有帮助的免费技巧

随机请求延迟。 不要在循环里密集发请求。每次请求之间加 2–8 秒的随机抖动。这是你最容易做到、也是最有效的事之一:

1import time, random
2time.sleep(random.uniform(2, 8))

复用会话和 Cookie。 不要给每次请求都新建一个会话。批量请求时复用 Cookie 和会话状态,然后再轮换。这正是现代仓库要求你提供 ms_token,而不是承诺无状态抓取的原因。

只抓取已登出的公开页面。 它不支持用户登录态路由,只适用于登出后可见的数据。已登出抓取的检测风险比登录会话更低。

尊重 robots.txt TikTok 当前的 会直接屏蔽许多爬虫,并且只允许有限的公开路径用于通用抓取。这并不是鼓励你激进抓取的绿灯,但遵守它能减少被立刻拉黑 IP 的概率。

更高成功率的中阶技巧

无头浏览器指纹随机化。 如果你在用 Playwright,给每个会话随机化视口大小、用户代理字符串、时区和语言环境。这样你的爬虫每次看起来都像不同的真实用户,而不是同一个换了新 IP 的机器人。

使用 TikTok 的移动端 API 接口。 一些社区成员报告说,使用移动端风格接口比网页前端的检测率更低。实现起来更难,文档也更少,但对高级用户来说确实是一种可行技巧。

什么时候你真的需要代理,以及更便宜的选择

当规模上来后,免费技巧就不够了。住宅代理轮换是大规模 TikTok 抓取的标准做法。这里我不推荐具体的付费代理服务,但一般建议是:避开数据中心代理(TikTok 会更积极地标记它们),寻找支持按请求轮换的住宅或移动代理池。

另一种办法是使用像 这样的基于浏览器的工具,它们直接运行在你自己的浏览器会话里,模拟真实用户,因此绕开了代理这个问题。这并不代表它们在大规模下完全不会被检测,但对于常见的营销或研究场景(几十到几百页,而不是几百万页)来说,这是一条简单得多的路线。

你到底能拿到什么数据?TikTok 爬虫的真实输出样本

用户在决定使用工具前,最想知道的就是自己到底能拿到什么数据——而大多数指南对此都一带而过。下面是根据源文档整理出的代表性字段结构。

资料页数据

用户名显示名粉丝数关注数总点赞数简介是否认证主页 URL
@examplecreatorJane Doe1,240,00031248,700,000"Cooking + comedy 🍳"tiktok.com/@examplecreator
@travelwithmarkMark S.890,00015022,100,000"Travel vlogger 🌍"tiktok.com/@travelwithmark
@fitnessmayaMaya L.2,100,0008891,300,000"Workouts & wellness"tiktok.com/@fitnessmaya

可获取来源: GitHub 爬虫(TikTok-Api、Evil0ctal)、Research API、Thunderbit(基于可见资料页)。

视频元数据

视频 URL文案浏览量点赞评论分享音乐标签发布日期时长
tiktok.com/@ex/video/123"Best pasta trick ever 🍝"4,200,000312,0008,40021,000"Italian Vibes – DJ Marco"#pasta #cooking #hack2026-03-150:42
tiktok.com/@ex/video/456"POV: your cat judges you"9,100,0001,100,00023,00055,000"Original Sound"#cat #pov #funny2026-04-010:18
tiktok.com/@ex/video/789"Morning routine nobody asked for"1,800,00098,0003,2007,500"Chill Morning – LoFi"#routine #morning2026-04-101:02

可获取来源: GitHub 爬虫(TikTok-Api、Evil0ctal)、(字段包括 video_descriptionview_countlike_countcomment_countshare_countmusic_idhashtag_namesvideo_duration)、Thunderbit()。

评论数据

评论者评论内容点赞数时间戳回复数
@user_abc"I tried this and it actually works 😂"1,2002026-03-16T08:12:00Z14
@chef_dan"Add garlic next time, trust me"8902026-03-16T09:45:00Z7
@randomfan99"This is the content I'm here for"3402026-03-16T11:30:00Z2

可获取来源: GitHub 爬虫(TikTok-Api、Evil0ctal)、(字段包括 textlike_countreply_countcreate_time)、Thunderbit(来自可见评论区)。

标签和搜索数据

标签热门视频 URL总浏览量是否热门
#pastatiktok.com/@ex/video/1234,200,000
#cookingtiktok.com/@chef/video/32111,000,000
#hacktiktok.com/@tips/video/6542,900,000

可获取来源: GitHub 爬虫(取决于仓库)、Thunderbit()。

注意:没有任何一个仓库能保证一直拿到所有字段。TikTok 的响应结构会变化,维护者自己也会提醒这一点。把这些表当作代表性示例,而不是稳定承诺。

如何用 Thunderbit 2 次点击抓取 TikTok 数据(分步)

厌倦了修复—再坏—再修复的循环?这里有一条无代码路径——给所有尝试过 GitHub 仓库却失败的人留的出口。

  1. 安装
  2. 打开你想抓取的 TikTok 页面——资料页、搜索结果页、标签页或单个视频页。
  3. 点击“AI 推荐字段”。 Thunderbit 的 AI 会读取页面并建议列:用户名、粉丝数、视频文案、点赞数、标签等。
  4. 按需调整字段,然后点击“抓取”。 数据会以结构化表格的形式填充出来。
  5. 使用子页面抓取来丰富数据。 从资料列表里点进每个视频,提取更多字段:完整文案、音乐详情、评论数、分享数。
  6. 免费导出到 Google Sheets、Excel、Airtable 或 Notion。

无需维护、无需安装排障、无需反封禁配置。AI 会自动适应 TikTok 的页面变化。

用子页面抓取丰富 TikTok 数据

从资料页或标签页抓完视频列表后,点击“抓取子页面”,让 AI 逐个访问视频页并提取更多字段。这对正在搭建网红数据库或做竞品内容审计的营销人员尤其有用——你可以直接拿到完整的视频互动数据表,而不用手动点开几十个页面。

导出并使用你的 TikTok 数据

Thunderbit 可免费导出到 Google Sheets、Excel、Airtable、Notion、CSV 或 JSON。常见用法包括:

  • 把数据导入表格,做互动分析。
  • 发到 Airtable,做类似 CRM 的网红跟踪。
  • 推到 Notion,方便团队协作做内容研究。

如果你想更深入了解 Thunderbit 如何处理网页数据提取,可以看看我们的 ,或者观看 上的教程。

保持合法:TikTok 服务条款与抓取合规

TikTok 的法律立场很明确。平台的 说明,服务条款禁止自动脚本收集信息或以未经授权的方式与服务交互,并且明确提到了绕过访问限制。TikTok 的 也禁止通过自动脚本或网页爬取,以欺骗方式获取信息。

实用建议:

  • 只抓取公开可用的数据。 不要抓私密内容或登录后才可见的内容。
  • 尊重限流。 不要猛轰 TikTok 的服务器。
  • 遵守数据隐私法律。 如果你在收集、存储或分析个人数据,GDPR 和 CCPA 仍然适用。
  • 如果符合资格,优先使用 Research API。 从合规角度看,这是最安全的路径。
  • 这不是法律意见。 你的具体情况请咨询专业人士。

想了解更多法律背景,可以查看我们的 指南。

当你的 TikTok 爬虫 GitHub 仓库失效时该怎么办

简短版本:

  1. 在克隆任何 GitHub 上的 TikTok 爬虫之前,先跑一遍 60 秒仓库体检清单。 大多数仓库其实已经死了。
  2. 搞清楚你的选项。 官方 API、GitHub 爬虫和无代码工具,分别适合不同的人和不同的场景。
  3. 如果你走 GitHub 路线, 就要预留安装排障和反封禁配置的时间。要做好持续维护的准备。
  4. 在决定用某个工具之前,先弄清楚你到底能拿到什么数据。 看输出字段,不要只看 star 数。
  5. 如果你不是开发者(或者你已经受够了坏掉的仓库),试试像 这样的无代码工具——两次点击、结构化数据、免费导出。

你需要的 TikTok 数据是可以拿到的。问题只在于,你是想把时间花在维护爬虫上,还是把数据真正用起来。选一个适合你的技能水平和使用场景的方法,别再让一个已经失效的 GitHub 仓库浪费你又一个下午。

常见问题

2026 年还有能用的 GitHub TikTok 爬虫吗?

有,但名单很短。 是截至 2026 年 4 月仍在积极维护、最可信的开源选项。 也还活着,但更复杂。star 最高的仓库 drawrowfly/tiktok-scraper 自 2023 年 5 月后就没有更新,实际上已经失效。在投入时间到任何仓库之前,都要先跑一遍仓库体检清单。

抓取 TikTok 合法吗?

TikTok 的服务条款明确禁止自动抓取。公开可见数据在法律上处于灰色地带,不同司法辖区规定不同。最稳妥的路径,是符合资格的研究者使用官方 。如果你要抓公开数据,请只抓公开可访问内容,尊重限流,并遵守 GDPR/CCPA。这不是法律建议——你的具体情况请咨询专业人士。

不写代码能抓 TikTok 吗?

可以。像 这样的基于浏览器的 AI 工具,可以让你无需编写任何代码,就提取结构化 TikTok 数据(资料页、视频元数据、标签、互动指标)。TikTok Research API 对获批申请者来说也只需要少量编码。对非开发者来说,无代码工具是最快、最可靠的路径。

TikTok 爬虫能拿到哪些数据?

常见数据类型包括资料信息(用户名、粉丝数、简介、是否认证)、视频元数据(文案、浏览量、点赞、评论、分享、音乐、标签、时长、发布日期)、评论(内容、点赞数、时间戳、回复数)以及标签/搜索数据(热门视频、总浏览量、是否热门)。具体字段取决于工具和方法——详细情况见上面的输出样本部分。

为什么我的 TikTok 爬虫总是被封?

TikTok 使用了多层反爬防御:限流、Cookie/会话门槛、浏览器指纹识别、行为检测、加密请求参数和验证码流程。常见的封禁原因包括请求太快、每次请求都用干净的新会话、用默认指纹运行无头浏览器,或者使用数据中心代理。上面的反封禁最佳实践部分列出了免费和付费的应对办法。

目录

试试 Thunderbit

仅需 2 次点击即可抓取线索和其他数据,AI 加持。

获取 Thunderbit 完全免费
使用 AI 提取数据
轻松将数据传输到 Google Sheets、Airtable 或 Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week