Google 新闻汇集了全球超过 ,是互联网上最丰富的实时新闻信息源之一。但有件事没人会一开始就告诉你:Google 早在 2011 年就关闭了官方 News API,而且再也没有替代品。
这就让追踪品牌提及的公关团队、监测行业动向的销售人员,以及搭建竞争情报看板的分析师陷入了被动。你需要结构化新闻数据——标题、来源、日期、正文——但 Google 会用 CAPTCHA、限流,以及不断变化的页面布局来积极阻止自动抓取。我在 Thunderbit 负责数据提取工具的开发和测试已经很多年了,可以告诉你,“我先随手抓一下 Google 新闻” 和“真正稳定拿到结构化数据”之间的差距,远比大多数人想象得要大。
这篇指南整理了我在 API、无代码工具和免费额度里找到的 10 款最佳 Google 新闻爬虫,并附上真实价格对比、反爬能力分析,以及能真正帮你选对工具的字段级细节。
为什么 Google 新闻很难抓取(以及为什么没有官方 API)
Google 在 2011 年 。从那以后,任何自称“Google 新闻 API”的工具,本质上都只是第三方封装——替你抓取或代理 Google 新闻结果。最接近官方的程序化方案是 ,它每天提供 100 次免费查询,并按 每 1,000 次查询 5 美元收费。但它需要配置自定义搜索引擎,而且并不能直接替代 Google 新闻。
与此同时,Google 的反爬手段是真实存在的:
- 基于 IP 的限流:如果你访问 Google 新闻太快,就会看到 。
- 同意页面和中间页:根据你的所在地,Google 可能会先展示 Cookie 同意页面,很多解析器都会因此失效。
- JavaScript 渲染内容:Google 新闻有大量内容是动态加载的,简单的 HTTP 请求拿到的 HTML 并不完整。
- 重定向包裹的 URL:Google 新闻链接通常会先经过 Google 自己的重定向层,再跳转到发布方页面。
- 布局漂移:Google 会频繁调整新闻卡片、故事聚合和主题板块的结构。
到 2025 年 3 月,Google 还 ,让这个平台变得更加动态。GitHub 上的社区讨论和 上的帖子里,开发者们都在分享应对同意页、选择器失效和 URL 格式变化的各种变通方案。
那为什么大家还是要抓它?因为 ,而其中 是 Google 从未见过的新查询。无论是品牌监控、趋势分析、销售线索识别还是竞争情报,Google 新闻依然是覆盖最广、查询最灵活的新闻信息源之一。
RSS、API 和无代码抓取:怎么选最合适的方法
并不是所有 Google 新闻爬虫的工作方式都一样。在选工具之前,先弄清楚三种主要方案,以及它们各自适合什么场景,会非常有帮助。
| 方案 | 最适合 | 局限 | 示例工具 |
|---|---|---|---|
| Google 新闻 RSS 源 | 简单标题监控、免费、低频率 | 没有全文,最多约 100 条结果,筛选有限 | 内置 RSS 阅读器、n8n |
| SERP / 新闻 API | 可扩展的关键词监控、结构化元数据 | 持续成本,通常只有标题 + 摘要 | SerpApi、Scrapingdog、Newsdata.io |
| 直接抓取(无代码) | 全文内容、自定义字段、一次性研究 | 需要处理反爬,扩展性不如 API | Thunderbit、Octoparse、Apify |
| 直接抓取(代码) | 最高控制度、自定义管道 | 维护成本高、要处理 CAPTCHA、经常失效 | Scrapy、BeautifulSoup + Selenium |
大多数竞品文章只会讲 API 和 Python 库。但我看到的用户意图数据说明了另一件事:搜索“best Google News scrapers”的人里,绝大多数其实不是开发者——比如公关经理、运营负责人、销售团队——他们需要的是点选式解决方案,而不是写代码项目。所以这份名单里也包含了浏览器扩展和无代码平台,而不只是 API 大厂。
值得注意的是:Google 新闻 RSS 源依然免费,而且对轻量级标题监控很有用。你可以订阅某个主题或关键词的 RSS,获取大约 100 条结果,包括标题、链接和发布日期。但如果你需要全文、作者名、情绪分析,或者超过一百条结果,就需要下面这些工具之一。
我是如何评估最佳 Google 新闻爬虫的
我用同一套标准评估了这份名单里的每一款工具:
- 易用性:无代码 vs. 需要代码 vs. 仅 API
- 反爬 / CAPTCHA 处理:对 Google 至关重要
- 提取的数据字段:标题、来源、日期、摘要、URL、全文、作者、图片、情绪
- 是否有免费额度及其限制
- 标准化到每 1,000 次请求的成本:因为各家厂商的计价方式不同(按月、按积分、按请求),我统一折算为最低付费档下每 1,000 次成功结果的成本
- 导出格式:JSON、CSV、Google Sheets、Airtable、Notion 等
- 扩展性:日调用量限制、限流、并发
- 最适合的使用场景
价格标准化比你想象中更重要。一款工具按“搜索”收费(一次搜索返回 10 条结果),另一款按“积分”收费(1 积分 = 1 行),第三款按“请求”收费(JavaScript 渲染还要额外加钱)。如果不统一口径,你就是在拿苹果和猩猩做比较。
10 款最佳 Google 新闻爬虫一览
下面是总览对比表。我会在后面逐个展开,但这张表可以帮你快速缩小选择范围。
| 工具 | 类型 | 免费额度 | 每 1K 结果约成本 | 反爬处理 | 支持全文提取 | 导出格式 | 最适合 |
|---|---|---|---|---|---|---|---|
| Thunderbit | Chrome 扩展 / AI 无代码 | 免费额度(6 页) | 约 $6–$30 / 1K 行(取决于方案) | 浏览器模式(使用你的会话)+ 云模式 | 是(子页面抓取) | Excel、CSV、Sheets、Airtable、Notion、JSON | 非技术用户、业务团队 |
| SerpApi | SERP API | 每月 250 次搜索 | 约 $5–$15 / 1K 结果 | 针对 SERP 的反检测 | 否(标题 + 摘要) | JSON | 开发者、结构化 API 管道 |
| ScraperAPI | 通用抓取 API | 每月 1,000 积分 + 5K 试用 | 约 $0.10–$0.49 / 1K 请求 | 代理轮换、JS 渲染 | 没有专用解析器 | JSON、HTML | 预算型开发者、通用抓取 |
| Apify | 云抓取平台 | 7 天试用 | 因 Actor/算力而异 | JS 渲染、无头浏览器 | 取决于 Actor | JSON、CSV、Excel、API | 技术团队、预构建流程 |
| Bright Data | 企业级爬虫 / 数据集 | 1K 试用请求 | 约 $1.30–$2.50 / 1K 记录 | 代理、CAPTCHA 解决、浏览器渲染 | 是(News Scraper 产品) | JSON、CSV | 企业级管道 |
| Octoparse | 可视化无代码平台 | 免费方案(有限) | 约 $9–$25 / 1K 行(摊销后) | 云端执行、反封禁 | 是(模板包含正文) | CSV、Excel、JSON、数据库 | 可视化流程构建者 |
| ScrapingBee | 抓取 API | 试用积分 | 因积分而异(JS 成本更高) | 无头 Chrome、代理轮换、CAPTCHA | 没有专用解析器 | JSON、HTML | 需要 JS 渲染的开发者 |
| Oxylabs | SERP / 抓取 API | 最多 2,000 条结果试用 | 约 $1.00–$2.35 / 1K 结果 | 1 亿+ 代理、CAPTCHA 解决 | 否(SERP 数据) | JSON | 大规模、按地区定位的抓取 |
| Scrapingdog | 低预算 SERP API | 1,000 免费积分 | 约 $0.10 / 1K 请求 | 针对 SERP 的反检测 | 否(标题 + 摘要) | JSON | 注重成本的开发者 |
| Newsdata.io | 专用新闻 API | 每天 200 次请求 | 因方案而异 | 不适用(并非直接抓取 Google) | 是(高级方案) | JSON | 新闻场景的 NLP 功能 |
有几件事一眼就能看出来。每次请求成本最低的是谁?Scrapingdog 和 ScraperAPI。最容易上手的无代码工具是谁?Thunderbit 和 Octoparse。企业级可靠性加地区定向是谁?Bright Data 和 Oxylabs。
下面进入详细拆解。
1. Thunderbit —— 最适合业务用户的无代码 Google 新闻爬虫
是我们公司自己做的工具,所以我会先讲清楚这一点。但我也会尽量具体地说明它能做什么、不能做什么,因为我认为诚实比吹捧更有用。
Thunderbit 是一款 AI 驱动的 ,专为不写代码也需要从网站获取结构化数据的人设计。针对 Google 新闻,它的流程大致是这样的:
- 在 Chrome 中打开 Google 新闻搜索结果。
- 点击 “AI 推荐字段”——AI 会读取页面,并自动识别标题、来源、日期、摘要和 URL 之类的列。
- 点击 “抓取”,把结构化数据提取到表格里。
上面只是列表页。真正适合新闻场景的能力在后面:在抓取 Google 新闻结果之后,你可以点击 “抓取子页面”,逐个打开文章 URL,提取全文、作者、图片等内容。这直接解决了论坛里最常见的那个问题:我已经有链接了,但还是得继续爬取并提取真正的正文。
字段 AI 提示词 允许你为每一列添加自定义 AI 指令。比如,你可以新增一列“情绪”,并写入提示词:“将这篇文章判断为对 [品牌] 的正面、负面或中性。” 这意味着你可以一次完成数据提取和数据增强——这是纯 API 工具完全做不到的。
Thunderbit 同时支持 浏览器抓取(在你的 Chrome 会话中运行,继承你的 Cookie 和登录状态,因此能避开很多反爬触发)和 云端抓取(一次最多处理 50 个页面,并内置反爬基础设施)。你还可以设置 ,用于周期性的新闻监控。
主要功能
- AI 推荐字段可自动识别标题、来源、日期、URL 列
- 支持子页面抓取,可提取全文、作者和图片
- 字段 AI 提示词可用于情绪分析、翻译或自定义标签
- 云端和浏览器两种抓取模式
- 支持每天/每周定时抓取
- 可免费导出到 Google Sheets、Airtable、Notion、Excel、CSV、JSON
价格
- 免费额度:6 页
- 免费试用:10 页
- 付费方案约从 $9/月起(按积分计费,1 积分 = 1 行输出)
- 标准化到每 1,000 行的成本:约 $6–$30,取决于方案
最适合
销售团队、公关人员、运营经理,以及任何需要结构化 Google 新闻数据但又不想写代码的人。尤其适合你还需要全文内容和情绪等 AI 增强字段的场景。
2. SerpApi —— 面向开发者的最佳结构化 Google 新闻 API
适合那些想要一个专门的 Google 新闻 API 端点、并且能返回干净结构化 JSON 的人。它有两个相关端点:一个对应 news.google.com(Google 新闻页面),另一个对应标准 Google Search 里的 tbm=nws 新闻标签页。
它的字段文档异常详细——你能拿到 title、source、authors、link、thumbnail、topic_token、story_token、related_topics 和 related_publications。其中 story token 和 topic token 对于去重聚合新闻非常有用,而这正是大多数工具忽略的痛点。
根据我的使用经验,SerpApi 的响应速度很快(通常 2 秒以内),稳定性也不错。主要限制是:它只提供 API,所以你需要用代码或无代码集成来消费这些数据。没有全文,只有标题、摘要和元数据。
主要功能
- 专门的 Google 新闻搜索端点,返回结构化 JSON
- 支持地区和语言定向
- 可通过
tbs参数查询历史新闻 - 支持 story token 和 topic token,用于聚类
价格
- 免费:每月
- Developer:$75/月,5,000 次搜索
- Production:$150/月,15,000 次搜索
- 标准化每 1K 结果成本:约 $5–$15(按每次搜索约 10 条结果估算)
最适合
正在构建自动化新闻监控管道、需要可靠结构化 SERP 数据和较完整字段覆盖的开发者。
3. ScraperAPI —— 抓取 Google 新闻的最佳低预算通用 API
ScraperAPI 是一款通用抓取 API,不是专门针对 Google 新闻的工具。但我把它列在这里,是因为如果你愿意自己写解析器,它是批量访问 Google 新闻页面最便宜的方法之一。
ScraperAPI 通过一个简单的 REST API 处理代理轮换、JavaScript 渲染和 CAPTCHA 解决。你只需要发送一个 URL,它就会返回渲染后的 HTML。问题在于:它没有专门的 Google 新闻解析器,所以你得自己提取字段(或者和解析库搭配使用)。
有些用户反馈它的响应时间偏慢(基准测试里在 7–23 秒之间),而且积分系统意味着不同类型的请求会消耗不同数量的积分。不过对于那些已经知道如何解析 Google 新闻 HTML 的开发者来说,ScraperAPI 的价格确实很能打。
主要功能
- 自动代理轮换和地区定向
- JavaScript 渲染
- 基于积分的计费模型(基础方案含 10 万积分)
- + 5,000 试用积分
价格
- 免费:每月 1,000 积分
- Hobby:$49/月(100,000 积分)
- Startup:$149/月(1,000,000 积分)
- 标准化每 1K 请求成本:约 $0.10–$0.49,取决于方案
最适合
预算敏感、需要便宜的代理/渲染层,并且愿意自己编写 Google 新闻解析器的开发者。
4. Apify —— 带预构建 Google 新闻 Actor 的最佳云平台
Apify 是一个云端抓取平台,拥有一个“Actors”市场——也就是你无需写代码就能运行的预构建爬虫。平台里有不少社区贡献的 Google 新闻 Scraper Actor,平台本身也负责云执行、定时和存储。
你可以直接用一个预构建 Actor 快速开始。代价是:社区 Actor 的质量和维护水平参差不齐。Google 一旦改版,有些 Actor 可能就会失效,而你也得依赖作者去修复。Apify 自身基础设施很稳,但具体到 Google 新闻体验,就取决于你选的是哪个 Actor。
主要功能
- Apify Store 里的 Google 新闻专用 Actor
- 云端定时运行
- API 和 webhook 集成
- 支持导出 JSON、CSV、Excel,以及通过 API 获取
价格
- 免费试用:7 天
- 付费方案:$49/月起
- 标准化每 1K 请求成本:因 Actor 和算力消耗而异
最适合
希望不用从零开发就能使用现成抓取流程,并且需要云端定时和 API 集成的技术团队。
5. Bright Data —— 企业级 Google 新闻爬虫的最佳选择
Bright Data 是企业级重型选手。它的 News Scraper 产品明确支持 Google 新闻,并包含自动代理管理、完整浏览器渲染、CAPTCHA 解决,以及最多 5,000 个 URL 的批处理。字段包括 ID、URL、标题、作者、主题等。
Bright Data 还出售预采集的 Google 新闻数据集,起价为每 10 万条记录 2.50 美元——对于不想实时抓取的团队来说,这是个很实用的选择。
真正让它在反爬能力上脱颖而出的是 7,200 万+ 的住宅代理网络。如果你需要从多个国家高频抓取 Google 新闻,Bright Data 能帮你把复杂性吸收掉。
主要功能
- 支持 Google 新闻的 News Scraper
- 7,200 万+ 住宅代理,支持地区定向
- 内置 CAPTCHA 解决
- Web Scraper IDE(可视化、半无代码)
- 按量付费和订阅两种方案
价格
- 免费试用:1,000 次请求
- 按量付费:约 $2.50/1K 记录
- Scale:$499/月(含 384K 记录,额外部分约 $1.30/1K)
最适合
需要高频、高可靠性 Google 新闻数据,并且要求全球地区覆盖和合规基础设施的大型企业。
6. Octoparse —— Google 新闻最佳桌面无代码爬虫
Octoparse 同时提供普通的 Google 新闻 Scraper 模板和云端模板。它的字段列表异常透明:关键词、来源、标题、发布日期、URL、正文、作者、摘要、图片,以及错误信息字段。
云端模板甚至明确标出 Run Mode 的价格是 每 1,000 行 0.1 美元,这在无代码工具里算是很少见的定价透明度。不过,实际成本还是要看你为了云端调度和反封禁功能需要什么订阅等级。
Octoparse 的可视化工作流构建器很适合想在不写代码的情况下,对每一步提取过程都保持明确控制的用户。学习曲线比 Thunderbit 的 AI 驱动方式更陡一些,但有些人就喜欢这种细粒度控制。
主要功能
- 预构建的 Google 新闻模板,字段提取很详细
- 可视化点选式工作流构建器
- 支持云端和本地执行
- 可定时和循环抓取
- 支持导出 CSV、Excel、JSON、数据库
价格
- 免费方案,功能有限
- 付费方案:$69/月起
- 标准化成本:约 $9–$25 / 1K 行(包含套餐费用摊销)
最适合
偏好可视化桌面工具、希望对提取步骤进行明确分步控制,并且需要定期抓取 Google 新闻的非技术用户。
7. ScrapingBee —— 处理 JavaScript 密集型 Google 新闻页面的最佳 API
ScrapingBee 专注于无头浏览器渲染、代理轮换和反爬绕过。当 Google 新闻页面需要完整执行 JavaScript 才能渲染结果时,它是个很强的选择——而这类场景正变得越来越常见。
它的 API 很简单:发一个 URL,返回渲染后的 HTML 或截图。ScrapingBee 会在后台处理代理轮换和 CAPTCHA 解决。但和 ScraperAPI 一样,它没有专门的 Google 新闻解析器——你仍然需要自己提取字段。
积分系统意味着 JavaScript 渲染请求比普通 HTTP 请求更贵,所以估算 Google 新闻成本时一定要把这一点考虑进去。
主要功能
- 面向 JS 密集页面的无头 Chrome 渲染
- 自动代理轮换和 CAPTCHA 绕过
- 支持 Google Search / 新闻抓取
- 简单 REST API,返回 JSON/HTML
价格
- 方案:$49/月起
- 基于积分计费(JS 渲染每次请求更贵)
- 标准化每 1K 请求成本:因渲染需求而异
最适合
需要通过简单 API 获得可靠 JavaScript 渲染和反爬处理的 Google 新闻页面开发者。
8. Oxylabs —— 按地区定向结果的最佳 Google 新闻爬虫
Oxylabs 在其 SERP 产品线下提供了专门的 Google 新闻 Scraper API,背后是覆盖 195 个国家的 1 亿+ 代理池。它的卖点是:企业级可靠性 + 按地理位置返回结果。
Oxylabs 支持结构化 JSON 输出、实时和批量抓取模式,以及通过 XPath 和 CSS 选择器实现自定义解析逻辑。Google 新闻相关定价很清楚:Micro 方案大约是每 1,000 条结果 2 美元,更高档位可降至约每 1,000 条 0.90 美元。
免费试用最多给你 ,足够测试数据质量是否符合你的需求。
主要功能
- 支持 Google 新闻的 SERP Scraper API
- 覆盖 195 个国家的 1 亿+ 代理
- 结构化 JSON 输出
- 实时和批量抓取模式
价格
- 免费试用:最多 2,000 条结果
- Micro:约 $2.00/1K Google 结果(含 JS 渲染约 $2.35/1K)
- 更高档位:约 $0.90/1K
- 支持企业定制方案
最适合
需要大规模、高可靠性、按地区定向的 Google 新闻结果的企业和中型市场团队。
9. Scrapingdog —— 最适合预算有限用户的 Google 新闻 API
Scrapingdog 将自己定位为 SerpApi 的低成本替代品,并提供专门的 Google 新闻 API 端点。返回的结构化 JSON 包含标题、来源、日期、摘要和链接。
它的定价真的很激进:有些方案 40 美元就能拿到 40 万次请求,折算下来大约是每 1,000 次请求 0.10 美元。响应时间通常在 2 秒左右,而且你还能拿到 1,000 个免费积分用于测试。
代价是:Scrapingdog 是一家更小的公司,文档和集成数量都不如头部厂商。但对于初创公司和注重预算的开发者来说,这个价格很有吸引力。
主要功能
- 专门的 Google 新闻 Scraper API 端点
- 结构化 JSON 响应(标题、来源、日期、摘要、链接)
- 可通过
tbs参数获取历史新闻数据 - 1,000 个免费积分用于测试
价格
- 免费:1,000 积分
- 付费方案:$40/月起
- 标准化每 1K 请求成本:约 $0.10
最适合
预算敏感的开发者和初创公司,需要以最低单次请求成本获得大规模 Google 新闻数据。
10. Newsdata.io —— 最佳专用新闻 API(不局限于 Google 新闻)
是一个专门为新闻数据设计的 API,聚合了全球 50,000+ 个来源。严格来说它不是 Google 新闻爬虫——它并不会直接抓取 Google 新闻。它是从相同的(以及额外的)发布方来源独立聚合数据,并返回支持实时和历史新闻搜索的结构化 JSON。
高级方案包含全文提取、情绪分析和分类过滤——这些功能大多数 SERP 抓取工具都不会原生提供。免费额度每天给你 ,测试起来很宽裕。
如果你的目标是“获取某个主题的新闻数据”,而不是特指“抓取 Google 新闻”,那 Newsdata.io 可能比这里任何一个 SERP 工具都更合适。
主要功能
- 实时和历史新闻搜索 API
- 全文提取(高级版)
- 情绪分析(高级版)
- 支持按类别、语言和国家筛选
- 每天 200 次请求的免费额度
价格
- 免费:每天 200 次请求
- 付费方案:$99.99/月起
- 标准化每 1K 请求成本:因方案而异
最适合
需要带内置 NLP 功能(情绪、分类)的专用新闻数据源、但并不特别要求直接抓取 Google 新闻的团队。
Google 新闻爬虫对比:反爬处理、数据字段和价格
在选择 Google 新闻爬虫时,有三个对比维度比其他任何因素都更重要。我还没见过另一篇指南能系统地把这三项都讲透。
每款工具如何应对 Google 的反爬保护
反爬处理是抓取 Google 新闻时的头号问题。下面看看每款工具各自是怎么做的:
| 策略 | 使用该策略的工具 |
|---|---|
| 内置代理轮换 | Bright Data、ScrapingBee、Oxylabs、ScraperAPI |
| 包含 CAPTCHA 解决 | Bright Data、ScrapingBee、Oxylabs |
| JS 渲染 / 无头浏览器 | Apify、Octoparse、ScrapingBee |
| 基于浏览器(使用你的会话) | Thunderbit(浏览器抓取模式) |
| 针对 SERP 的反检测 | SerpApi、Scrapingdog |
Thunderbit 的浏览器抓取模式值得单独解释一下。因为它是在你真实的 Chrome 会话里运行,所以会继承你的 Cookie 和登录状态。这意味着它可以避开很多无头爬虫常碰到的反爬触发——同意页、CAPTCHA 挑战和指纹检测。对于高频需求,Thunderbit 的云端抓取则会依靠自己的反爬基础设施,一次处理 50 个页面。
每款 Google 新闻爬虫能返回哪些数据字段?
这是别人最少发布、但其实最重要的对比维度。某些工具只给你标题和链接;另一些则能提取全文、作者名,甚至情绪。
| 工具 | 标题 | 来源 | 日期 | 摘要 | 文章 URL | 全文 | 作者 | 图片 | 情绪 |
|---|---|---|---|---|---|---|---|---|---|
| Thunderbit | ✅ | ✅ | ✅ | ✅ | ✅ | ✅(通过子页面) | ✅(通过 AI) | ✅ | ✅(通过字段 AI 提示词) |
| SerpApi | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ❌ |
| ScraperAPI | ✅(自定义解析) | ✅(自定义解析) | ✅(自定义解析) | ✅(自定义解析) | ✅(自定义解析) | ❌ | ❌ | ❌ | ❌ |
| Apify | ✅ | ✅ | ✅ | ✅ | ✅ | 取决于 Actor | 取决于 Actor | ✅ | ❌ |
| Bright Data | ✅ | ✅ | ✅ | ✅ | ✅ | ✅(News Scraper) | ✅ | ✅ | ❌ |
| Octoparse | ✅ | ✅ | ✅ | ✅ | ✅ | ✅(模板) | ✅ | ✅ | ❌ |
| ScrapingBee | ✅(自定义解析) | ✅(自定义解析) | ✅(自定义解析) | ✅(自定义解析) | ✅(自定义解析) | ❌ | ❌ | ❌ | ❌ |
| Oxylabs | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
| Scrapingdog | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Newsdata.io | ✅ | ✅ | ✅ | ✅ | ✅ | ✅(高级版) | ✅ | ✅ | ✅(高级版) |
这里最突出的点是:Thunderbit 可以通过子页面抓取提取全文,同时还能在同一次流程里加入情绪之类的 AI 增强字段。Newsdata.io 也提供情绪和全文,但它是通过专门的新闻 API,而不是抓取 Google 新闻。大多数 SERP API 只会返回你在 Google 新闻列表页上能直接看到的内容——标题、摘要和链接。
标准化到每 1,000 条结果的成本
这就是我在评估工具时最想看到、却到处都找不到的那张表。每家厂商的定价口径都不同,所以我把所有方案统一折算成最低付费档下每 1,000 个成功结果的成本。
| 工具 | 免费额度 | 最低付费方案 | 每 1K 结果约成本 | 备注 |
|---|---|---|---|---|
| Thunderbit | 6 页免费 / 试用:10 页 | 约从 $9/月起(按积分计费) | ~$6–$30 | 1 积分 = 1 行;含 AI 提取 |
| SerpApi | 每月 250 次搜索 | $75/月(5,000 次搜索) | ~$15 | 结构化 JSON,Google 新闻端点 |
| ScraperAPI | 每月 1,000 积分 | $49/月(10 万积分) | ~$0.49 | 没有专用 Google 新闻解析器 |
| Apify | 7 天试用 | $49/月 | 因情况而异 | 取决于 Actor 和算力 |
| Bright Data | 1K 试用请求 | 按量付费 | ~$1.30–$2.50 | 企业级,提供数据集选项 |
| Octoparse | 免费方案(有限) | $69/月 | ~$9–$25 | 云模板:基础价 $0.1/1K 行 |
| ScrapingBee | 试用积分 | $49/月 | 因 JS 渲染而异 | 基于积分,没有专用解析器 |
| Oxylabs | 最多 2,000 条结果 | Micro 方案 | ~$1.00–$2.35 | 支持地区定向,结构化 JSON |
| Scrapingdog | 1,000 积分 | $40/月 | ~$0.10 | 预算优选,专用 News 端点 |
| Newsdata.io | 每天 200 次请求 | $99.99/月 | 因方案而异 | 不直接抓取 Google;带 NLP 功能 |
有几点结论很明确。Scrapingdog 的单次请求成本是最便宜的,但它只返回 SERP 层级数据(没有全文)。Bright Data 和 Oxylabs 成本处于中档,但反爬基础设施最强。Thunderbit 按行计算比最便宜的 API 更贵,但它是唯一一个能让你不写代码就同时拿到全文提取和 AI 增强的工具。
该选哪款 Google 新闻爬虫?
按场景给你的建议:
- 只需要标题做监控,预算很低? → Scrapingdog 或 Newsdata.io 免费额度
- 非技术用户,需要全文 + 数据增强? →
- 开发者,正在搭建结构化新闻管道? → SerpApi(字段覆盖最好)或 Scrapingdog(价格最好)
- 企业级、高频、按地区定向? → Bright Data 或 Oxylabs
- 想要可视化桌面流程? → Octoparse
- 需要超出 Google 新闻范围、并且带 NLP 功能的新闻数据? → Newsdata.io
- 想要最便宜的通用代理/渲染层? → ScraperAPI
选对工具取决于三个因素:你的技术水平、你的数据量需求,以及你只要标题还是需要全文。如果你不确定,先从免费额度开始——这些工具大多都有——看看它的数据质量是否符合你的具体场景。
如果你想先走最快的无代码路径,Thunderbit 的 可以让你在几次点击内抓取 Google 新闻结果,并直接导出到 Google Sheets 或 Airtable。想看演示的话,可以看看我们的 或 。
愿你的标题永远结构化,你的 CAPTCHA 尽可能少,你的导出永远干净。
常见问题
Google 有官方的 News API 吗?
没有。Google 在 2011 年 ,而且从未推出替代品。最接近的官方方案是 Custom Search JSON API,它每天提供 100 次免费查询,并按每 1,000 次查询 5 美元收费,但它需要配置自定义搜索引擎,也不是专门的 Google 新闻产品。如今任何自称“Google News API”的工具,本质上都是第三方服务。
我可以用 Google 新闻 RSS 源替代爬虫吗?
可以,用于简单场景。Google 新闻 RSS 源可以免费提供标题和链接,但结果数大约只有 100 条,没有全文,而且筛选能力很有限。如果你需要更丰富的数据——全文、作者名、情绪分析,或者超过 100 条结果——你就需要这份名单里的专用爬虫或 API。
怎么从 Google 新闻结果中拿到全文?
Google 新闻列表页只展示标题和摘要。要获取全文,你需要一个会继续访问文章链接并提取页面内容的工具。Thunderbit 的子页面抓取会在抓取 Google 新闻列表页后自动完成这一步。像 Newsdata.io 这样的 API 工具在高级方案里也提供全文。大多数 SERP API(SerpApi、Scrapingdog、Oxylabs)只会返回列表页上可见的内容。
抓取 Google 新闻合法吗?
抓取公开可见的数据,在美国法律下通常不被视为未经授权访问(参见 ),但这并不等于政策上就没风险。Google 的服务条款不鼓励自动化查询,而且当它检测到像机器人一样的流量时,会主动返回 。用户应只使用公开可获取的数据,尊重文章正文的版权,并在商业级使用场景下咨询法律顾问。
Google 新闻爬虫最常见的失效原因是什么?
通常的元凶包括自动查询检测(CAPTCHA 和 429 错误)、本地化漂移(不同国家/语言的结果不同)、同意页和中间页、新闻卡片布局的标记变化,以及重定向 URL 规范化。最稳定的数据层是文章元数据(标题、来源、日期、URL)。最不稳定的是展示层——故事聚类、缩略图和板块组织都会频繁变化。
了解更多