数据是一种宝贵的资源,比系统本身更持久。
- ,计算机科学家和万维网的发明者
每天,谷歌处理 次搜索:这些不仅仅是日常问题的答案,它们是洞察市场趋势、竞争对手活动和消费者数据的金矿。无论你是销售人员、 专家,还是营销人员,你都可以从中提取有价值的见解,并将其转化为可执行的商业策略。
还在用老旧的复制粘贴方法收集这些数据吗?是时候告别它了。
在本文中,我们将探讨什么是谷歌 SERP,它包含哪些有价值的数据,并向你介绍三种使用谷歌 SERP 爬虫的方法,包括最易用的无代码 AI 网页爬虫 。
什么是谷歌搜索结果页面(SERP)?
(搜索引擎结果页面)是你在搜索引擎如 、或 中输入搜索关键词后看到的内容。它是所有流量的入口,是你点击任何链接或页面之前的第一站。
SERP 的一个关键特征是它由实时数据驱动:算法更新、新的 SERP 功能、关键词趋势和网站内容的变化都可能影响搜索结果。此外,搜索引擎会根据你的搜索历史和位置个性化结果,这意味着即使在同一时间,不同的人可能会看到不同的 SERP。可以想象,这使得非技术人员很难有效地从这些非结构化网页中提取数据。
谷歌占据了全球搜索引擎市场份额的 以上,了解谷歌 SERP 结果的结构以及如何利用它们对于商业成功至关重要。
谷歌 SERP 包含哪些数据?
谷歌 SERP 的结构
根据搜索查询的性质,谷歌 SERP 的结构可能会有所不同。通常,它包括三个主要部分:
-
付费结果:这些是标有“广告”或“赞助”的搜索结果。网站支付谷歌费用以出现在自然结果的上方或下方。根据用户的查询,赞助广告可能不会出现在每个 SERP 上。根据 ,2023 年谷歌的广告收入达到 2645.9 亿美元。
-
自然结果:这些是基于相关性和页面排名显示的未付费搜索结果。每个结果包括一个标题、元描述和 URL。
-
SERP 功能:这些是谷歌为增强用户体验而引入的功能,并且不断演变。它们包括精选摘要、AI 概述、People Also Ask 框(PAA)、知识面板、本地包(针对地理位置的搜索)、视频、图片和购物结果。
数据类型
了解 SERP 的结构可以让你了解可以提取的信息类型,包括但不限于:
- 广告
- 标题
- URL
- 元描述
- PAA 框
- 购物信息:价格、图片
- 邮箱
- 电话号码
你可以用 SERP 数据做什么
销售
通过使用精确的搜索查询,销售团队可以高效地生成潜在客户并发现其他人可能错过的销售机会。谷歌可以帮助从社交平台提取潜在客户信息,包括电子邮件和电话号码,为销售团队提供有价值的联系信息。我们将在下文中提供使用 SERP 从 Instagram 提取销售线索的详细指南。
市场研究
SERP 结果可以帮助营销人员更高效地工作。例如,在竞争对手分析中,通过抓取竞争对手的广告和产品信息,营销人员可以了解他们的策略并优化自己的广告和营销策略。
SERP 也是市场趋势的预测者。分析 SERP 中的关键词趋势可以揭示新兴的市场机会。某些关键词搜索量的突然增加可能表明新的市场机会。例如,如果你经营一家服装店,并注意到“可持续时尚”的搜索量上升,可能是时候在你的库存中添加符合这一趋势的产品了。
SEO 分析
SERP 是 SEO 专家的基础。通过分析 SERP 数据,他们可以调整关键词策略并优化网站内容以提高搜索引擎排名。
以 PAA 为例。通过抓取这些相关问题并分析其变化,你可以识别用户可能感兴趣的其他问题,从而优化你的网站内容。
内容分析
对于记者来说,抓取谷歌新闻结果可以帮助分析趋势并了解公众感兴趣的话题,从而指导内容制作。你可以在我们的指南中找到使用网页爬虫提取文章的详细信息。
如何抓取谷歌搜索结果页面
现在你了解了 SERP 数据的用途,下一个问题是:我们如何收集它?
手动复制粘贴是一种选择,但对于处理大量数据来说并不实用。随着技术的进步,尤其是 AI 的发展,我们可以使用网页爬虫来收集大量数据。以下是三种自动化方法:
使用 Thunderbit AI 网页爬虫
是一款无代码 AI 网页爬虫,可以帮助你从网站中提取所需的任何内容。你可以使用我们的或自行定制列。让我们以销售用例 潜在客户生成 为例,提供使用 Thunderbit 寻找合格潜在客户的分步指南。
-
步骤 1:将 Thunderbit 添加为 Chrome 扩展程序,并使用你的 Google 帐户或其他电子邮件登录。
-
步骤 2:插入你的搜索查询。
为了缩小搜索结果范围, 可以派上用场。
例如,这是由 生成的搜索查询,用于在 Instagram 上查找与洛杉矶健身房相关的人的电子邮件:
site:instagram.com ("gym" OR "fitness" OR "trainer") AND ("email" OR "@" OR “@gmail.com“ or ”@yahoo.com“ ) AND ("Los Angeles" OR "LA" OR "California")
在谷歌中插入搜索查询并按下回车键——现在你可以在返回的结果中看到你想要的所有信息。
-
步骤 3:启动 Thunderbit 并抓取
使用自然语言描述你想要抓取的内容类型(你也可以点击“添加列详细说明”以添加更多描述)。选择将其导出为表格或直接导出到 Notion、Airtable 或 Google Sheets。
请记住,Thunderbit 使用 AI 帮助你抓取。因此,即使某些电子邮件与 Google SERP 页面上的其他文本混合在一起,AI 也能准确地为你提取电子邮件。
点击抓取按钮,等待结果!
使用传统网页爬虫
传统网页爬虫也可以帮助你批量提取谷歌 SERP 数据。以下是使用 WebScraper.io 抓取 SERP 的方法:
- 安装 Web Scraper 扩展程序并打开 Chrome 开发者工具。
- 点击“创建新站点地图”,并将起始 URL 设置为你的谷歌搜索结果页面。
- 配置选择器以选择特定数据。
选择器名称 | 类型 | 选择器 | 多个? |
---|---|---|---|
name | 文本 | 选择用户的姓名 | 否 ❌ |
profile | 文本 | 选择此页面上的元描述 | 否 ❌ |
-
运行爬虫并导出数据。
-
在抓取个人简介后,你仍需使用正则表达式公式从 Excel 中提取电子邮件:
text=REGEXEXTRACT(A2,"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}")
(假设 A2 包含你的个人简介文本)
这将帮助你提取你想要获取的任何电子邮件地址。
显然,这种方法的缺点是你需要一些网页结构知识,并且如果网站发生变化(这很可能在一天内发生),你需要重新配置选择器。
使用谷歌官方 API 或第三方 SERP API
谷歌提供了一个名为 的官方 API,允许你以编程方式访问谷歌的搜索结果页面。你需要创建和设置你的,获取 API 密钥,并使用 Python 的 requests 库发出请求。然而,你只能获取他们提供的内容,并且访问量严格受限。如果你想要个性化定制,这种方法可能不适用。
更常见的选择是使用第三方 SERP 爬虫 API(如 Zen SERP、SerpApi、ScrapingBee)来处理。这也涉及复杂的设置和请求过程。安装后,你需要编写代码以获取所有相关的 Instagram 个人资料 URL,然后从个人简介部分提取电子邮件。这对于缺乏编码知识的商业人士来说可能相当复杂。
import requests
from bs4 import BeautifulSoup
import re
# SerpApi 凭证
SERP_API_KEY = "your_serpapi_key"
SEARCH_QUERY = "marketing consultant site:instagram.com"
# 步骤 1:从 SerpApi 获取 Instagram 个人资料 URL
def get_instagram_profiles(query):
url = "https://serpapi.com/search"
params = {
"engine": "google",
"q": query,
"api_key": SERP_API_KEY
}
response = requests.get(url, params=params)
data = response.json()
profile_urls = []
for result in data.get("organic_results", []):
link = result.get("link")
if "instagram.com" in link:
profile_urls.append(link)
return profile_urls
# 步骤 2:从 Instagram 个人简介部分提取电子邮件
def extract_email_from_bio(profile_url):
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(profile_url, headers=headers)
if response.status_code != 200:
return None
soup = BeautifulSoup(response.text, "html.parser")
bio_section = soup.find("meta", attrs={"name": "description"})
if bio_section:
bio_content = bio_section.get("content", "")
emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", bio_content)
return emails if emails else None
return None
# 示例用法
if __name__ == "__main__":
profiles = get_instagram_profiles(SEARCH_QUERY)
print("找到的 Instagram 个人资料:", profiles)
for profile in profiles:
emails = extract_email_from_bio(profile)
if emails:
print(f"在 {profile} 中找到的电子邮件:{emails}")
else:
print(f"在 {profile} 中未找到电子邮件")
比较这三种方法
需要一种简单快捷的方法来获取数据而无需技术背景?→ 选择
想要完全控制数据字段并具备一些 HTML/CSS 知识?→ 选择传统网页爬虫
需要以较低成本访问数百万个数据点并有技术专家在手?→ 选择第三方 SERP API
谷歌爬虫是否合法?
谈到网页抓取,合法性是一个常见的关注点。?简短的回答是:视情况而定。网页抓取的法律地位因司法管辖区、抓取目的、服务条款和被抓取的内容而异。换句话说,没有单一的答案。
谷歌的禁止自动抓取以访问其任何服务。也就是说,一般的法律框架是。抓取的目的(商业或非营利)也对其合法性有重大影响。
为了确保你的抓取活动是合乎道德和合法的,我们建议你仔细阅读服务条款,抓取公开可用的数据,并避免将抓取的信息用于非法目的。对于大规模抓取,考虑寻求法律专业人士的建议。
结论
数据是“”,而谷歌 SERP 是一个未开发的金矿。那些能够快速将 SERP 数据转化为可执行策略的人将在快速变化的市场中获得竞争优势。潜在客户生成、市场研究和搜索引擎优化是 SERP 数据的典型应用。
根据你的技术背景、预算、数据规模和应用场景,我们向你介绍了尖端的 AI 网页爬虫 Thunderbit、传统网页爬虫和 SERP API。
如果你是一位希望一键抓取所有结果的商业人士,Thunderbit 无疑是你的最佳选择——你还在等什么?。
常见问题
1. 我可以从谷歌搜索结果页面(SERP)中提取哪些类型的数据?
你可以提取包括标题、URL、元描述、广告、精选摘要、购物信息(如价格和图片)、People Also Ask 问题、电子邮件、电话号码等在内的广泛数据。
2. Thunderbit 与传统网页爬虫或 SERP API 有何不同?
是一款无代码、AI 驱动的 Chrome 扩展程序,允许你使用自然语言提取结构化数据——无需配置选择器或编写代码。传统爬虫需要技术设置,API 涉及编码并有数据访问限制。
3. 我需要技术知识才能使用 Thunderbit 抓取谷歌搜索结果吗?
不需要。Thunderbit 专为非技术用户设计。你只需用简单的语言描述你想要的数据,AI 就会为你处理提取。
4. 我可以将抓取的数据导出到 Google Sheets 或 Notion 等工具吗?
可以。Thunderbit 允许直接导出到 Google Sheets、Airtable、Notion 或作为可下载的表格——让你可以立即使用数据。
5. 抓取谷歌 SERP 数据有哪些实际应用场景?
常见的应用场景包括潜在客户生成、竞争对手研究、SEO 分析、趋势发现和内容规划。例如,销售团队可以找到联系信息,营销人员可以分析广告投放,SEO 可以跟踪关键词表现和相关查询。