你是否曾经需要从多个网站收集产品信息和价格数据,并将它们整理到 Excel 表格中?手动浏览和整理这些信息不仅耗时费力,还容易出错。为了解决这个问题,我们将探讨一些最简单且有效的方法,将网站数据直接导入 Excel,提供适合初学者和高级用户的选项。
使用无代码网页爬虫工具
对于不想编程的用户来说,无代码网页爬虫工具如 可以帮助你无需编程就能将网站数据抓取到 Excel。这些工具通过允许用户以可视化方式定义数据提取规则,简化了整个过程,无需编程技能。
Thunderbit 利用先进的自然语言模型来理解网站布局和内容,而不依赖固定选择器。然而,大多数工具使用拖放功能和可定制模板,用户需要花费数小时学习才能设置和自动化网页抓取任务。
此外,你可以一键将数据导出到 Google Sheets、Airtable 或 Notion,而不仅仅是 Excel。
使用 Thunderbit 收集产品数据的 3 个步骤
步骤 1:打开网站并在侧边栏中点击“AI 网页爬虫”。
在浏览器上轻松安装 Thunderbit 后,打开你想抓取的网站,并在 Thunderbit 侧边栏中找到“AI 网页爬虫”选项。
步骤 2:在 AI 的帮助下自定义你想提取的数据字段。
使用“AI 建议列”功能时,会自动生成一个爬虫模板。然后,你可以在 AI 的支持下编辑此模板以满足你的需求。你可以选择将数据保存到哪里——无论是输出为可复制的表格,还是保存到其他平台。
步骤 3:将抓取的数据导出到 Excel
在检查所有数据字段后,运行爬虫。你可以复制或下载抓取的数据并导入到 Excel 中。
使用 Excel 网页查询
Excel 有一个内置功能叫做网页查询,允许用户直接从网页提取数据。这种方法特别适合从网站直接导入结构化的表格数据,并允许你通过定期更新保持数据的相关性。但请注意,此功能仅在 Windows 版本的 Excel 上可用。
使用 Excel 网页查询收集产品数据的步骤:
- 打开 Excel:启动一个新工作簿并导航到 数据 选项卡。
- 选择“从网页”:点击“获取外部数据”并选择“从网页”。
- 输入网址:输入你想抓取的网站地址并点击确定。
- 选择数据:Excel 将显示页面上找到的表格。选择所需的表格并点击加载。
- 检查输出:你可以指定将数据加载到工作簿中的位置,并查看是否符合你的需求。
探索 Thunderbit 如何不仅仅是抓取数据。使用 AI 来抓取、总结和自动填充网页。。
使用 Excel VBA 进行自定义抓取
对于有编程知识的人来说,使用 VBA(Visual Basic for Applications)可以进行更复杂的抓取任务。VBA 是集成在 Microsoft Office 应用程序中的编程语言,包括 Excel。此功能仅在 Windows 版本的 Excel 上可用。
使用 Excel VBA 收集产品数据的步骤:
- 启用开发者选项卡:
- 打开 Excel,点击“Excel”>“偏好设置”>“视图”。
- 在底部窗格中勾选“开发者”选项。
- 添加引用:
- 在开发者选项卡中,点击“Visual Basic”以打开 VBA 编辑器。
- 转到“工具”>“引用”并勾选以下选项:
- Microsoft Internet Controls
- Microsoft HTML Object Library
- 编写用于数据提取的 VBA 代码
- 点击“插入”>“模块”
- 在编辑器中编写 VBA 代码。
这是一个从亚马逊产品页面提取产品标题、价格和可用性的基本示例:
Sub ScrapeAmazonPage()
Dim IE As Object
Dim html As Object
Dim productTitle As String
Dim productPrice As String
Dim productRating As String
' 创建 Internet Explorer 对象
Set IE = CreateObject("InternetExplorer.Application")
' 导航到亚马逊产品页面
IE.Visible = True
IE.navigate "Put Your URL Here"
' 等待页面加载
Do While IE.Busy Or IE.readyState <> 4
DoEvents
Loop
' 获取 HTML 文档
Set html = IE.document
' 提取产品标题
On Error Resume Next
productTitle = html.getElementById("productTitle").innerText
On Error GoTo 0
' 提取产品价格
On Error Resume Next
productPrice = html.getElementsByClassName("a-price-whole")(0).innerText
On Error GoTo 0
' 提取产品评分
On Error Resume Next
productRating = html.getElementsByClassName("a-icon-alt")(0).innerText
On Error GoTo 0
' 将提取的数据输出到 Excel
With ThisWorkbook.Sheets(1)
.Cells(1, 1).Value = "产品标题"
.Cells(1, 2).Value = "价格"
.Cells(1, 3).Value = "评分"
.Cells(2, 1).Value = productTitle
.Cells(2, 2).Value = productPrice
.Cells(2, 3).Value = productRating
End With
' 清理
IE.Quit
Set IE = Nothing
Set html = Nothing
End Sub
- 运行并测试 VBA 脚本
- 在 Visual Basic 编辑器中运行你的脚本,或将脚本分配给 Excel 表中的按钮。
- 检查 Excel 表中的数据输出,确保其格式符合预期。
让 AI 处理你的数据抓取,无需编程的麻烦。腾出时间专注于重要的事情。发现我们 的强大功能!
常见问题
-
什么是网页抓取,为什么它有用?
网页抓取是从网站收集数据并将其组织成表格等格式。它有助于从多个来源收集信息,如产品价格,便于比较和分析。
-
Thunderbit 如何工作?
Thunderbit 允许无需编程即可提取数据。用户可以使用可视化界面选择要抓取的数据字段,工具会自动化数据收集,简化流程。
-
除了 Excel,Thunderbit 还能将数据导出到其他平台吗?
是的,Thunderbit 支持将数据导出到 Google Sheets、Airtable 和 Notion 等平台,提供了超越 Excel 的数据管理灵活性。
-
为什么网页查询数据没有自动刷新?
确保在 Excel 的 数据 选项卡下启用了“全部刷新”选项。你可以通过在 查询和连接 下选择“连接属性”来设置自动刷新间隔。
-
为什么 VBA 代码无法正常运行?
确保你已启用开发者选项卡并选择了所需的引用(Microsoft Internet Controls 和 HTML Object Library)。
了解更多: