你是否曾經需要從多個網站收集產品信息和價格數據,並將它們整理到 Excel 表格中?手動瀏覽和整理這些信息不僅耗時費力,還容易出錯。為了解決這個問題,我們將探討一些最簡單且最有效的方法,將網站數據直接導入 Excel,這些方法適合初學者和進階用戶。
使用無需編碼的網頁爬蟲工具
對於不想編碼的用戶,像 這樣的無需編碼的網頁爬蟲工具可以幫助你從網站抓取數據到 Excel,而不需要任何編程。這些工具旨在簡化過程,允許用戶通過可視化方式定義數據提取規則,而不需要編程技能。
Thunderbit 使用先進的自然語言模型來理解網站佈局和內容,而不依賴於固定的選擇器。然而,大多數工具使用拖放功能和可自定義模板,要求用戶學習數小時才能設置和自動化網頁抓取任務。
此外,你可以一鍵將數據導出到 Google Sheets、Airtable 或 Notion,不僅僅是 Excel。
使用 Thunderbit 收集產品數據的 3 個步驟
步驟 1:打開網站並在側邊欄中點擊“人工智慧網頁爬蟲”。
在你的瀏覽器上輕鬆安裝 Thunderbit 後,打開你想要抓取的網站,並在 Thunderbit 側邊欄中找到“人工智慧網頁爬蟲”選項。
步驟 2:使用 AI 協助自定義你想提取的數據字段。
當你使用“AI 建議列”功能時,將自動生成一個爬蟲模板。然後,你可以在 AI 的支持下編輯此模板以滿足你的需求。你將有選擇保存數據的位置——無論是將其作為表格輸出以供複製,還是保存到其他平台。
步驟 3:將抓取的數據導出到 Excel
在你檢查完所有數據字段後,運行爬蟲。你可以複製或下載抓取的數據並將其導入 Excel。
使用 Excel 網頁查詢
Excel 有一個內建功能叫做網頁查詢,允許用戶直接從網頁提取數據。這種方法特別適合從網站導入結構化的表格數據,並允許你通過定期更新來保持數據的相關性。然而,請注意,這個功能僅在 Windows 版本的 Excel 上可用。
使用 Excel 網頁查詢收集產品數據的步驟:
- 打開 Excel:啟動一個新工作簿並導航到 數據 標籤。
- 選擇“從網頁”:點擊“獲取外部數據”並選擇“從網頁”。
- 輸入 URL:輸入你想抓取的網站地址並點擊確定。
- 選擇數據:Excel 會顯示頁面上找到的表格。選擇所需的表格並點擊加載。
- 檢查輸出:你可以指定將數據加載到工作簿中的位置,並查看它是否符合你的需求。
探索 Thunderbit 如何不僅僅是抓取數據。使用 AI 來抓取、總結和自動填充網頁。。
使用 Excel VBA 進行自定義抓取
對於有編程知識的人來說,使用 VBA(Visual Basic for Applications)可以進行更複雜的抓取任務。VBA 是一種集成在 Microsoft Office 應用程序中的編程語言,包括 Excel。此功能僅在 Windows 版本的 Excel 中可用。
使用 Excel VBA 收集產品數據的步驟:
- 啟用開發者選項卡:
- 打開 Excel,點擊“Excel”>“偏好設置”>“查看”。
- 在底部窗格中勾選“開發者”選項。
- 添加引用:
- 在開發者選項卡中,點擊“Visual Basic”以打開 VBA 編輯器。
- 轉到“工具”>“引用”並勾選以下選項:
- Microsoft Internet Controls
- Microsoft HTML Object Library
- 編寫 VBA 代碼進行數據提取
- 點擊“插入”>“模塊”
- 在編輯器中編寫 VBA 代碼。
這是一個從 Amazon 產品頁面提取產品標題、價格和可用性的基本示例:
Sub ScrapeAmazonPage()
Dim IE As Object
Dim html As Object
Dim productTitle As String
Dim productPrice As String
Dim productRating As String
' 創建 Internet Explorer 對象
Set IE = CreateObject("InternetExplorer.Application")
' 導航到 Amazon 產品頁面
IE.Visible = True
IE.navigate "Put Your URL Here"
' 等待頁面加載
Do While IE.Busy Or IE.readyState <> 4
DoEvents
Loop
' 獲取 HTML 文檔
Set html = IE.document
' 提取產品標題
On Error Resume Next
productTitle = html.getElementById("productTitle").innerText
On Error GoTo 0
' 提取產品價格
On Error Resume Next
productPrice = html.getElementsByClassName("a-price-whole")(0).innerText
On Error GoTo 0
' 提取產品評分
On Error Resume Next
productRating = html.getElementsByClassName("a-icon-alt")(0).innerText
On Error GoTo 0
' 將提取的數據輸出到 Excel
With ThisWorkbook.Sheets(1)
.Cells(1, 1).Value = "產品標題"
.Cells(1, 2).Value = "價格"
.Cells(1, 3).Value = "評分"
.Cells(2, 1).Value = productTitle
.Cells(2, 2).Value = productPrice
.Cells(2, 3).Value = productRating
End With
' 清理
IE.Quit
Set IE = Nothing
Set html = Nothing
End Sub
- 運行並測試 VBA 腳本
- 在 Visual Basic 編輯器中運行你的腳本,或將腳本分配給 Excel 表中的按鈕。
- 檢查 Excel 表中的數據輸出,確保其格式符合預期。
讓 AI 處理你的數據抓取,無需編碼的麻煩。釋放你的時間,專注於重要的事情。探索我們的 的強大功能!
常見問題
-
什麼是網頁抓取,為什麼它有用?
網頁抓取是從網站收集數據並將其組織成表格等格式。它對於從多個來源收集信息(如產品價格)非常有用,便於比較和分析。
-
Thunderbit 如何運作?
Thunderbit 允許無需編碼的數據提取。使用可視化界面,用戶可以選擇要抓取的數據字段,然後工具自動化這一過程,簡化數據收集。
-
除了 Excel,Thunderbit 還能將數據導出到其他平台嗎?
是的,Thunderbit 支持將數據導出到 Google Sheets、Airtable 和 Notion 等平台,讓數據管理不僅限於 Excel。
-
為什麼網頁查詢數據不會自動刷新?
確保在 Excel 的 數據 標籤下啟用了“全部刷新”選項。你可以通過選擇 查詢和連接 下的“連接屬性”設置自動刷新間隔。
-
為什麼 VBA 代碼無法正常運行?
確保你已啟用開發者選項卡並選擇了所需的引用(Microsoft Internet Controls 和 HTML Object Library)。
了解更多: