Kuasai Web Scraping n8n: Workflow Otomasi

Terakhir diperbarui pada April 14, 2026

Beberapa bulan lalu, salah satu pengguna kami mengirim screenshot workflow n8n dengan 14 node, setengah lusin sticky note, dan subjek email yang cuma bertuliskan: "Help." Mereka sudah ngikutin tutorial web scraping n8n yang populer, berhasil menjalankan demo 10 baris data di situs uji coba, lalu mencoba mengekstrak harga kompetitor asli dari 200 halaman produk. Hasilnya? Loop pagination rusak, tembok error 403, dan scheduler yang diam-diam berhenti jalan setelah Selasa pertama.

Kesenjangan itu β€” antara demo dan pipeline produksi β€” adalah tempat sebagian besar proyek scraping di n8n gagal. Saya sudah bertahun-tahun membangun dan bekerja di bidang otomasi, dan saya bisa bilang: bagian scraping-nya jarang jadi masalah utama. Justru semua yang terjadi setelah scraping pertama yang sukses itulah yang sering menjatuhkan orang. Pagination, penjadwalan, penanganan anti-bot, pembersihan data, ekspor, dan β€” yang paling besar β€” maintenance saat situs mengubah layout untuk ketiga kalinya kuartal ini. Panduan ini membahas seluruh pipeline, mulai dari HTTP Request node pertama hingga workflow web scraping n8n yang berjalan berkala dan siap produksi. Dan saat pendekatan DIY n8n mentok, saya akan tunjukkan bagaimana tools berbasis AI seperti Thunderbit bisa menghemat berjam-jam bahkan berhari-hari rasa frustrasi.

Apa Itu Web Scraping n8n (dan Kenapa Kebanyakan Tutorial Baru Menggores Permukaannya)

n8n adalah platform automasi workflow open-source dan low-code. Anggap saja seperti kanvas visual tempat Anda menghubungkan "node" β€” masing-masing menjalankan tugas tertentu (mengambil halaman web, mem-parsing HTML, mengirim pesan Slack, menulis ke Google Sheets) β€” lalu merangkainya menjadi workflow otomatis. Tidak perlu coding berat, meski Anda bisa menambahkan JavaScript saat dibutuhkan.

"Web scraping n8n" berarti memakai HTTP Request dan HTML node bawaan n8n (plus community node) untuk mengambil, mem-parsing, dan memproses data website di dalam workflow otomatis tersebut. Intinya ada dua langkah: Fetch (HTTP Request node mengambil HTML mentah dari sebuah URL) dan Parse (HTML node memakai CSS selector untuk mengekstrak data yang Anda butuhkan β€” nama produk, harga, email, apa pun).

Platform ini sangat besar: per April 2026, n8n punya , lebih dari 230.000 pengguna aktif, 9.166+ template workflow komunitas, dan merilis minor update baru kira-kira setiap minggu. Pada Maret 2025, mereka juga menggalang . Momentum-nya memang besar.

Tapi ada satu celah yang jarang dibicarakan. Tutorial scraping n8n paling populer di dev.to (oleh Lakshay Nasa, dipublikasikan di bawah organisasi "Extract by Zyte") menjanjikan pagination di "Part 2." Part 2 memang muncul β€” dan kesimpulan penulisnya justru: "N8N memberi kita Pagination Mode bawaan di HTTP Request node di bawah Options, dan meskipun terdengar praktis, dalam pengalaman saya tidak bekerja dengan andal untuk kasus web scraping pada umumnya." Akhirnya penulis mengalihkan pagination ke API pihak ketiga berbayar. Sementara itu, pengguna forum n8n terus menyebut "pagination, throttling, login" sebagai titik saat scraping n8n "mulai jadi rumit dengan cepat." Panduan ini dibuat untuk menutup celah itu.

Kenapa Web Scraping n8n Penting untuk Tim Sales, Operasional, dan Ecommerce

Web scraping n8n bukan sekadar hobi developer. Ini alat bisnis. berada di kisaran $1–1,3 miliar pada 2025 dan diproyeksikan naik ke $2–2,3 miliar pada 2030. Harga dinamis saja dipakai oleh sekitar , dan kini mengandalkan alternative data β€” banyak di antaranya diambil dari web. McKinsey melaporkan bahwa dynamic pricing memberi bagi para penggunanya.

Di sinilah kekuatan asli n8n terlihat: bukan cuma soal mengambil data. Tetapi apa yang terjadi setelahnya. n8n memungkinkan Anda merangkai scraping dengan aksi lanjutan β€” update CRM, notifikasi Slack, ekspor spreadsheet, analisis AI β€” dalam satu workflow.

Use CaseSiapa yang DiuntungkanApa yang DiscrapeHasil Bisnis
Lead generationTim salesDirektori bisnis, halaman kontakMengisi CRM dengan lead berkualitas
Pemantauan harga kompetitorOperasional ecommerceHalaman daftar produkMenyesuaikan harga secara real time
Pelacakan listing propertiAgen propertiZillow, Realtor, situs MLS lokalMenangkap listing baru sebelum kompetitor
Riset pasarTim marketingSitus ulasan, forum, beritaMengidentifikasi tren dan sentimen pelanggan
Pemantauan stok vendor/SKUOperasional supply chainHalaman produk supplierMencegah kehabisan stok, mengoptimalkan pembelian

Datanya menunjukkan ROI-nya nyata: berencana meningkatkan investasi AI pada 2025, dan automated lead nurturing terbukti dalam sembilan bulan. Kalau tim Anda masih copy-paste dari website ke spreadsheet, berarti Anda sedang membiarkan uang lewat begitu saja.

Toolbox Web Scraping n8n: Node Inti dan Solusi yang Tersedia

Sebelum membangun apa pun, Anda perlu tahu isi toolbox-nya. Berikut node n8n penting untuk web scraping:

  • HTTP Request node: Mengambil HTML mentah dari URL mana pun. Bekerja seperti browser yang meminta halaman, tetapi mengembalikan kode sumber alih-alih merendernya. Mendukung GET/POST, headers, batching, dan (secara teori) pagination bawaan.
  • HTML node (sebelumnya "HTML Extract"): Mem-parsing HTML dengan CSS selector untuk mengambil data spesifik β€” judul, harga, tautan, gambar, apa pun yang Anda perlukan.
  • Code node: Memungkinkan Anda menulis cuplikan JavaScript untuk pembersihan data, normalisasi URL, deduplikasi, dan logika kustom.
  • Edit Fields (Set) node: Menata ulang atau mengganti nama field data untuk node berikutnya.
  • Split Out node: Memecah array menjadi item-item individual untuk diproses.
  • Convert to File node: Mengekspor data terstruktur ke CSV, JSON, dan lainnya.
  • Loop Over Items node: Melakukan iterasi pada daftar (krusial untuk pagination β€” akan dibahas di bawah).
  • Schedule Trigger: Menjalankan workflow Anda berdasarkan jadwal cron.
  • Error Trigger: Memberi notifikasi saat workflow gagal (penting untuk produksi).

Untuk scraping tingkat lanjut β€” situs dengan rendering JavaScript atau proteksi anti-bot yang berat β€” Anda akan butuh community node:

PendekatanPaling Cocok UntukTingkat KeahlianMendukung Situs dengan Rendering JSPenanganan Anti-Bot
n8n HTTP Request + HTML nodesSitus statis, APIPemula–MenengahTidakManual (headers, proxy)
n8n + community node ScrapeNinja/FirecrawlSitus dinamis/terlindungiMenengahYaBawaan (rotasi proxy, CAPTCHA)
n8n + Headless Browser (Puppeteer)Interaksi JS yang kompleksLanjutanYaSebagian (tergantung setup)
Thunderbit (AI Web Scraper)Semua situs, pengguna non-teknisPemulaYa (mode Browser atau Cloud)Bawaan (mewarisi sesi browser atau penanganan cloud)

Saat ini belum ada node headless-browser native di n8n v2.15.1. Setiap scraping situs yang dirender dengan JS memerlukan community node atau API eksternal.

Sedikit tentang Thunderbit: ini adalah bertenaga AI yang kami buat. Anda klik "AI Suggest Fields", lalu "Scrape", dan data terstruktur langsung didapat β€” tanpa CSS selector, tanpa konfigurasi node, tanpa maintenance. Saya akan tunjukkan di mana Thunderbit cocok dipakai (dan di mana n8n lebih tepat) sepanjang panduan ini.

Langkah demi Langkah: Membuat Workflow Web Scraping n8n Pertama Anda

Setelah toolbox-nya jelas, berikut cara membuat web scraper n8n yang berfungsi dari nol. Saya akan memakai halaman listing produk sebagai contoh β€” jenis halaman yang memang biasanya Anda scrape untuk pemantauan harga atau riset kompetitor.

Sebelum Mulai:

  • Tingkat kesulitan: Pemula–Menengah
  • Waktu yang dibutuhkan: ~20–30 menit
  • Yang Anda perlukan: n8n (self-hosted atau Cloud), URL target, browser Chrome (untuk mencari CSS selector)

Langkah 1: Buat Workflow Baru dan Tambahkan Manual Trigger

Buka n8n, klik "New Workflow", lalu beri nama yang deskriptif β€” misalnya "Competitor Price Scraper." Tarik node Manual Trigger. (Nanti akan kita upgrade ke scheduled trigger.)

Anda akan melihat satu node di kanvas, siap dijalankan saat Anda klik "Test Workflow."

Langkah 2: Ambil Halaman dengan HTTP Request Node

Tambahkan node HTTP Request dan hubungkan ke Manual Trigger. Atur metodenya ke GET dan masukkan URL target Anda (misalnya https://example.com/products).

Sekarang langkah penting yang sering dilewatkan tutorial: tambahkan header User-Agent yang realistis. Secara default, n8n mengirim axios/xx sebagai user agent β€” yang langsung terbaca sebagai bot. Di bawah "Headers", tambahkan:

Nama HeaderNilai
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, seperti Gecko) Chrome/124.0.0.0 Safari/537.36
Accepttext/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

Kalau Anda melakukan scraping banyak URL, aktifkan Batching (di bawah Options) dan atur waktu tunggu 1–3 detik antar request. Ini membantu menghindari rate limit.

Jalankan node-nya. Anda seharusnya melihat HTML mentah di panel output.

Langkah 3: Parsing Data dengan HTML Node

Hubungkan node HTML ke output HTTP Request. Atur operasinya ke Extract HTML Content.

Untuk menemukan CSS selector yang tepat, buka halaman target di Chrome, klik kanan data yang ingin Anda ambil (misalnya judul produk), lalu pilih "Inspect." Di panel Elements, klik kanan elemen HTML yang disorot dan pilih "Copy β†’ Copy selector."

Atur nilai ekstraksi seperti ini:

KeyCSS SelectorNilai yang Diambil
product_name.product-titleText
price.price-currentText
url.product-linkAttribute: href

Jalankan node. Anda seharusnya melihat tabel data terstruktur β€” nama produk, harga, dan URL β€” di output.

Langkah 4: Bersihkan dan Normalisasi dengan Code Node

Data hasil scraping mentah biasanya berantakan. Harga mungkin punya spasi berlebih, URL bisa bersifat relatif, dan field teks sering memiliki newline di akhir. Tambahkan node Code dan hubungkan ke node HTML.

Berikut cuplikan JavaScript sederhana untuk merapikannya:

1return items.map(item => {
2  const d = item.json;
3  return {
4    json: {
5      product_name: (d.product_name || '').trim(),
6      price: parseFloat((d.price || '').replace(/[^0-9.]/g, '')),
7      url: d.url && d.url.startsWith('http') ? d.url : `https://example.com${d.url}`
8    }
9  };
10});

Langkah ini penting untuk data berkualitas produksi. Kalau dilewati, spreadsheet Anda akan dipenuhi entri seperti "$ 29.99\n".

Langkah 5: Ekspor ke Google Sheets, Airtable, atau CSV

Hubungkan node Google Sheets (atau Airtable, atau Convert to File untuk CSV). Hubungkan akun Google Anda, pilih spreadsheet dan sheet, lalu petakan field dari output Code node ke header kolom Anda.

Jalankan seluruh workflow. Anda seharusnya melihat data yang bersih dan terstruktur masuk ke spreadsheet.

Catatan tambahan: ke Google Sheets, Airtable, Notion, dan Excel tanpa setup node apa pun. Kalau Anda tidak butuh rantai workflow penuh dan hanya ingin datanya saja, ini bisa jadi jalan pintas yang sangat berguna.

Bagian yang Sering Dilewatkan Tutorial n8n Web Scraping: Workflow Pagination Lengkap

Pagination adalah celah nomor 1 dalam konten scraping n8n β€” dan sumber frustrasi nomor 1 di forum komunitas n8n.

Ada dua pola pagination utama:

  1. Pagination berbasis klik / kenaikan URL β€” halaman seperti ?page=1, ?page=2, dan seterusnya.
  2. Infinite scroll β€” konten memuat saat Anda scroll ke bawah (bayangkan Twitter, Instagram, atau banyak katalog produk modern).

Pagination Berbasis Klik di n8n (Increment URL dengan Loop Node)

Opsi Pagination bawaan di menu Options pada HTTP Request node terdengar praktis. Dalam praktiknya, hasilnya tidak selalu andal. Penulis tutorial scraping n8n yang populer (Lakshay Nasa) mencobanya dan menulis: "it didn't behave reliably in my experience." Pengguna forum melaporkan hasil , , dan gagal mendeteksi halaman terakhir.

n8n-pagination-chain-workflow.webp

Pendekatan yang lebih andal: bangun daftar URL secara eksplisit di Code node, lalu iterasi dengan Loop Over Items.

Caranya:

  1. Tambahkan Code node yang menghasilkan URL halaman Anda:
1const base = 'https://example.com/products';
2const totalPages = 10; // atau deteksi secara dinamis
3return Array.from({length: totalPages}, (_, i) => ({
4  json: { url: `${base}?page=${i + 1}` }
5}));
  1. Hubungkan node Loop Over Items untuk mengiterasi daftar.
  2. Di dalam loop, tambahkan HTTP Request node (set URL ke {{ $json.url }}), lalu HTML node untuk parsing.
  3. Tambahkan Wait node (1–3 detik, dibuat acak) di dalam loop untuk menghindari rate limit 429.
  4. Setelah loop, kumpulkan hasil dan ekspor ke Google Sheets atau CSV.

Rangkaian lengkapnya: Code (membangun URL) β†’ Loop Over Items β†’ HTTP Request β†’ HTML β†’ Wait β†’ (kembali ke loop) β†’ Aggregate β†’ Export.

Satu hal yang perlu diwaspadai: node Loop Over Items punya di mana nested loop bisa melewatkan item tanpa peringatan. Kalau Anda melakukan pagination dan memperkaya subpage, uji dengan teliti β€” jumlah "done" bisa saja tidak sesuai dengan jumlah input.

Pagination Infinite Scroll: Kenapa Node Bawaan n8n Sering Kewalahan

Halaman infinite scroll memuat konten lewat JavaScript saat Anda menggulir. HTTP Request node hanya mengambil HTML awal β€” ia tidak bisa mengeksekusi JavaScript atau memicu event scroll. Anda punya dua opsi:

  • Gunakan community node headless browser (misalnya atau ) untuk merender halaman dan mensimulasikan scroll.
  • Gunakan scraping API (ScrapeNinja, Firecrawl, ZenRows) dengan rendering JS aktif.

Keduanya menambah kompleksitas yang cukup besar. Anda bisa menghabiskan 30–60+ menit setup per situs, ditambah maintenance berkelanjutan.

Cara Thunderbit Menangani Pagination Tanpa Konfigurasi

Saya memang bias, tapi perbedaannya sangat terasa:

Kemampuann8n (Workflow DIY)Thunderbit
Pagination berbasis klikSetup loop manual, increment URLOtomatis β€” mendeteksi dan mengikuti pagination
Halaman infinite scrollButuh headless browser + community nodeDukungan bawaan, tanpa konfigurasi
Usaha setup30–60 menit per situs2 klik
Halaman per batchBerurutan (satu per satu)50 halaman sekaligus (Cloud Scraping)

Kalau Anda melakukan scraping 200 halaman produk di 10 daftar yang dipaginasi, n8n akan menghabiskan satu sore penuh. Thunderbit hanya butuh sekitar dua menit. Ini bukan berarti n8n buruk β€” hanya alat yang berbeda untuk pekerjaan yang berbeda.

Pasang dan Lupakan: Pipeline Web Scraping n8n yang Dipicu Cron

Scraping sekali jalan memang berguna, tetapi kekuatan sebenarnya dari web scraping n8n adalah pengumpulan data otomatis yang berulang. Anehnya, hampir tidak ada tutorial scraping n8n yang membahas Schedule Trigger untuk scraping β€” padahal ini salah satu fitur yang paling sering diminta komunitas.

Membangun Pipeline Pemantauan Harga Harian

Ganti Manual Trigger Anda dengan node Schedule Trigger. Anda bisa memakai UI n8n ("Every day at 8:00 AM") atau ekspresi cron (0 8 * * *).

Rangkaian workflow lengkap:

  1. Schedule Trigger (setiap hari pukul 8 pagi)
  2. Code node (menghasilkan URL paginasi)
  3. Loop Over Items β†’ HTTP Request β†’ HTML β†’ Wait (meng-scrape semua halaman)
  4. Code node (membersihkan data, menormalkan harga)
  5. Google Sheets (menambahkan baris baru)
  6. IF node (apakah ada harga yang turun di bawah ambang?)
  7. Slack (kirim notifikasi jika ya)

Pasangkan workflow Error Trigger di sampingnya agar aktif setiap kali eksekusi gagal dan mengirim ping ke Slack. Kalau tidak, saat selector rusak (dan itu pasti akan terjadi), Anda baru tahu tiga minggu kemudian ketika laporan kosong.

Dua syarat yang sering tidak disadari:

  • n8n harus berjalan 24/7. Self-host di laptop tidak akan memicu scheduler saat tutup laptop. Gunakan server, Docker, atau n8n Cloud.
  • Setelah setiap edit workflow, matikan workflow lalu hidupkan lagi. n8n Cloud punya di mana scheduler diam-diam terlepas dari registrasi setelah ada edit, tanpa pesan error.

Membangun Pipeline Ekstraksi Lead Mingguan

Pola yang sama, target yang berbeda: Schedule Trigger (setiap Senin pukul 9 pagi) β†’ HTTP Request (direktori bisnis) β†’ HTML (ambil nama, telepon, email) β†’ Code (deduplikasi, rapikan format) β†’ push ke Airtable atau HubSpot.

n8n-vs-thunderbit-scheduled-scraping.webp

Beban maintenance adalah biaya yang jarang dibahas di sini. Kalau situs direktori mengubah layout, CSS selector Anda rusak dan workflow gagal tanpa suara. HasData memperkirakan dari waktu pembangunan awal harus dialokasikan untuk maintenance berkelanjutan per tahun pada pipeline berbasis selector apa pun. Begitu Anda merawat sekitar 20 situs, overhead-nya benar-benar terasa.

Thunderbit Scheduled Scraper: Alternatif Tanpa Kode

Thunderbit Scheduled Scraper memungkinkan Anda menjelaskan interval dengan bahasa biasa (misalnya "every Monday at 9 AM"), memasukkan URL, lalu klik "Schedule." Semuanya berjalan di cloud β€” tanpa hosting, tanpa ekspresi cron, tanpa de-registrasi diam-diam.

AspekWorkflow Terjadwal n8nThunderbit Scheduled Scraper
Setup jadwalEkspresi cron atau UI schedule n8nDijelaskan dengan bahasa biasa
Pembersihan dataButuh Code node manualAI membersihkan memberi label, dan menerjemahkan secara otomatis
Tujuan eksporPerlu node integrasiGoogle Sheets, Airtable, Notion, Excel (gratis)
Kebutuhan hostingSelf-hosted atau n8n CloudTidak ada β€” berjalan di cloud
Maintenance saat situs berubahSelector rusak, perlu perbaikan manualAI membaca situs dari awal setiap kali

Baris terakhir itulah yang paling penting. Pengguna forum mengatakannya dengan jelas: "kebanyakan baik-baik saja sampai sebuah situs mengubah layout-nya." Pendekatan berbasis AI dari Thunderbit menghilangkan rasa sakit itu karena tidak bergantung pada CSS selector tetap.

Saat Web Scraper n8n Anda Diblokir: Panduan Troubleshooting Anti-Bot

Diblokir adalah frustrasi nomor 1 setelah masalah pagination. Saran standar β€” "tambahkan header User-Agent" β€” manfaatnya nyaris seperti menutup lubang pintu dengan kain tipis saat badai.

Menurut Imperva 2025 Bad Bot Report, , dan di antaranya bersifat berbahaya. Vendor anti-bot (Cloudflare, Akamai, DataDome, HUMAN, PerimeterX) merespons dengan TLS fingerprinting, tantangan JavaScript, dan analisis perilaku. HTTP Request node n8n, yang bekerja di atas library Axios, menghasilkan TLS fingerprint non-browser yang khas dan mudah dikenali. Mengubah header User-Agent tidak akan membantu β€” hash sudah membocorkan identitas Anda bahkan sebelum header HTTP dibaca.

Pohon Keputusan Anti-Bot

Berikut kerangka troubleshooting yang sistematis β€” bukan sekadar "tambahkan User-Agent":

Request diblokir?

  • 403 Forbidden β†’ Tambahkan header User-Agent + Accept (lihat Langkah 2 di atas) β†’ Masih diblokir?
    • Ya β†’ Tambahkan rotasi residential proxy β†’ Masih diblokir?
      • Ya β†’ Pindah ke scraping API (ScrapeNinja, Firecrawl, ZenRows) atau community node headless browser
      • Tidak β†’ Lanjut
    • Tidak β†’ Lanjut
  • CAPTCHA muncul β†’ Gunakan scraping API dengan pemecahan CAPTCHA bawaan (misalnya )
  • Respons kosong (konten dirender JS) β†’ Gunakan community node headless browser atau scraping API dengan rendering JS
  • Rate limit (error 429) β†’ Aktifkan batching pada HTTP Request node, atur waktu tunggu 2–5 detik antar batch, kurangi concurrency

Satu hal lagi yang perlu diwaspadai: n8n punya di mana HTTP Request node tidak bisa men-tunnel HTTPS lewat proxy HTTP dengan benar. Library Axios gagal pada TLS handshake, padahal curl di container yang sama berjalan baik. Kalau Anda memakai proxy dan mendapat error koneksi yang aneh, kemungkinan inilah penyebabnya.

Kenapa Thunderbit Menghindari Sebagian Besar Masalah Anti-Bot

Thunderbit menawarkan dua mode scraping:

  • Browser Scraping: Berjalan di dalam browser Chrome Anda sendiri, mewarisi cookie sesi, status login, dan browser fingerprint Anda. Ini menghindari sebagian besar mekanisme anti-bot yang memblokir request server-side β€” karena request-nya memang berasal dari browser sungguhan.
  • Cloud Scraping: Untuk situs yang tersedia publik, cloud Thunderbit menangani anti-bot dalam skala besar β€” .

Kalau Anda menghabiskan lebih banyak waktu melawan Cloudflare daripada menganalisis data, ini adalah alternatif yang paling praktis.

Penilaian Jujur: Kapan Web Scraping n8n Cocok β€” dan Kapan Sebaiknya Pakai Alat Lain

n8n adalah platform yang hebat. Tapi bukan alat yang tepat untuk setiap pekerjaan scraping, dan tidak banyak artikel kompetitor yang jujur soal ini. Pengguna bahkan bertanya di forum: "seberapa sulit membuat web scraper dengan n8n?" dan "tool scraping mana yang paling cocok dengan n8n?"

Di Mana Web Scraping n8n Unggul

  • Workflow multi-langkah yang menggabungkan scraping dengan pemrosesan lanjutan β€” update CRM, notifikasi Slack, analisis AI, penulisan ke database. Ini kekuatan inti n8n.
  • Kasus di mana scraping hanya satu node dalam rantai automasi yang lebih besar β€” scrape β†’ enrich β†’ filter β†’ push ke CRM.
  • Pengguna teknis yang nyaman dengan CSS selector dan logika berbasis node.
  • Skenario yang membutuhkan transformasi data kustom antara scraping dan penyimpanan.

Di Mana Web Scraping n8n Jadi Menyulitkan

  • Pengguna non-teknis yang cuma butuh data cepat. Setup node, pencarian CSS selector, dan siklus debugging cukup curam bagi pengguna bisnis.
  • Situs dengan proteksi anti-bot berat. Tambahan proxy dan API menambah biaya serta kompleksitas.
  • Maintenance saat layout situs berubah. CSS selector rusak, workflow gagal tanpa suara.
  • Scraping massal pada banyak jenis situs berbeda. Setiap situs butuh konfigurasi selector sendiri.
  • Enrichment subpage. Butuh membangun sub-workflow terpisah di n8n.

Perbandingan Langsung: n8n vs. Thunderbit vs. Python Script

FaktorScraping DIY n8nThunderbitPython Script
Keahlian teknis yang dibutuhkanMenengah (node + CSS selector)Tidak ada (AI menyarankan field)Tinggi (coding)
Waktu setup per situs baru30–90 menit~2 menit1–4 jam
Penanganan anti-botManual (headers, proxy, API)Bawaan (mode browser/cloud)Manual (library)
Maintenance saat situs berubahUpdate selector manualNol β€” AI beradaptasi otomatisUpdate kode manual
Dukungan workflow multi-langkahSangat baik (kekuatan inti)Ekspor ke Sheets/Airtable/NotionButuh kode kustom
Biaya dalam skala besarBiaya hosting n8n + proxy/APIBerbasis kredit (~1 kredit per baris)Biaya server + proxy
Enrichment subpageManual β€” buat sub-workflow terpisahScraping subpage 1 klikScripting kustom

Intinya: pakai n8n saat scraping adalah bagian dari rantai automasi multi-langkah yang kompleks. Pakai Thunderbit saat Anda butuh data cepat tanpa membangun workflow. Pakai Python saat Anda butuh kontrol maksimal dan punya resource developer. Mereka bukan pesaing β€” mereka saling melengkapi.

n8n-thunderbit-python-comparison.webp

Contoh Workflow Web Scraping n8n Nyata yang Bisa Langsung Anda Salin

Pengguna forum terus bertanya: "Ada yang sudah menyambungkan ini ke workflow multi-step?" Berikut tiga workflow spesifik β€” rangkaian node nyata yang bisa Anda bangun hari ini.

Workflow 1: Pemantau Harga Kompetitor Ecommerce

Tujuan: Melacak harga kompetitor setiap hari dan mendapat peringatan saat harga turun.

Rangkaian node: Schedule Trigger (harian, jam 8 pagi) β†’ Code (buat URL paginasi) β†’ Loop Over Items β†’ HTTP Request β†’ HTML (ambil nama produk, harga, ketersediaan) β†’ Wait (2 detik) β†’ (kembali ke loop) β†’ Code (bersihkan data, normalisasi harga) β†’ Google Sheets (tambahkan baris) β†’ IF (harga di bawah ambang?) β†’ Slack (kirim notifikasi)

Tingkat kompleksitas: 8–10 node, setup 30–60 menit per situs kompetitor.

Jalan pintas Thunderbit: Thunderbit's Scheduled Scraper + bisa menghasilkan hasil serupa dalam hitungan menit, dengan ekspor gratis ke Google Sheets.

Workflow 2: Pipeline Lead Generation Sales

Tujuan: Scrape direktori bisnis setiap minggu, bersihkan dan kategorikan lead, lalu kirim ke CRM.

Rangkaian node: Schedule Trigger (mingguan, Senin 9 pagi) β†’ HTTP Request (halaman listing direktori) β†’ HTML (ambil nama, telepon, email, alamat) β†’ Code (deduplikasi, rapikan format) β†’ node OpenAI/Gemini (kategorikan berdasarkan industri) β†’ node HubSpot (buat kontak)

Catatan: n8n punya bawaan β€” sangat berguna untuk push ke CRM. Tapi langkah scraping dan pembersihan tetap memerlukan kerja manual dengan CSS selector.

Jalan pintas Thunderbit: gratis dari Thunderbit dan Phone Number Extractor bisa menarik info kontak dalam 1 klik tanpa membangun workflow. AI labeling-nya juga dapat mengkategorikan lead saat ekstraksi. Pengguna yang tidak butuh rantai automasi penuh bisa langsung melewati setup n8n.

Workflow 3: Pelacak Listing Baru Properti

Tujuan: Menemukan listing baru di Zillow atau Realtor.com setiap minggu dan mengirim email ringkasan.

Rangkaian node: Schedule Trigger (mingguan) β†’ HTTP Request (halaman listing) β†’ HTML (ambil alamat, harga, jumlah kamar, tautan) β†’ Code (bersihkan data) β†’ Google Sheets (tambahkan) β†’ Code (bandingkan dengan data minggu sebelumnya, tandai listing baru) β†’ IF (ada listing baru?) β†’ Gmail/SendGrid (kirim ringkasan)

Catatan: Thunderbit punya β€” tanpa CSS selector. Pengguna yang butuh rantai automasi penuh (scrape β†’ compare β†’ alert) akan sangat terbantu oleh n8n; pengguna yang hanya butuh data listing akan lebih cocok dengan Thunderbit.

Untuk inspirasi workflow lain, library komunitas n8n punya template untuk , , dan .

Tips agar Pipeline Web Scraping n8n Tetap Lancar

Scraping untuk produksi itu 20% membangun dan 80% merawat.

Gunakan Batching dan Delay untuk Menghindari Rate Limit

Aktifkan batching pada HTTP Request node dan atur waktu tunggu 1–3 detik antar batch. Request bersamaan adalah cara tercepat untuk diblokir IP. Sedikit sabar di sini akan menghemat banyak masalah nanti.

Pantau Eksekusi Workflow untuk Mencegah Kegagalan Diam-Diam

Gunakan tab Executions di n8n untuk mengecek run yang gagal. Data hasil scraping bisa saja kosong tanpa tanda kalau sebuah situs mengubah layout β€” workflow terlihat "sukses" tetapi spreadsheet Anda penuh kolom kosong.

Buat workflow Error Trigger yang aktif pada setiap eksekusi gagal dan mengirim alert Slack atau email. Ini wajib untuk pipeline produksi.

Simpan CSS Selector Secara Eksternal agar Mudah Diupdate

Simpan CSS selector di Google Sheet atau environment variable n8n supaya Anda bisa memperbaruinya tanpa mengedit workflow itu sendiri. Saat layout situs berubah, Anda cukup memperbarui selector di satu tempat.

Tahu Kapan Harus Beralih ke Scraper Berbasis AI

Kalau Anda terus-menerus memperbarui CSS selector, melawan mekanisme anti-bot, atau lebih banyak waktu habis untuk merawat scraper daripada memakai datanya, pertimbangkan tools berbasis AI seperti yang membaca situs dari awal setiap kali dan beradaptasi otomatis. Pendekatan bekerja sangat baik: Thunderbit menangani lapisan ekstraksi yang rapuh (bagian yang rusak setiap kali situs mengubah <div>), mengekspor ke Google Sheets atau Airtable, lalu n8n mengambil baris baru lewat trigger Sheets/Airtable bawaan untuk menangani orkestrasi β€” update CRM, alert, logika kondisional, dan distribusi ke banyak sistem.

Penutup: Bangun Pipeline yang Sesuai untuk Tim Anda

Web scraping n8n sangat kuat ketika Anda membutuhkan scraping sebagai salah satu langkah dalam workflow automasi yang lebih besar. Namun, ia membutuhkan setup teknis, maintenance berkelanjutan, dan kesabaran menghadapi pagination, anti-bot, serta konfigurasi penjadwalan. Panduan ini membahas seluruh pipeline: workflow pertama Anda, pagination (bagian yang selalu dilewatkan tutorial), penjadwalan, troubleshooting anti-bot, penilaian jujur tentang posisi n8n, dan workflow nyata yang bisa Anda salin.

Begini cara saya memikirkannya:

  • Gunakan n8n saat scraping adalah bagian dari rantai automasi multi-langkah yang kompleks β€” update CRM, alert Slack, enrichment AI, routing bersyarat.
  • Gunakan saat Anda butuh data cepat tanpa membangun workflow β€” AI menangani field suggestion, pagination, anti-bot, dan ekspor dalam 2 klik.
  • Gunakan Python saat Anda butuh kontrol maksimal dan punya resource developer.

Dan sejujurnya, setup terbaik untuk banyak tim adalah keduanya: Thunderbit untuk ekstraksi, n8n untuk orkestrasi. Kalau Anda ingin melihat bagaimana scraping berbasis AI dibandingkan dengan workflow n8n Anda, memungkinkan Anda bereksperimen dalam skala kecil β€” dan terpasang dalam hitungan detik. Untuk panduan video dan ide workflow, kunjungi .

Coba Thunderbit untuk AI web scraping

FAQ

Bisakah n8n melakukan scraping situs yang berat JavaScript?

Tidak jika hanya mengandalkan HTTP Request node bawaan. HTTP Request node mengambil HTML mentah dan tidak bisa mengeksekusi JavaScript. Untuk situs yang dirender oleh JS, Anda perlu community node seperti atau integrasi scraping API (ScrapeNinja, Firecrawl) yang merender JavaScript di sisi server. Thunderbit menangani situs berat JS secara native dalam mode Browser dan Cloud scraping.

Apakah web scraping n8n gratis?

Versi self-hosted n8n gratis dan open-source. n8n Cloud sebelumnya punya free tier, tetapi per April 2026, yang tersedia hanya trial 14 hari β€” setelah itu paket dimulai dari $24/bulan untuk 2.500 eksekusi. Scraping situs yang dilindungi juga bisa memerlukan layanan proxy berbayar ($5–15/GB untuk residential proxy) atau scraping API ($49–200+/bulan tergantung volume).

Bagaimana perbandingan web scraping n8n dengan Thunderbit?

n8n lebih cocok untuk automasi multi-langkah di mana scraping hanya satu bagian dari workflow yang lebih besar (misalnya scrape β†’ enrich β†’ filter β†’ push ke CRM β†’ alert di Slack). Thunderbit lebih cocok untuk ekstraksi data cepat tanpa kode, dengan deteksi field berbasis AI, pagination otomatis, dan tanpa maintenance saat situs berubah. Banyak tim memakai keduanya bersamaan β€” Thunderbit untuk ekstraksi, n8n untuk orkestrasi.

Bisakah saya scrape data dari situs yang butuh login menggunakan n8n?

Bisa, tetapi perlu mengonfigurasi cookie atau session token di HTTP Request node, yang bisa cukup rumit untuk dijaga. Mode Browser Scraping Thunderbit otomatis mewarisi sesi Chrome yang sedang login β€” kalau Anda login, Thunderbit bisa men-scrape apa yang Anda lihat.

Apa yang harus saya lakukan kalau scraper n8n saya tiba-tiba berhenti mengembalikan data?

Pertama, cek tab n8n Executions untuk error. Penyebab paling umum adalah perubahan layout situs yang merusak CSS selector Anda β€” workflow terlihat "berhasil" tetapi field kosong. Verifikasi selector Anda di tool Inspect Chrome, update di workflow (atau di sheet selector eksternal), lalu uji ulang. Kalau Anda kena blok anti-bot, ikuti pohon keputusan troubleshooting di panduan ini. Untuk keandalan jangka panjang, pertimbangkan scraper berbasis AI seperti Thunderbit yang otomatis beradaptasi dengan perubahan layout.

Pelajari Lebih Lanjut

Shuai Guan
Shuai Guan
Co-founder/CEO @ Thunderbit. Passionate about cross section of AI and Automation. He's a big advocate of automation and loves making it more accessible to everyone. Beyond tech, he channels his creativity through a passion for photography, capturing stories one picture at a time.
Daftar Isi

Coba Thunderbit

Ambil lead dan data lainnya hanya dalam 2 klik. Didukung AI.

Dapatkan ThunderbitΒ Gratis
Ekstrak Data menggunakan AI
Pindahkan data dengan mudah ke Google Sheets, Airtable, atau Notion
PRODUCT HUNT#1 Product of the Week