LinkedIn Scraper GitHub: Lo que funciona en 2026 (y lo que no)

Última actualización el April 22, 2026

Una búsqueda en GitHub de "linkedin scraper" arroja aproximadamente a fecha de abril de 2026. La mayoría te hará perder el tiempo. ¿Duro? Quizá. Pero eso fue lo que encontré tras auditar ocho de los repos más visibles, leer decenas de hilos de issues en GitHub y cruzar informes de la comunidad en Reddit y foros de scraping. El patrón se repite: los repos con muchas estrellas atraen atención, el equipo anti-bots de LinkedIn estudia el código, las detecciones se parchean, y los usuarios terminan con selectores rotos, bucles de CAPTCHA o bloqueos directos de cuenta. Un usuario de Reddit describió la situación actual sin rodeos: LinkedIn ha añadido "límites de tasa más estrictos, mejor detección de bots, seguimiento de sesiones y cambios frecuentes", y las herramientas antiguas ahora "fallan rápido o hacen que bloqueen cuentas/IP". Si eres vendedor, recruiter o responsable de operaciones y buscas datos de LinkedIn en una hoja de cálculo, es muy posible que el repo que clonaste el mes pasado ya esté muerto. Esta guía está pensada para ayudarte a decidir qué proyectos de GitHub sí merecen tu tiempo, cómo evitar que te bloqueen la cuenta y cuándo tiene más sentido prescindir del código por completo.

¿Qué es un LinkedIn Scraper en GitHub?

Un proyecto de LinkedIn scraper en GitHub es un script de código abierto —normalmente en Python, a veces en Node.js— que automatiza la extracción de datos estructurados de páginas de LinkedIn. Los objetivos habituales incluyen:

  • Perfiles de personas: nombre, titular, empresa, ubicación, habilidades, experiencia
  • Ofertas de empleo: título, empresa, ubicación, fecha de publicación, URL del empleo
  • Páginas de empresa: resumen, número de empleados, sector, número de seguidores
  • Publicaciones e interacción: texto del contenido, me gusta, comentarios, compartidos

Por dentro, la mayoría de los repos usan uno de dos enfoques. Los scrapers guiados por navegador dependen de Selenium, Playwright o Puppeteer para renderizar páginas, seguir flujos de navegación y extraer datos mediante selectores CSS o XPath. Un subconjunto más pequeño intenta llamar directamente a los endpoints internos —no documentados— de la API de LinkedIn. Y una ola más reciente —todavía poco común en GitHub, pero en crecimiento— combina automatización de navegador con un LLM como GPT-4o mini para convertir el texto de la página en campos estructurados sin depender de selectores frágiles.

Hay una desconexión fundamental entre audiencia y herramienta. Estas soluciones las construyen desarrolladores cómodos con entornos virtuales, dependencias de navegador y configuración de proxies. Pero gran parte de quienes buscan "linkedin scraper github" son recruiters, SDRs, responsables de RevOps y fundadores que solo quieren filas en una hoja de cálculo.

Esa brecha explica buena parte de la frustración en los hilos de issues.

Por qué la gente recurre a GitHub para hacer scraping de LinkedIn

La ventaja es obvia. Gratis. Personalizable. Sin dependencia de un proveedor. Control total sobre tu canal de datos. Si una herramienta SaaS cambia precios o desaparece, tu código sigue ahí.

Caso de usoQuién lo necesitaDatos que suele extraer
Generación de leadsEquipos de ventasNombres, cargos, empresas, URLs de perfil, pistas de email
Búsqueda de candidatosRecruitersPerfiles, habilidades, experiencia, ubicaciones
Investigación de mercadoEquipos de operaciones y estrategiaDatos de empresa, número de empleados, ofertas de empleo
Inteligencia competitivaEquipos de marketingPublicaciones, interacción, novedades de empresa, señales de contratación

Pero "gratis" es una etiqueta de licencia, no un coste operativo. Los gastos reales son:

  • Tiempo de configuración: incluso los repos más amigables suelen requerir de 30 minutos a más de 2 horas para configurar el entorno, instalar dependencias del navegador, extraer cookies y configurar proxies
  • Mantenimiento: LinkedIn cambia con frecuencia su DOM y sus defensas anti-bots; hoy puede funcionar y la semana que viene dejar de hacerlo
  • Proxies: el ancho de banda de proxies residenciales cuesta entre , según proveedor y plan
  • Riesgo de cuenta: tu cuenta de LinkedIn es lo más valioso que está en juego, y no se puede reemplazar como una IP de proxy

La ficha de salud del repo: cómo evaluar cualquier proyecto de LinkedIn Scraper en GitHub

La mayoría de las listas de "mejores LinkedIn scraper" ordenan los repos por número de estrellas. Las estrellas miden interés histórico, no funcionalidad actual. Un repo con 3.000 estrellas y sin commits desde 2022 es una pieza de museo, no una herramienta de producción.

Antes de ejecutar git clone en cualquier cosa, aplica este marco:

CriterioPor qué importaSeñal de alerta
Fecha del último commitLinkedIn cambia el DOM con frecuenciaMás de 6 meses en repos guiados por navegador
Ratio de issues abiertos/cerradosCapacidad de respuesta del mantenedorMás de 3:1 entre abiertos y cerrados, especialmente con informes recientes de "bloqueado" o "CAPTCHA"
Funciones anti-detecciónLinkedIn bloquea de forma agresivaNo menciona cookies, sesiones, ritmo de navegación o proxies en el README
Método de autenticación2FA y CAPTCHA rompen los flujos de loginSolo admite inicio de sesión sin interfaz con contraseña
Tipo de licenciaExposición legal para uso comercialSin licencia o con términos ambiguos
Tipos de datos compatiblesDistintos casos de uso requieren distintos reposSolo un tipo de datos cuando necesitas varios

El truco que más tiempo ahorra: antes de comprometerte con cualquier repo, busca en su pestaña de Issues las palabras "blocked", "banned", "CAPTCHA" o "not working". Si los issues recientes están llenos de esos términos y el mantenedor no responde, pasa al siguiente. Ese repo ya perdió la batalla.

Lo que realmente mostró la auditoría de 2026

linkedin_scraper_repo_audit_v2_17d346a6d6.png

Apliqué esta ficha de salud a ocho de los repos de LinkedIn scraper más visibles en GitHub. Los resultados no fueron alentadores.

RepoEstrellasÚltimo commit¿Funciona en 2026?Alcance principalNotas clave
joeyism/linkedin_scraper~3.983Abr 2026✅ Con maticesPerfiles, empresas, publicaciones, empleosReescritura basada en Playwright, reutilización de sesión — pero los issues recientes muestran bloqueos de seguridad y búsqueda de empleo rota
python-scrapy-playbook/linkedin-python-scrapy-scraper~111Ene 2026✅ Para tutoriales/datos públicosPersonas, empresas, empleosIntegración con proxy de ScrapeOps; el plan gratis permite 1.000 solicitudes al mes con 1 hilo
spinlud/py-linkedin-jobs-scraper~472Mar 2025⚠️ Solo empleosEmpleosSoporte para cookies, modo proxy experimental — útil si solo necesitas ofertas públicas
madingess/EasyApplyBot~170Mar 2025⚠️ Herramienta equivocadaAutomatización de Easy ApplyNo es un scraper de datos: automatiza solicitudes de empleo
linkedtales/scrapedin~611May 2021PerfilesEl README aún dice "working in 2020"; los issues muestran verificación de pin y cambios en el HTML
austinoboyle/scrape-linkedin-selenium~526Oct 2022Perfiles, empresasAntes era útil, pero en 2026 ya está demasiado desactualizado
eilonmore/linkedin-private-api~291Jul 2022Perfiles, empleos, empresas, publicacionesWrapper de API privada; los endpoints no documentados cambian de forma impredecible
nsandman/linkedin-api~154Jul 2019Perfiles, mensajería, búsquedaInteresante históricamente; documenta limitación de tasa después de unas 900 solicitudes por hora

Solo 2 de 8 repos parecían realmente utilizables para un lector de 2026 sin grandes advertencias. Esa proporción no es rara: es la norma del scraping de LinkedIn en GitHub.

El manual de prevención de baneos: proxies, límites de tasa y seguridad de cuentas

Los bloqueos de cuenta son el mayor riesgo operativo. Incluso los scrapers técnicamente competentes fallan aquí. El código funciona; la cuenta, no. Hay usuarios que reportan que les marcaron la cuenta después de solo pese a usar proxies y largas esperas.

Limitación de tasa: lo que reporta la comunidad

linkedin_scraper_risk_spectrum_v2_a602c90b7d.png

No existe una cifra segura garantizada. LinkedIn evalúa la antigüedad de la sesión, el tiempo entre clics, los patrones de ráfaga, la reputación de la IP y el comportamiento de la cuenta, no solo el volumen bruto. Los datos de la comunidad se agrupan en estos rangos:

  • Un usuario informó detección tras 40–80 perfiles con proxies y una cadencia de 33 segundos
  • Otro aconsejó mantenerse en torno a 30 perfiles/día/cuenta
  • Un operador más agresivo afirmó repartidos a lo largo del día
  • documentó un aviso interno de límite de tasa tras unas 900 solicitudes en una hora

La síntesis práctica: menos de 50 vistas de perfil/día/cuenta es la zona de menor riesgo. 50–100/día es riesgo medio, donde la calidad de la sesión importa mucho. Por encima de 100/día/cuenta entras en un terreno cada vez más agresivo.

Estrategia de proxy: residencial frente a datacenter

Los proxies residenciales siguen siendo el estándar para LinkedIn porque se parecen al tráfico normal de un usuario final. Las IP de datacenter son más baratas, pero se detectan antes en sitios sofisticados, y LinkedIn es exactamente el tipo de sitio en el que el tráfico barato salta a la vista.

Contexto actual de precios:

  • : $3,00–$4,00/GB según el plan
  • : $4,00–$6,00/GB según el plan

Rota por sesión, no por solicitud. Rotar por solicitud crea una huella que grita "infraestructura de proxy" mucho más que cualquier IP individual.

Protocolo de cuenta desechable

El consejo de la comunidad es tajante: no trates tu cuenta principal de LinkedIn como una infraestructura de scraping desechable.

Si insistes en hacer scraping con cuentas:

  • Usa una cuenta separada de tu identidad profesional principal
  • Completa el perfil al 100 % y deja que se comporte como una persona durante días antes de scrapear
  • Nunca vincules tu número real de teléfono a las cuentas de scraping
  • Mantén las sesiones de scraping completamente separadas del contacto y la mensajería reales

Conviene recordarlo: el de LinkedIn (vigente desde el 3 de noviembre de 2025) prohíbe expresamente identidades falsas y compartir cuentas. La táctica de la cuenta desechable es común en la práctica, pero contractualmente es un terreno resbaladizo.

Cómo manejar los CAPTCHA

Un CAPTCHA no es solo una molestia. Es una señal de que tu sesión ya está bajo escrutinio. Las opciones incluyen:

  • Completarlo manualmente para seguir con la sesión
  • Reutilizar cookies en lugar de repetir los flujos de login
  • Servicios de resolución como (~$0,50–$1,00 por 1.000 CAPTCHA de imagen, ~$1,00–$2,99 por 1.000 resoluciones de reCAPTCHA v2)

Pero si tu flujo dispara CAPTCHA de forma habitual, el coste de los servicios de resolución es tu menor problema. Tu stack está perdiendo la batalla por el sigilo.

El espectro de riesgo

VolumenNivel de riesgoEnfoque recomendado
< 50 perfiles/díaMás bajoSesión de navegador o reutilización de cookies, ritmo lento, sin automatización agresiva
50–500 perfiles/díaMedio a altoProxies residenciales, cuentas calentadas, reutilización de sesiones, retrasos aleatorios
500+/díaMuy altoAPIs comerciales o herramientas mantenidas con anti-detección integrada; los repos públicos por sí solos normalmente no bastan

La paradoja del código abierto: por qué los repos populares de LinkedIn Scraper en GitHub se rompen más rápido

Los usuarios plantean una preocupación válida: "Hacer una versión de código abierto significa que LinkedIn puede ver lo que haces y bloquearlo". Esa preocupación no es paranoia. Es estructuralmente correcta.

El problema de la visibilidad

Un alto número de estrellas crea dos señales a la vez: confianza para los usuarios y un objetivo para el equipo de seguridad de LinkedIn. Cuanto más popular se vuelve un repo, más probable es que LinkedIn contrarreste sus métodos de forma específica.

Se ve este ciclo en los datos de la auditoría. linkedtales/scrapedin llegó a ser lo bastante notable como para presumir de que funcionaba con el "nuevo sitio web" de LinkedIn en 2020. Pero el repo no siguió el ritmo de las verificaciones y cambios de diseño posteriores. nsandman/linkedin-api documentó trucos útiles en su momento, pero su último commit quedó años atrás respecto al entorno anti-bots actual.

La ventaja del parche comunitario

El código abierto sigue teniendo una ventaja real: los mantenedores y colaboradores activos pueden parchear rápido cuando LinkedIn cambia sus defensas. joeyism/linkedin_scraper es el principal ejemplo de esta auditoría: sigue arrastrando issues de autenticación bloqueada y búsquedas rotas, pero al menos se mueve. Los forks suelen implementar técnicas de evasión más nuevas con más rapidez que el repo original.

Qué hacer al respecto

  • No dependas de un único repo público como infraestructura permanente
  • Busca forks activos que implementen técnicas de evasión actualizadas
  • Considera mantener un fork privado para uso en producción (así tus adaptaciones específicas no quedan públicas)
  • Espera tener que cambiar de método cuando LinkedIn modifique la detección o el comportamiento de la interfaz
  • Diversifica los enfoques en lugar de apostar todo a una sola herramienta

Extracción con IA frente a selectores CSS: comparación práctica

linkedin_scraper_selectors_vs_ai_v2_2d42fbf5c4.png

La división técnica más interesante en 2026 no es GitHub frente a no-code. Es extracción basada en selectores frente a extracción semántica —y la diferencia importa mucho más de lo que reconocen la mayoría de los resúmenes.

Cómo funcionan los selectores CSS (y cómo se rompen)

Los scrapers tradicionales inspeccionan el DOM de LinkedIn y asignan cada campo a un selector CSS o a una expresión XPath. Cuando la estructura de la página es estable, el enfoque es excelente: alta precisión, bajo coste marginal y análisis muy rápido.

El modo de fallo es igual de evidente. LinkedIn cambia nombres de clase, anidación, comportamiento de carga diferida o pone barreras de autenticación distintas, y el scraper se rompe al instante. Los títulos de los issues de la auditoría cuentan la historia: "HTML changed", "broken job search", "missing values", "authwall blocks".

Cómo funciona la extracción con IA/LLM

El patrón más reciente es más simple en concepto: renderiza la página, recoge el texto visible y pide a un modelo que devuelva campos estructurados. Esa es la lógica detrás de muchos scrapers de IA no-code y de algunos flujos personalizados más recientes.

Usando los precios actuales de ($0,15/1M tokens de entrada, $0,60/1M tokens de salida), una pasada de extracción solo de texto para un perfil suele costar $0,0006–$0,0018 por perfil. Es tan poco que resulta irrelevante para flujos de volumen medio.

Comparación cara a cara

DimensiónSelector CSS / XPathExtracción con IA/LLM
Esfuerzo de configuraciónAlto — inspeccionar el DOM, escribir selectores por campoBajo — describir el resultado deseado en lenguaje natural
Rotura ante cambios de diseñoSe rompe de inmediatoSe adapta automáticamente (lee semánticamente)
Precisión en campos estructurados~99 % cuando los selectores son correctos~95–98 % (errores ocasionales de interpretación del LLM)
Manejo de datos no estructurados o variablesDébil sin lógica personalizadaFuerte — la IA interpreta el contexto
Coste por perfilCasi cero (solo cómputo)~$0,001–$0,002 (coste de tokens de API)
Etiquetado / categorizaciónRequiere posprocesado apartePuede categorizar, traducir y etiquetar en una sola pasada
Carga de mantenimientoCorrecciones continuas de selectoresCasi nula

¿Cuál deberías elegir?

Para canalizaciones de altísimo volumen, estables y bajo control del equipo de ingeniería, el análisis basado en selectores todavía puede ganar en coste. Para la mayoría de usuarios pequeños y medianos que extraen cientos —no millones— de perfiles, la extracción con IA es la mejor inversión a largo plazo porque los cambios de diseño de LinkedIn cuestan más en tiempo de desarrollo que en tokens del modelo que te ahorras.

Cuando los repos de GitHub son demasiado: la vía no-code

La mayoría de quienes buscan "linkedin scraper github" no quieren convertirse en mantenedores de automatización de navegador.

Quieren filas en una tabla.

Los usuarios se quejan explícitamente de la usabilidad de los scrapers de GitHub en los issues: "No maneja 2FA y no es fácil de usar porque no hay interfaz". La audiencia incluye recruiters, SDRs y responsables de operaciones, no solo desarrolladores de Python.

La decisión entre construir o comprar

FactorRepo de GitHubHerramienta no-code (p. ej., Thunderbit)
Tiempo de configuración30 min–2+ horas (Python, dependencias, proxies)Menos de 2 minutos (instalar extensión, hacer clic)
MantenimientoLo arreglas tú cuando LinkedIn cambiaEl proveedor de la herramienta se encarga de las actualizaciones
Anti-detecciónConfiguras proxies, pausas y sesionesIntegrado en la herramienta
Estructuración de datosEscribes la lógica de parseoLa IA sugiere campos automáticamente
Opciones de exportaciónConstruyes el flujo de exportaciónExportación con un clic a Excel, Google Sheets, Airtable, Notion
CosteRepo gratis + coste de proxies + tu tiempoHay plan gratuito; basado en créditos para volumen

Cómo Thunderbit gestiona el scraping de LinkedIn sin código

aborda el problema de forma distinta a los repos de GitHub. En vez de escribir selectores o configurar automatización de navegador, haces esto:

  1. Instalas la
  2. Navegas a cualquier página de LinkedIn (resultados de búsqueda, perfil, página de empresa)
  3. Haces clic en "AI Suggest Fields" — la IA de Thunderbit lee la página y propone columnas estructuradas (nombre, cargo, empresa, ubicación, etc.)
  4. Ajustas las columnas si hace falta y luego haces clic para extraer
  5. Exportas directamente a Excel, Google Sheets, o Notion

Como Thunderbit usa IA para leer la página semánticamente cada vez, no se rompe cuando LinkedIn cambia su DOM. Esa es la misma ventaja que el enfoque integrado con GPT en scripts personalizados de Python, pero empaquetada en una extensión no-code en lugar de una base de código que tienes que mantener.

Para —hacer clic en perfiles individuales desde una lista de resultados para enriquecer tu tabla de datos— Thunderbit lo gestiona automáticamente. El modo navegador funciona con páginas que requieren inicio de sesión sin necesidad de configurar proxies aparte.

¿Quién debería seguir usando un repo de GitHub?

Los repos de GitHub siguen teniendo sentido para:

  • Desarrolladores que necesitan personalización profunda o tipos de datos poco comunes
  • Equipos que hacen scraping a muy alto volumen y donde el coste por crédito importa
  • Usuarios que necesitan ejecutar scraping en pipelines de CI/CD o en servidores
  • Personas que integran datos de LinkedIn en flujos automatizados más grandes

Para todos los demás —especialmente equipos de ventas, recruiting y operaciones— la elimina por completo el ciclo de configuración y mantenimiento.

Paso a paso: cómo evaluar y usar un LinkedIn Scraper de GitHub

Si ya decidiste que GitHub es el camino correcto, aquí tienes un flujo por fases para minimizar el tiempo perdido y el riesgo sobre la cuenta.

Paso 1: busca y filtra repos

Busca en GitHub "linkedin scraper" y filtra por:

  • Actualizado recientemente (últimos 6 meses)
  • Lenguaje compatible con tu stack (Python es el más común)
  • Alcance que encaje con tu necesidad real (perfiles vs. empleos vs. empresas)

Haz una lista corta de 3 a 5 repos que parezcan activos.

Paso 2: aplica la ficha de salud del repo

Pasa cada repo por la ficha anterior. Elimina cualquier cosa con:

  • Ningún commit en el último año
  • Issues sin resolver sobre "blocked" o "CAPTCHA"
  • Autenticación solo con contraseña
  • Ninguna mención de sesiones, cookies o proxies

Paso 3: prepara tu entorno

Comandos de configuración habituales que aparecieron en los repos de esta auditoría:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Puntos de fricción recurrentes:

  • Archivos session.json ausentes
  • Desajustes de versión del driver del navegador (Chromium/Playwright)
  • Extracción de cookies desde DevTools del navegador
  • Timeouts en la autenticación del proxy

Paso 4: haz una prueba pequeña

Empieza con 10–20 perfiles. Comprueba:

  • ¿Los campos se están parseando correctamente?
  • ¿Los datos están completos?
  • ¿Apareció algún punto de control de seguridad?
  • ¿El formato de salida es usable o solo ruido JSON en bruto?

Paso 5: escala con cuidado

Añade retrasos aleatorios (5–15 segundos entre solicitudes), reduce la concurrencia, reutiliza sesiones y usa proxies residenciales. No pases a cientos de perfiles/día con una cuenta nueva.

Paso 6: exporta y estructura tus datos

La mayoría de los repos de GitHub exportan JSON o CSV en bruto. Aun así tendrás que:

  • Eliminar duplicados
  • Normalizar cargos y nombres de empresa
  • Mapear campos a tu CRM o ATS
  • Documentar el origen de los datos para cumplimiento normativo

(Thunderbit gestiona la estructura y la exportación automáticamente si prefieres saltarte este paso.)

LinkedIn Scraper GitHub frente a herramientas no-code: comparación completa

DimensiónRepo de GitHub (selectores CSS)Repo de GitHub (IA/LLM)Herramienta no-code (Thunderbit)
Tiempo de configuración1–2+ horas1–3+ horas (+ clave API)Menos de 2 minutos
Habilidad técnicaAlta (Python, CLI)Alta (Python + APIs de LLM)Ninguna
MantenimientoAlto (los selectores se rompen)Medio (el LLM se adapta, pero el código sigue necesitando actualizaciones)Ninguno (lo mantiene el proveedor)
Anti-detecciónHecho por ti (proxies, pausas)Hecho por tiIntegrado
PrecisiónAlta cuando funcionaAlta, con errores ocasionales del LLMAlta (impulsada por IA)
CosteGratis + coste de proxies + tu tiempoGratis + coste de la API LLM + coste de proxiesPlan gratuito; basado en créditos para volumen
ExportaciónHecho por ti (JSON, CSV)Hecho por tiExcel, Sheets, Airtable, Notion
Mejor paraDesarrolladores, pipelines personalizadosDesarrolladores que quieren menos mantenimientoEquipos de ventas, recruiting y operaciones

Consideraciones legales y éticas

Seré breve aquí, pero no se puede saltar.

El de LinkedIn (vigente desde el 3 de noviembre de 2025) prohíbe explícitamente usar software, scripts, robots, crawlers o extensiones de navegador para scrapear el servicio. LinkedIn ha respaldado esto con acciones de cumplimiento:

  • : LinkedIn anunció acciones legales contra Proxycurl
  • : LinkedIn afirmó que ese caso se resolvió
  • : Law360 informó que LinkedIn demandó a más acusados por scraping a escala industrial

La línea de casos hiQ contra LinkedIn creó cierto matiz en torno al acceso a datos públicos, pero favorecieron a LinkedIn en teorías de incumplimiento contractual. "Visible públicamente" no significa "claramente seguro de scrapear a escala para reutilización comercial".

Para flujos vinculados a la UE, . La de la autoridad francesa de protección de datos es un ejemplo concreto de reguladores tratando los datos scrapados de LinkedIn como datos personales sujetos a normas de protección de datos.

Usar una herramienta mantenida como Thunderbit no cambia tus obligaciones legales. Pero sí reduce el riesgo de activar respuestas de seguridad o violar límites de tasa de forma accidental y llamar la atención de LinkedIn.

Qué funciona y qué no en 2026

Qué sí funciona

  • Aplicar la ficha de salud del repo antes de comprometerte con cualquier proyecto
  • Reutilizar cookies/sesiones en lugar de repetir inicios de sesión automáticos
  • Usar proxies residenciales cuando tengas que hacer scraping con cuenta
  • Flujos más pequeños, lentos y con comportamiento humano
  • Extracción asistida por IA cuando valoras la adaptabilidad por encima del coste marginal de tokens
  • cuando la necesidad real es sacar datos a una hoja de cálculo, no ser dueño del scraper
  • Diversificar enfoques en lugar de apostar por un solo repo público

Qué no funciona

  • Clonar repos con muchas estrellas sin revisar el estado de mantenimiento o los issues recientes
  • Usar proxies de datacenter o listas de proxies gratis para LinkedIn
  • Escalar a cientos de perfiles/día sin límites de tasa ni anti-detección
  • Depender de selectores CSS a largo plazo sin un plan de mantenimiento
  • Tratar tu cuenta real de LinkedIn como infraestructura desechable
  • Confundir "accesible públicamente" con "sin problemas contractuales o legales"

Preguntas frecuentes

¿Siguen funcionando en 2026 los repos de GitHub para LinkedIn scraper?

Algunos sí, pero solo una pequeña parte. En esta auditoría de ocho repos visibles, solo dos parecían realmente utilizables para un lector de 2026 sin grandes advertencias. La clave es evaluar los repos por actividad de mantenimiento y salud de issues, no por número de estrellas. Usa la ficha de salud del repo antes de invertir tiempo de configuración en cualquier proyecto.

¿Cuántos perfiles de LinkedIn puedo scrapear al día sin que me bloqueen?

No existe una cifra segura garantizada porque LinkedIn evalúa el comportamiento de la sesión, no solo el volumen. Los informes de la comunidad sugieren que menos de 50 perfiles/día/cuenta es la zona de menor riesgo, 50–100/día es riesgo medio donde la calidad de la infraestructura importa, y por encima de 100/día la situación se vuelve cada vez más agresiva. Los retrasos aleatorios de 5–15 segundos y los proxies residenciales ayudan, pero nada elimina del todo el riesgo.

¿Existe una alternativa no-code a los proyectos de LinkedIn scraper en GitHub?

Sí. te permite scrapear páginas de LinkedIn en unos pocos clics con detección de campos impulsada por IA, autenticación basada en navegador (sin necesidad de configurar proxies) y exportación con un clic a Excel, Google Sheets, Airtable o Notion. Está pensado para equipos de ventas, recruiting y operaciones que quieren datos sin mantener código. Puedes probarlo desde la .

Es una zona gris con bordes cada vez más afilados. El User Agreement de LinkedIn prohíbe expresamente el scraping, y LinkedIn ha emprendido acciones legales contra scrapers en . El precedente hiQ contra LinkedIn sobre acceso a datos públicos se ha ido acotando con resoluciones más recientes. El RGPD se aplica a datos personales de residentes de la UE independientemente de cómo se obtengan. Para cualquier caso de uso comercial, consulta con un abogado sobre tu situación concreta.

¿Extracción con IA o selectores CSS: cuál debería usar para scrapear LinkedIn?

Los selectores CSS son más rápidos y baratos por registro cuando funcionan, pero generan una rueda de mantenimiento porque LinkedIn cambia su DOM con frecuencia. La extracción con IA/LLM cuesta un poco más por perfil (~$0,001–$0,002 con las tarifas actuales de ), pero se adapta automáticamente a los cambios de diseño. Para la mayoría de usuarios no empresariales que extraen cientos y no millones de perfiles, la extracción con IA es la mejor inversión a largo plazo. El motor de IA integrado de Thunderbit ofrece esa ventaja sin que tengas que escribir ni mantener código.

Más información

Ke
Ke
CTO @ Thunderbit. Ke es la persona a la que todos escriben cuando los datos se ponen feos. Ha dedicado su carrera a convertir tareas tediosas y repetitivas en pequeñas automatizaciones silenciosas que simplemente funcionan. Si alguna vez has deseado que una hoja de cálculo se rellenara sola, probablemente Ke ya haya creado la solución que lo hace posible.
Tabla de contenidos

Prueba Thunderbit

Extrae leads y otros datos en solo 2 clics. Impulsado por IA.

Obtener Thunderbit Es gratis
Extrae datos usando IA
Transfiere datos fácilmente a Google Sheets, Airtable o Notion
Chrome Store Rating
PRODUCT HUNT#1 Product of the Week