LinkedIn Scraper GitHub: Lo que funciona en 2026 (y lo que no)

Una búsqueda en GitHub de "linkedin scraper" arroja aproximadamente a fecha de abril de 2026. La mayoría te hará perder el tiempo. ¿Duro? Quizá. Pero eso fue lo que encontré tras auditar ocho de los repos más visibles, leer decenas de hilos de issues en GitHub y cruzar informes de la comunidad en Reddit y foros de scraping. El patrón se repite: los repos con muchas estrellas atraen atención, el equipo anti-bots de LinkedIn estudia el código, las detecciones se parchean, y los usuarios terminan con selectores rotos, bucles de CAPTCHA o bloqueos directos de cuenta. Un usuario de Reddit describió la situación actual sin rodeos: LinkedIn ha añadido "límites de tasa más estrictos, mejor detección de bots, seguimiento de sesiones y cambios frecuentes", y las herramientas antiguas ahora "fallan rápido o hacen que bloqueen cuentas/IP". Si eres vendedor, recruiter o responsable de operaciones y buscas datos de LinkedIn en una hoja de cálculo, es muy posible que el repo que clonaste el mes pasado ya esté muerto. Esta guía está pensada para ayudarte a decidir qué proyectos de GitHub sí merecen tu tiempo, cómo evitar que te bloqueen la cuenta y cuándo tiene más sentido prescindir del código por completo.

¿Qué es un LinkedIn Scraper en GitHub?

Un proyecto de LinkedIn scraper en GitHub es un script de código abierto —normalmente en Python, a veces en Node.js— que automatiza la extracción de datos estructurados de páginas de LinkedIn. Los objetivos habituales incluyen:

Perfiles de personas: nombre, titular, empresa, ubicación, habilidades, experiencia
Ofertas de empleo: título, empresa, ubicación, fecha de publicación, URL del empleo
Páginas de empresa: resumen, número de empleados, sector, número de seguidores
Publicaciones e interacción: texto del contenido, me gusta, comentarios, compartidos

Por dentro, la mayoría de los repos usan uno de dos enfoques. Los scrapers guiados por navegador dependen de Selenium, Playwright o Puppeteer para renderizar páginas, seguir flujos de navegación y extraer datos mediante selectores CSS o XPath. Un subconjunto más pequeño intenta llamar directamente a los endpoints internos —no documentados— de la API de LinkedIn. Y una ola más reciente —todavía poco común en GitHub, pero en crecimiento— combina automatización de navegador con un LLM como GPT-4o mini para convertir el texto de la página en campos estructurados sin depender de selectores frágiles.

Hay una desconexión fundamental entre audiencia y herramienta. Estas soluciones las construyen desarrolladores cómodos con entornos virtuales, dependencias de navegador y configuración de proxies. Pero gran parte de quienes buscan "linkedin scraper github" son recruiters, SDRs, responsables de RevOps y fundadores que solo quieren filas en una hoja de cálculo.

Esa brecha explica buena parte de la frustración en los hilos de issues.

Por qué la gente recurre a GitHub para hacer scraping de LinkedIn

La ventaja es obvia. Gratis. Personalizable. Sin dependencia de un proveedor. Control total sobre tu canal de datos. Si una herramienta SaaS cambia precios o desaparece, tu código sigue ahí.

Caso de uso	Quién lo necesita	Datos que suele extraer
Generación de leads	Equipos de ventas	Nombres, cargos, empresas, URLs de perfil, pistas de email
Búsqueda de candidatos	Recruiters	Perfiles, habilidades, experiencia, ubicaciones
Investigación de mercado	Equipos de operaciones y estrategia	Datos de empresa, número de empleados, ofertas de empleo
Inteligencia competitiva	Equipos de marketing	Publicaciones, interacción, novedades de empresa, señales de contratación

Pero "gratis" es una etiqueta de licencia, no un coste operativo. Los gastos reales son:

Tiempo de configuración: incluso los repos más amigables suelen requerir de 30 minutos a más de 2 horas para configurar el entorno, instalar dependencias del navegador, extraer cookies y configurar proxies
Mantenimiento: LinkedIn cambia con frecuencia su DOM y sus defensas anti-bots; hoy puede funcionar y la semana que viene dejar de hacerlo
Proxies: el ancho de banda de proxies residenciales cuesta entre , según proveedor y plan
Riesgo de cuenta: tu cuenta de LinkedIn es lo más valioso que está en juego, y no se puede reemplazar como una IP de proxy

La ficha de salud del repo: cómo evaluar cualquier proyecto de LinkedIn Scraper en GitHub

La mayoría de las listas de "mejores LinkedIn scraper" ordenan los repos por número de estrellas. Las estrellas miden interés histórico, no funcionalidad actual. Un repo con 3.000 estrellas y sin commits desde 2022 es una pieza de museo, no una herramienta de producción.

Antes de ejecutar git clone en cualquier cosa, aplica este marco:

Criterio	Por qué importa	Señal de alerta
Fecha del último commit	LinkedIn cambia el DOM con frecuencia	Más de 6 meses en repos guiados por navegador
Ratio de issues abiertos/cerrados	Capacidad de respuesta del mantenedor	Más de 3:1 entre abiertos y cerrados, especialmente con informes recientes de "bloqueado" o "CAPTCHA"
Funciones anti-detección	LinkedIn bloquea de forma agresiva	No menciona cookies, sesiones, ritmo de navegación o proxies en el README
Método de autenticación	2FA y CAPTCHA rompen los flujos de login	Solo admite inicio de sesión sin interfaz con contraseña
Tipo de licencia	Exposición legal para uso comercial	Sin licencia o con términos ambiguos
Tipos de datos compatibles	Distintos casos de uso requieren distintos repos	Solo un tipo de datos cuando necesitas varios

El truco que más tiempo ahorra: antes de comprometerte con cualquier repo, busca en su pestaña de Issues las palabras "blocked", "banned", "CAPTCHA" o "not working". Si los issues recientes están llenos de esos términos y el mantenedor no responde, pasa al siguiente. Ese repo ya perdió la batalla.

Lo que realmente mostró la auditoría de 2026

Apliqué esta ficha de salud a ocho de los repos de LinkedIn scraper más visibles en GitHub. Los resultados no fueron alentadores.

Repo	Estrellas	Último commit	¿Funciona en 2026?	Alcance principal	Notas clave
joeyism/linkedin_scraper	~3.983	Abr 2026	✅ Con matices	Perfiles, empresas, publicaciones, empleos	Reescritura basada en Playwright, reutilización de sesión — pero los issues recientes muestran bloqueos de seguridad y búsqueda de empleo rota
python-scrapy-playbook/linkedin-python-scrapy-scraper	~111	Ene 2026	✅ Para tutoriales/datos públicos	Personas, empresas, empleos	Integración con proxy de ScrapeOps; el plan gratis permite 1.000 solicitudes al mes con 1 hilo
spinlud/py-linkedin-jobs-scraper	~472	Mar 2025	⚠️ Solo empleos	Empleos	Soporte para cookies, modo proxy experimental — útil si solo necesitas ofertas públicas
madingess/EasyApplyBot	~170	Mar 2025	⚠️ Herramienta equivocada	Automatización de Easy Apply	No es un scraper de datos: automatiza solicitudes de empleo
linkedtales/scrapedin	~611	May 2021	❌	Perfiles	El README aún dice "working in 2020"; los issues muestran verificación de pin y cambios en el HTML
austinoboyle/scrape-linkedin-selenium	~526	Oct 2022	❌	Perfiles, empresas	Antes era útil, pero en 2026 ya está demasiado desactualizado
eilonmore/linkedin-private-api	~291	Jul 2022	❌	Perfiles, empleos, empresas, publicaciones	Wrapper de API privada; los endpoints no documentados cambian de forma impredecible
nsandman/linkedin-api	~154	Jul 2019	❌	Perfiles, mensajería, búsqueda	Interesante históricamente; documenta limitación de tasa después de unas 900 solicitudes por hora

Solo 2 de 8 repos parecían realmente utilizables para un lector de 2026 sin grandes advertencias. Esa proporción no es rara: es la norma del scraping de LinkedIn en GitHub.

El manual de prevención de baneos: proxies, límites de tasa y seguridad de cuentas

Los bloqueos de cuenta son el mayor riesgo operativo. Incluso los scrapers técnicamente competentes fallan aquí. El código funciona; la cuenta, no. Hay usuarios que reportan que les marcaron la cuenta después de solo pese a usar proxies y largas esperas.

Limitación de tasa: lo que reporta la comunidad

No existe una cifra segura garantizada. LinkedIn evalúa la antigüedad de la sesión, el tiempo entre clics, los patrones de ráfaga, la reputación de la IP y el comportamiento de la cuenta, no solo el volumen bruto. Los datos de la comunidad se agrupan en estos rangos:

Un usuario informó detección tras 40–80 perfiles con proxies y una cadencia de 33 segundos
Otro aconsejó mantenerse en torno a 30 perfiles/día/cuenta
Un operador más agresivo afirmó repartidos a lo largo del día
documentó un aviso interno de límite de tasa tras unas 900 solicitudes en una hora

La síntesis práctica: menos de 50 vistas de perfil/día/cuenta es la zona de menor riesgo. 50–100/día es riesgo medio, donde la calidad de la sesión importa mucho. Por encima de 100/día/cuenta entras en un terreno cada vez más agresivo.

Estrategia de proxy: residencial frente a datacenter

Los proxies residenciales siguen siendo el estándar para LinkedIn porque se parecen al tráfico normal de un usuario final. Las IP de datacenter son más baratas, pero se detectan antes en sitios sofisticados, y LinkedIn es exactamente el tipo de sitio en el que el tráfico barato salta a la vista.

Contexto actual de precios:

: $3,00–$4,00/GB según el plan
: $4,00–$6,00/GB según el plan

Rota por sesión, no por solicitud. Rotar por solicitud crea una huella que grita "infraestructura de proxy" mucho más que cualquier IP individual.

Protocolo de cuenta desechable

El consejo de la comunidad es tajante: no trates tu cuenta principal de LinkedIn como una infraestructura de scraping desechable.

Si insistes en hacer scraping con cuentas:

Usa una cuenta separada de tu identidad profesional principal
Completa el perfil al 100 % y deja que se comporte como una persona durante días antes de scrapear
Nunca vincules tu número real de teléfono a las cuentas de scraping
Mantén las sesiones de scraping completamente separadas del contacto y la mensajería reales

Conviene recordarlo: el de LinkedIn (vigente desde el 3 de noviembre de 2025) prohíbe expresamente identidades falsas y compartir cuentas. La táctica de la cuenta desechable es común en la práctica, pero contractualmente es un terreno resbaladizo.

Cómo manejar los CAPTCHA

Un CAPTCHA no es solo una molestia. Es una señal de que tu sesión ya está bajo escrutinio. Las opciones incluyen:

Completarlo manualmente para seguir con la sesión
Reutilizar cookies en lugar de repetir los flujos de login
Servicios de resolución como (~$0,50–$1,00 por 1.000 CAPTCHA de imagen, ~$1,00–$2,99 por 1.000 resoluciones de reCAPTCHA v2)

Pero si tu flujo dispara CAPTCHA de forma habitual, el coste de los servicios de resolución es tu menor problema. Tu stack está perdiendo la batalla por el sigilo.

El espectro de riesgo

Volumen	Nivel de riesgo	Enfoque recomendado
< 50 perfiles/día	Más bajo	Sesión de navegador o reutilización de cookies, ritmo lento, sin automatización agresiva
50–500 perfiles/día	Medio a alto	Proxies residenciales, cuentas calentadas, reutilización de sesiones, retrasos aleatorios
500+/día	Muy alto	APIs comerciales o herramientas mantenidas con anti-detección integrada; los repos públicos por sí solos normalmente no bastan

La paradoja del código abierto: por qué los repos populares de LinkedIn Scraper en GitHub se rompen más rápido

Los usuarios plantean una preocupación válida: "Hacer una versión de código abierto significa que LinkedIn puede ver lo que haces y bloquearlo". Esa preocupación no es paranoia. Es estructuralmente correcta.

El problema de la visibilidad

Un alto número de estrellas crea dos señales a la vez: confianza para los usuarios y un objetivo para el equipo de seguridad de LinkedIn. Cuanto más popular se vuelve un repo, más probable es que LinkedIn contrarreste sus métodos de forma específica.

Se ve este ciclo en los datos de la auditoría. linkedtales/scrapedin llegó a ser lo bastante notable como para presumir de que funcionaba con el "nuevo sitio web" de LinkedIn en 2020. Pero el repo no siguió el ritmo de las verificaciones y cambios de diseño posteriores. nsandman/linkedin-api documentó trucos útiles en su momento, pero su último commit quedó años atrás respecto al entorno anti-bots actual.

La ventaja del parche comunitario

El código abierto sigue teniendo una ventaja real: los mantenedores y colaboradores activos pueden parchear rápido cuando LinkedIn cambia sus defensas. joeyism/linkedin_scraper es el principal ejemplo de esta auditoría: sigue arrastrando issues de autenticación bloqueada y búsquedas rotas, pero al menos se mueve. Los forks suelen implementar técnicas de evasión más nuevas con más rapidez que el repo original.

Qué hacer al respecto

No dependas de un único repo público como infraestructura permanente
Busca forks activos que implementen técnicas de evasión actualizadas
Considera mantener un fork privado para uso en producción (así tus adaptaciones específicas no quedan públicas)
Espera tener que cambiar de método cuando LinkedIn modifique la detección o el comportamiento de la interfaz
Diversifica los enfoques en lugar de apostar todo a una sola herramienta

Extracción con IA frente a selectores CSS: comparación práctica

La división técnica más interesante en 2026 no es GitHub frente a no-code. Es extracción basada en selectores frente a extracción semántica —y la diferencia importa mucho más de lo que reconocen la mayoría de los resúmenes.

Cómo funcionan los selectores CSS (y cómo se rompen)

Los scrapers tradicionales inspeccionan el DOM de LinkedIn y asignan cada campo a un selector CSS o a una expresión XPath. Cuando la estructura de la página es estable, el enfoque es excelente: alta precisión, bajo coste marginal y análisis muy rápido.

El modo de fallo es igual de evidente. LinkedIn cambia nombres de clase, anidación, comportamiento de carga diferida o pone barreras de autenticación distintas, y el scraper se rompe al instante. Los títulos de los issues de la auditoría cuentan la historia: "HTML changed", "broken job search", "missing values", "authwall blocks".

Cómo funciona la extracción con IA/LLM

El patrón más reciente es más simple en concepto: renderiza la página, recoge el texto visible y pide a un modelo que devuelva campos estructurados. Esa es la lógica detrás de muchos scrapers de IA no-code y de algunos flujos personalizados más recientes.

Usando los precios actuales de ($0,15/1M tokens de entrada, $0,60/1M tokens de salida), una pasada de extracción solo de texto para un perfil suele costar $0,0006–$0,0018 por perfil. Es tan poco que resulta irrelevante para flujos de volumen medio.

Comparación cara a cara

Dimensión	Selector CSS / XPath	Extracción con IA/LLM
Esfuerzo de configuración	Alto — inspeccionar el DOM, escribir selectores por campo	Bajo — describir el resultado deseado en lenguaje natural
Rotura ante cambios de diseño	Se rompe de inmediato	Se adapta automáticamente (lee semánticamente)
Precisión en campos estructurados	~99 % cuando los selectores son correctos	~95–98 % (errores ocasionales de interpretación del LLM)
Manejo de datos no estructurados o variables	Débil sin lógica personalizada	Fuerte — la IA interpreta el contexto
Coste por perfil	Casi cero (solo cómputo)	~$0,001–$0,002 (coste de tokens de API)
Etiquetado / categorización	Requiere posprocesado aparte	Puede categorizar, traducir y etiquetar en una sola pasada
Carga de mantenimiento	Correcciones continuas de selectores	Casi nula

¿Cuál deberías elegir?

Para canalizaciones de altísimo volumen, estables y bajo control del equipo de ingeniería, el análisis basado en selectores todavía puede ganar en coste. Para la mayoría de usuarios pequeños y medianos que extraen cientos —no millones— de perfiles, la extracción con IA es la mejor inversión a largo plazo porque los cambios de diseño de LinkedIn cuestan más en tiempo de desarrollo que en tokens del modelo que te ahorras.

Cuando los repos de GitHub son demasiado: la vía no-code

La mayoría de quienes buscan "linkedin scraper github" no quieren convertirse en mantenedores de automatización de navegador.

Quieren filas en una tabla.

Los usuarios se quejan explícitamente de la usabilidad de los scrapers de GitHub en los issues: "No maneja 2FA y no es fácil de usar porque no hay interfaz". La audiencia incluye recruiters, SDRs y responsables de operaciones, no solo desarrolladores de Python.

La decisión entre construir o comprar

Factor	Repo de GitHub	Herramienta no-code (p. ej., Thunderbit)
Tiempo de configuración	30 min–2+ horas (Python, dependencias, proxies)	Menos de 2 minutos (instalar extensión, hacer clic)
Mantenimiento	Lo arreglas tú cuando LinkedIn cambia	El proveedor de la herramienta se encarga de las actualizaciones
Anti-detección	Configuras proxies, pausas y sesiones	Integrado en la herramienta
Estructuración de datos	Escribes la lógica de parseo	La IA sugiere campos automáticamente
Opciones de exportación	Construyes el flujo de exportación	Exportación con un clic a Excel, Google Sheets, Airtable, Notion
Coste	Repo gratis + coste de proxies + tu tiempo	Hay plan gratuito; basado en créditos para volumen

Cómo Thunderbit gestiona el scraping de LinkedIn sin código

aborda el problema de forma distinta a los repos de GitHub. En vez de escribir selectores o configurar automatización de navegador, haces esto:

Instalas la
Navegas a cualquier página de LinkedIn (resultados de búsqueda, perfil, página de empresa)
Haces clic en "AI Suggest Fields" — la IA de Thunderbit lee la página y propone columnas estructuradas (nombre, cargo, empresa, ubicación, etc.)
Ajustas las columnas si hace falta y luego haces clic para extraer
Exportas directamente a Excel, Google Sheets, o Notion

Como Thunderbit usa IA para leer la página semánticamente cada vez, no se rompe cuando LinkedIn cambia su DOM. Esa es la misma ventaja que el enfoque integrado con GPT en scripts personalizados de Python, pero empaquetada en una extensión no-code en lugar de una base de código que tienes que mantener.

Para —hacer clic en perfiles individuales desde una lista de resultados para enriquecer tu tabla de datos— Thunderbit lo gestiona automáticamente. El modo navegador funciona con páginas que requieren inicio de sesión sin necesidad de configurar proxies aparte.

¿Quién debería seguir usando un repo de GitHub?

Los repos de GitHub siguen teniendo sentido para:

Desarrolladores que necesitan personalización profunda o tipos de datos poco comunes
Equipos que hacen scraping a muy alto volumen y donde el coste por crédito importa
Usuarios que necesitan ejecutar scraping en pipelines de CI/CD o en servidores
Personas que integran datos de LinkedIn en flujos automatizados más grandes

Para todos los demás —especialmente equipos de ventas, recruiting y operaciones— la elimina por completo el ciclo de configuración y mantenimiento.

Paso a paso: cómo evaluar y usar un LinkedIn Scraper de GitHub

Si ya decidiste que GitHub es el camino correcto, aquí tienes un flujo por fases para minimizar el tiempo perdido y el riesgo sobre la cuenta.

Paso 1: busca y filtra repos

Busca en GitHub "linkedin scraper" y filtra por:

Actualizado recientemente (últimos 6 meses)
Lenguaje compatible con tu stack (Python es el más común)
Alcance que encaje con tu necesidad real (perfiles vs. empleos vs. empresas)

Haz una lista corta de 3 a 5 repos que parezcan activos.

Paso 2: aplica la ficha de salud del repo

Pasa cada repo por la ficha anterior. Elimina cualquier cosa con:

Ningún commit en el último año
Issues sin resolver sobre "blocked" o "CAPTCHA"
Autenticación solo con contraseña
Ninguna mención de sesiones, cookies o proxies

Paso 3: prepara tu entorno

Comandos de configuración habituales que aparecieron en los repos de esta auditoría:

1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile

Puntos de fricción recurrentes:

Archivos session.json ausentes
Desajustes de versión del driver del navegador (Chromium/Playwright)
Extracción de cookies desde DevTools del navegador
Timeouts en la autenticación del proxy

Paso 4: haz una prueba pequeña

Empieza con 10–20 perfiles. Comprueba:

¿Los campos se están parseando correctamente?
¿Los datos están completos?
¿Apareció algún punto de control de seguridad?
¿El formato de salida es usable o solo ruido JSON en bruto?

Paso 5: escala con cuidado

Añade retrasos aleatorios (5–15 segundos entre solicitudes), reduce la concurrencia, reutiliza sesiones y usa proxies residenciales. No pases a cientos de perfiles/día con una cuenta nueva.

Paso 6: exporta y estructura tus datos

La mayoría de los repos de GitHub exportan JSON o CSV en bruto. Aun así tendrás que:

Eliminar duplicados
Normalizar cargos y nombres de empresa
Mapear campos a tu CRM o ATS
Documentar el origen de los datos para cumplimiento normativo

(Thunderbit gestiona la estructura y la exportación automáticamente si prefieres saltarte este paso.)

LinkedIn Scraper GitHub frente a herramientas no-code: comparación completa

Dimensión	Repo de GitHub (selectores CSS)	Repo de GitHub (IA/LLM)	Herramienta no-code (Thunderbit)
Tiempo de configuración	1–2+ horas	1–3+ horas (+ clave API)	Menos de 2 minutos
Habilidad técnica	Alta (Python, CLI)	Alta (Python + APIs de LLM)	Ninguna
Mantenimiento	Alto (los selectores se rompen)	Medio (el LLM se adapta, pero el código sigue necesitando actualizaciones)	Ninguno (lo mantiene el proveedor)
Anti-detección	Hecho por ti (proxies, pausas)	Hecho por ti	Integrado
Precisión	Alta cuando funciona	Alta, con errores ocasionales del LLM	Alta (impulsada por IA)
Coste	Gratis + coste de proxies + tu tiempo	Gratis + coste de la API LLM + coste de proxies	Plan gratuito; basado en créditos para volumen
Exportación	Hecho por ti (JSON, CSV)	Hecho por ti	Excel, Sheets, Airtable, Notion
Mejor para	Desarrolladores, pipelines personalizados	Desarrolladores que quieren menos mantenimiento	Equipos de ventas, recruiting y operaciones

Consideraciones legales y éticas

Seré breve aquí, pero no se puede saltar.

El de LinkedIn (vigente desde el 3 de noviembre de 2025) prohíbe explícitamente usar software, scripts, robots, crawlers o extensiones de navegador para scrapear el servicio. LinkedIn ha respaldado esto con acciones de cumplimiento:

: LinkedIn anunció acciones legales contra Proxycurl
: LinkedIn afirmó que ese caso se resolvió
: Law360 informó que LinkedIn demandó a más acusados por scraping a escala industrial

La línea de casos hiQ contra LinkedIn creó cierto matiz en torno al acceso a datos públicos, pero favorecieron a LinkedIn en teorías de incumplimiento contractual. "Visible públicamente" no significa "claramente seguro de scrapear a escala para reutilización comercial".

Para flujos vinculados a la UE, . La de la autoridad francesa de protección de datos es un ejemplo concreto de reguladores tratando los datos scrapados de LinkedIn como datos personales sujetos a normas de protección de datos.

Usar una herramienta mantenida como Thunderbit no cambia tus obligaciones legales. Pero sí reduce el riesgo de activar respuestas de seguridad o violar límites de tasa de forma accidental y llamar la atención de LinkedIn.

Qué funciona y qué no en 2026

Qué sí funciona

Aplicar la ficha de salud del repo antes de comprometerte con cualquier proyecto
Reutilizar cookies/sesiones en lugar de repetir inicios de sesión automáticos
Usar proxies residenciales cuando tengas que hacer scraping con cuenta
Flujos más pequeños, lentos y con comportamiento humano
Extracción asistida por IA cuando valoras la adaptabilidad por encima del coste marginal de tokens
cuando la necesidad real es sacar datos a una hoja de cálculo, no ser dueño del scraper
Diversificar enfoques en lugar de apostar por un solo repo público

Qué no funciona

Clonar repos con muchas estrellas sin revisar el estado de mantenimiento o los issues recientes
Usar proxies de datacenter o listas de proxies gratis para LinkedIn
Escalar a cientos de perfiles/día sin límites de tasa ni anti-detección
Depender de selectores CSS a largo plazo sin un plan de mantenimiento
Tratar tu cuenta real de LinkedIn como infraestructura desechable
Confundir "accesible públicamente" con "sin problemas contractuales o legales"

Preguntas frecuentes

¿Siguen funcionando en 2026 los repos de GitHub para LinkedIn scraper?

Algunos sí, pero solo una pequeña parte. En esta auditoría de ocho repos visibles, solo dos parecían realmente utilizables para un lector de 2026 sin grandes advertencias. La clave es evaluar los repos por actividad de mantenimiento y salud de issues, no por número de estrellas. Usa la ficha de salud del repo antes de invertir tiempo de configuración en cualquier proyecto.

¿Cuántos perfiles de LinkedIn puedo scrapear al día sin que me bloqueen?

No existe una cifra segura garantizada porque LinkedIn evalúa el comportamiento de la sesión, no solo el volumen. Los informes de la comunidad sugieren que menos de 50 perfiles/día/cuenta es la zona de menor riesgo, 50–100/día es riesgo medio donde la calidad de la infraestructura importa, y por encima de 100/día la situación se vuelve cada vez más agresiva. Los retrasos aleatorios de 5–15 segundos y los proxies residenciales ayudan, pero nada elimina del todo el riesgo.

¿Existe una alternativa no-code a los proyectos de LinkedIn scraper en GitHub?

Sí. te permite scrapear páginas de LinkedIn en unos pocos clics con detección de campos impulsada por IA, autenticación basada en navegador (sin necesidad de configurar proxies) y exportación con un clic a Excel, Google Sheets, Airtable o Notion. Está pensado para equipos de ventas, recruiting y operaciones que quieren datos sin mantener código. Puedes probarlo desde la .

¿Es legal scrapear datos de LinkedIn?

Es una zona gris con bordes cada vez más afilados. El User Agreement de LinkedIn prohíbe expresamente el scraping, y LinkedIn ha emprendido acciones legales contra scrapers en . El precedente hiQ contra LinkedIn sobre acceso a datos públicos se ha ido acotando con resoluciones más recientes. El RGPD se aplica a datos personales de residentes de la UE independientemente de cómo se obtengan. Para cualquier caso de uso comercial, consulta con un abogado sobre tu situación concreta.

¿Extracción con IA o selectores CSS: cuál debería usar para scrapear LinkedIn?

Los selectores CSS son más rápidos y baratos por registro cuando funcionan, pero generan una rueda de mantenimiento porque LinkedIn cambia su DOM con frecuencia. La extracción con IA/LLM cuesta un poco más por perfil (~$0,001–$0,002 con las tarifas actuales de ), pero se adapta automáticamente a los cambios de diseño. Para la mayoría de usuarios no empresariales que extraen cientos y no millones de perfiles, la extracción con IA es la mejor inversión a largo plazo. El motor de IA integrado de Thunderbit ofrece esa ventaja sin que tengas que escribir ni mantener código.

Más información

LinkedIn Scraper GitHub: Lo que funciona en 2026 (y lo que no)

Prueba Thunderbit