Una búsqueda en GitHub de "linkedin scraper" arroja aproximadamente a fecha de abril de 2026. La mayoría te hará perder el tiempo. ¿Duro? Quizá. Pero eso fue lo que encontré tras auditar ocho de los repos más visibles, leer decenas de hilos de issues en GitHub y cruzar informes de la comunidad en Reddit y foros de scraping. El patrón se repite: los repos con muchas estrellas atraen atención, el equipo anti-bots de LinkedIn estudia el código, las detecciones se parchean, y los usuarios terminan con selectores rotos, bucles de CAPTCHA o bloqueos directos de cuenta. Un usuario de Reddit describió la situación actual sin rodeos: LinkedIn ha añadido "límites de tasa más estrictos, mejor detección de bots, seguimiento de sesiones y cambios frecuentes", y las herramientas antiguas ahora "fallan rápido o hacen que bloqueen cuentas/IP". Si eres vendedor, recruiter o responsable de operaciones y buscas datos de LinkedIn en una hoja de cálculo, es muy posible que el repo que clonaste el mes pasado ya esté muerto. Esta guía está pensada para ayudarte a decidir qué proyectos de GitHub sí merecen tu tiempo, cómo evitar que te bloqueen la cuenta y cuándo tiene más sentido prescindir del código por completo.
¿Qué es un LinkedIn Scraper en GitHub?
Un proyecto de LinkedIn scraper en GitHub es un script de código abierto —normalmente en Python, a veces en Node.js— que automatiza la extracción de datos estructurados de páginas de LinkedIn. Los objetivos habituales incluyen:
- Perfiles de personas: nombre, titular, empresa, ubicación, habilidades, experiencia
- Ofertas de empleo: título, empresa, ubicación, fecha de publicación, URL del empleo
- Páginas de empresa: resumen, número de empleados, sector, número de seguidores
- Publicaciones e interacción: texto del contenido, me gusta, comentarios, compartidos
Por dentro, la mayoría de los repos usan uno de dos enfoques. Los scrapers guiados por navegador dependen de Selenium, Playwright o Puppeteer para renderizar páginas, seguir flujos de navegación y extraer datos mediante selectores CSS o XPath. Un subconjunto más pequeño intenta llamar directamente a los endpoints internos —no documentados— de la API de LinkedIn. Y una ola más reciente —todavía poco común en GitHub, pero en crecimiento— combina automatización de navegador con un LLM como GPT-4o mini para convertir el texto de la página en campos estructurados sin depender de selectores frágiles.
Hay una desconexión fundamental entre audiencia y herramienta. Estas soluciones las construyen desarrolladores cómodos con entornos virtuales, dependencias de navegador y configuración de proxies. Pero gran parte de quienes buscan "linkedin scraper github" son recruiters, SDRs, responsables de RevOps y fundadores que solo quieren filas en una hoja de cálculo.
Esa brecha explica buena parte de la frustración en los hilos de issues.
Por qué la gente recurre a GitHub para hacer scraping de LinkedIn
La ventaja es obvia. Gratis. Personalizable. Sin dependencia de un proveedor. Control total sobre tu canal de datos. Si una herramienta SaaS cambia precios o desaparece, tu código sigue ahí.
| Caso de uso | Quién lo necesita | Datos que suele extraer |
|---|---|---|
| Generación de leads | Equipos de ventas | Nombres, cargos, empresas, URLs de perfil, pistas de email |
| Búsqueda de candidatos | Recruiters | Perfiles, habilidades, experiencia, ubicaciones |
| Investigación de mercado | Equipos de operaciones y estrategia | Datos de empresa, número de empleados, ofertas de empleo |
| Inteligencia competitiva | Equipos de marketing | Publicaciones, interacción, novedades de empresa, señales de contratación |
Pero "gratis" es una etiqueta de licencia, no un coste operativo. Los gastos reales son:
- Tiempo de configuración: incluso los repos más amigables suelen requerir de 30 minutos a más de 2 horas para configurar el entorno, instalar dependencias del navegador, extraer cookies y configurar proxies
- Mantenimiento: LinkedIn cambia con frecuencia su DOM y sus defensas anti-bots; hoy puede funcionar y la semana que viene dejar de hacerlo
- Proxies: el ancho de banda de proxies residenciales cuesta entre , según proveedor y plan
- Riesgo de cuenta: tu cuenta de LinkedIn es lo más valioso que está en juego, y no se puede reemplazar como una IP de proxy
La ficha de salud del repo: cómo evaluar cualquier proyecto de LinkedIn Scraper en GitHub
La mayoría de las listas de "mejores LinkedIn scraper" ordenan los repos por número de estrellas. Las estrellas miden interés histórico, no funcionalidad actual. Un repo con 3.000 estrellas y sin commits desde 2022 es una pieza de museo, no una herramienta de producción.
Antes de ejecutar git clone en cualquier cosa, aplica este marco:
| Criterio | Por qué importa | Señal de alerta |
|---|---|---|
| Fecha del último commit | LinkedIn cambia el DOM con frecuencia | Más de 6 meses en repos guiados por navegador |
| Ratio de issues abiertos/cerrados | Capacidad de respuesta del mantenedor | Más de 3:1 entre abiertos y cerrados, especialmente con informes recientes de "bloqueado" o "CAPTCHA" |
| Funciones anti-detección | LinkedIn bloquea de forma agresiva | No menciona cookies, sesiones, ritmo de navegación o proxies en el README |
| Método de autenticación | 2FA y CAPTCHA rompen los flujos de login | Solo admite inicio de sesión sin interfaz con contraseña |
| Tipo de licencia | Exposición legal para uso comercial | Sin licencia o con términos ambiguos |
| Tipos de datos compatibles | Distintos casos de uso requieren distintos repos | Solo un tipo de datos cuando necesitas varios |
El truco que más tiempo ahorra: antes de comprometerte con cualquier repo, busca en su pestaña de Issues las palabras "blocked", "banned", "CAPTCHA" o "not working". Si los issues recientes están llenos de esos términos y el mantenedor no responde, pasa al siguiente. Ese repo ya perdió la batalla.
Lo que realmente mostró la auditoría de 2026

Apliqué esta ficha de salud a ocho de los repos de LinkedIn scraper más visibles en GitHub. Los resultados no fueron alentadores.
| Repo | Estrellas | Último commit | ¿Funciona en 2026? | Alcance principal | Notas clave |
|---|---|---|---|---|---|
| joeyism/linkedin_scraper | ~3.983 | Abr 2026 | ✅ Con matices | Perfiles, empresas, publicaciones, empleos | Reescritura basada en Playwright, reutilización de sesión — pero los issues recientes muestran bloqueos de seguridad y búsqueda de empleo rota |
| python-scrapy-playbook/linkedin-python-scrapy-scraper | ~111 | Ene 2026 | ✅ Para tutoriales/datos públicos | Personas, empresas, empleos | Integración con proxy de ScrapeOps; el plan gratis permite 1.000 solicitudes al mes con 1 hilo |
| spinlud/py-linkedin-jobs-scraper | ~472 | Mar 2025 | ⚠️ Solo empleos | Empleos | Soporte para cookies, modo proxy experimental — útil si solo necesitas ofertas públicas |
| madingess/EasyApplyBot | ~170 | Mar 2025 | ⚠️ Herramienta equivocada | Automatización de Easy Apply | No es un scraper de datos: automatiza solicitudes de empleo |
| linkedtales/scrapedin | ~611 | May 2021 | ❌ | Perfiles | El README aún dice "working in 2020"; los issues muestran verificación de pin y cambios en el HTML |
| austinoboyle/scrape-linkedin-selenium | ~526 | Oct 2022 | ❌ | Perfiles, empresas | Antes era útil, pero en 2026 ya está demasiado desactualizado |
| eilonmore/linkedin-private-api | ~291 | Jul 2022 | ❌ | Perfiles, empleos, empresas, publicaciones | Wrapper de API privada; los endpoints no documentados cambian de forma impredecible |
| nsandman/linkedin-api | ~154 | Jul 2019 | ❌ | Perfiles, mensajería, búsqueda | Interesante históricamente; documenta limitación de tasa después de unas 900 solicitudes por hora |
Solo 2 de 8 repos parecían realmente utilizables para un lector de 2026 sin grandes advertencias. Esa proporción no es rara: es la norma del scraping de LinkedIn en GitHub.
El manual de prevención de baneos: proxies, límites de tasa y seguridad de cuentas
Los bloqueos de cuenta son el mayor riesgo operativo. Incluso los scrapers técnicamente competentes fallan aquí. El código funciona; la cuenta, no. Hay usuarios que reportan que les marcaron la cuenta después de solo pese a usar proxies y largas esperas.
Limitación de tasa: lo que reporta la comunidad

No existe una cifra segura garantizada. LinkedIn evalúa la antigüedad de la sesión, el tiempo entre clics, los patrones de ráfaga, la reputación de la IP y el comportamiento de la cuenta, no solo el volumen bruto. Los datos de la comunidad se agrupan en estos rangos:
- Un usuario informó detección tras 40–80 perfiles con proxies y una cadencia de 33 segundos
- Otro aconsejó mantenerse en torno a 30 perfiles/día/cuenta
- Un operador más agresivo afirmó repartidos a lo largo del día
- documentó un aviso interno de límite de tasa tras unas 900 solicitudes en una hora
La síntesis práctica: menos de 50 vistas de perfil/día/cuenta es la zona de menor riesgo. 50–100/día es riesgo medio, donde la calidad de la sesión importa mucho. Por encima de 100/día/cuenta entras en un terreno cada vez más agresivo.
Estrategia de proxy: residencial frente a datacenter
Los proxies residenciales siguen siendo el estándar para LinkedIn porque se parecen al tráfico normal de un usuario final. Las IP de datacenter son más baratas, pero se detectan antes en sitios sofisticados, y LinkedIn es exactamente el tipo de sitio en el que el tráfico barato salta a la vista.
Contexto actual de precios:
- : $3,00–$4,00/GB según el plan
- : $4,00–$6,00/GB según el plan
Rota por sesión, no por solicitud. Rotar por solicitud crea una huella que grita "infraestructura de proxy" mucho más que cualquier IP individual.
Protocolo de cuenta desechable
El consejo de la comunidad es tajante: no trates tu cuenta principal de LinkedIn como una infraestructura de scraping desechable.
Si insistes en hacer scraping con cuentas:
- Usa una cuenta separada de tu identidad profesional principal
- Completa el perfil al 100 % y deja que se comporte como una persona durante días antes de scrapear
- Nunca vincules tu número real de teléfono a las cuentas de scraping
- Mantén las sesiones de scraping completamente separadas del contacto y la mensajería reales
Conviene recordarlo: el de LinkedIn (vigente desde el 3 de noviembre de 2025) prohíbe expresamente identidades falsas y compartir cuentas. La táctica de la cuenta desechable es común en la práctica, pero contractualmente es un terreno resbaladizo.
Cómo manejar los CAPTCHA
Un CAPTCHA no es solo una molestia. Es una señal de que tu sesión ya está bajo escrutinio. Las opciones incluyen:
- Completarlo manualmente para seguir con la sesión
- Reutilizar cookies en lugar de repetir los flujos de login
- Servicios de resolución como (~$0,50–$1,00 por 1.000 CAPTCHA de imagen, ~$1,00–$2,99 por 1.000 resoluciones de reCAPTCHA v2)
Pero si tu flujo dispara CAPTCHA de forma habitual, el coste de los servicios de resolución es tu menor problema. Tu stack está perdiendo la batalla por el sigilo.
El espectro de riesgo
| Volumen | Nivel de riesgo | Enfoque recomendado |
|---|---|---|
| < 50 perfiles/día | Más bajo | Sesión de navegador o reutilización de cookies, ritmo lento, sin automatización agresiva |
| 50–500 perfiles/día | Medio a alto | Proxies residenciales, cuentas calentadas, reutilización de sesiones, retrasos aleatorios |
| 500+/día | Muy alto | APIs comerciales o herramientas mantenidas con anti-detección integrada; los repos públicos por sí solos normalmente no bastan |
La paradoja del código abierto: por qué los repos populares de LinkedIn Scraper en GitHub se rompen más rápido
Los usuarios plantean una preocupación válida: "Hacer una versión de código abierto significa que LinkedIn puede ver lo que haces y bloquearlo". Esa preocupación no es paranoia. Es estructuralmente correcta.
El problema de la visibilidad
Un alto número de estrellas crea dos señales a la vez: confianza para los usuarios y un objetivo para el equipo de seguridad de LinkedIn. Cuanto más popular se vuelve un repo, más probable es que LinkedIn contrarreste sus métodos de forma específica.
Se ve este ciclo en los datos de la auditoría. linkedtales/scrapedin llegó a ser lo bastante notable como para presumir de que funcionaba con el "nuevo sitio web" de LinkedIn en 2020. Pero el repo no siguió el ritmo de las verificaciones y cambios de diseño posteriores. nsandman/linkedin-api documentó trucos útiles en su momento, pero su último commit quedó años atrás respecto al entorno anti-bots actual.
La ventaja del parche comunitario
El código abierto sigue teniendo una ventaja real: los mantenedores y colaboradores activos pueden parchear rápido cuando LinkedIn cambia sus defensas. joeyism/linkedin_scraper es el principal ejemplo de esta auditoría: sigue arrastrando issues de autenticación bloqueada y búsquedas rotas, pero al menos se mueve. Los forks suelen implementar técnicas de evasión más nuevas con más rapidez que el repo original.
Qué hacer al respecto
- No dependas de un único repo público como infraestructura permanente
- Busca forks activos que implementen técnicas de evasión actualizadas
- Considera mantener un fork privado para uso en producción (así tus adaptaciones específicas no quedan públicas)
- Espera tener que cambiar de método cuando LinkedIn modifique la detección o el comportamiento de la interfaz
- Diversifica los enfoques en lugar de apostar todo a una sola herramienta
Extracción con IA frente a selectores CSS: comparación práctica

La división técnica más interesante en 2026 no es GitHub frente a no-code. Es extracción basada en selectores frente a extracción semántica —y la diferencia importa mucho más de lo que reconocen la mayoría de los resúmenes.
Cómo funcionan los selectores CSS (y cómo se rompen)
Los scrapers tradicionales inspeccionan el DOM de LinkedIn y asignan cada campo a un selector CSS o a una expresión XPath. Cuando la estructura de la página es estable, el enfoque es excelente: alta precisión, bajo coste marginal y análisis muy rápido.
El modo de fallo es igual de evidente. LinkedIn cambia nombres de clase, anidación, comportamiento de carga diferida o pone barreras de autenticación distintas, y el scraper se rompe al instante. Los títulos de los issues de la auditoría cuentan la historia: "HTML changed", "broken job search", "missing values", "authwall blocks".
Cómo funciona la extracción con IA/LLM
El patrón más reciente es más simple en concepto: renderiza la página, recoge el texto visible y pide a un modelo que devuelva campos estructurados. Esa es la lógica detrás de muchos scrapers de IA no-code y de algunos flujos personalizados más recientes.
Usando los precios actuales de ($0,15/1M tokens de entrada, $0,60/1M tokens de salida), una pasada de extracción solo de texto para un perfil suele costar $0,0006–$0,0018 por perfil. Es tan poco que resulta irrelevante para flujos de volumen medio.
Comparación cara a cara
| Dimensión | Selector CSS / XPath | Extracción con IA/LLM |
|---|---|---|
| Esfuerzo de configuración | Alto — inspeccionar el DOM, escribir selectores por campo | Bajo — describir el resultado deseado en lenguaje natural |
| Rotura ante cambios de diseño | Se rompe de inmediato | Se adapta automáticamente (lee semánticamente) |
| Precisión en campos estructurados | ~99 % cuando los selectores son correctos | ~95–98 % (errores ocasionales de interpretación del LLM) |
| Manejo de datos no estructurados o variables | Débil sin lógica personalizada | Fuerte — la IA interpreta el contexto |
| Coste por perfil | Casi cero (solo cómputo) | ~$0,001–$0,002 (coste de tokens de API) |
| Etiquetado / categorización | Requiere posprocesado aparte | Puede categorizar, traducir y etiquetar en una sola pasada |
| Carga de mantenimiento | Correcciones continuas de selectores | Casi nula |
¿Cuál deberías elegir?
Para canalizaciones de altísimo volumen, estables y bajo control del equipo de ingeniería, el análisis basado en selectores todavía puede ganar en coste. Para la mayoría de usuarios pequeños y medianos que extraen cientos —no millones— de perfiles, la extracción con IA es la mejor inversión a largo plazo porque los cambios de diseño de LinkedIn cuestan más en tiempo de desarrollo que en tokens del modelo que te ahorras.
Cuando los repos de GitHub son demasiado: la vía no-code
La mayoría de quienes buscan "linkedin scraper github" no quieren convertirse en mantenedores de automatización de navegador.
Quieren filas en una tabla.
Los usuarios se quejan explícitamente de la usabilidad de los scrapers de GitHub en los issues: "No maneja 2FA y no es fácil de usar porque no hay interfaz". La audiencia incluye recruiters, SDRs y responsables de operaciones, no solo desarrolladores de Python.
La decisión entre construir o comprar
| Factor | Repo de GitHub | Herramienta no-code (p. ej., Thunderbit) |
|---|---|---|
| Tiempo de configuración | 30 min–2+ horas (Python, dependencias, proxies) | Menos de 2 minutos (instalar extensión, hacer clic) |
| Mantenimiento | Lo arreglas tú cuando LinkedIn cambia | El proveedor de la herramienta se encarga de las actualizaciones |
| Anti-detección | Configuras proxies, pausas y sesiones | Integrado en la herramienta |
| Estructuración de datos | Escribes la lógica de parseo | La IA sugiere campos automáticamente |
| Opciones de exportación | Construyes el flujo de exportación | Exportación con un clic a Excel, Google Sheets, Airtable, Notion |
| Coste | Repo gratis + coste de proxies + tu tiempo | Hay plan gratuito; basado en créditos para volumen |
Cómo Thunderbit gestiona el scraping de LinkedIn sin código
aborda el problema de forma distinta a los repos de GitHub. En vez de escribir selectores o configurar automatización de navegador, haces esto:
- Instalas la
- Navegas a cualquier página de LinkedIn (resultados de búsqueda, perfil, página de empresa)
- Haces clic en "AI Suggest Fields" — la IA de Thunderbit lee la página y propone columnas estructuradas (nombre, cargo, empresa, ubicación, etc.)
- Ajustas las columnas si hace falta y luego haces clic para extraer
- Exportas directamente a Excel, Google Sheets, o Notion
Como Thunderbit usa IA para leer la página semánticamente cada vez, no se rompe cuando LinkedIn cambia su DOM. Esa es la misma ventaja que el enfoque integrado con GPT en scripts personalizados de Python, pero empaquetada en una extensión no-code en lugar de una base de código que tienes que mantener.
Para —hacer clic en perfiles individuales desde una lista de resultados para enriquecer tu tabla de datos— Thunderbit lo gestiona automáticamente. El modo navegador funciona con páginas que requieren inicio de sesión sin necesidad de configurar proxies aparte.
¿Quién debería seguir usando un repo de GitHub?
Los repos de GitHub siguen teniendo sentido para:
- Desarrolladores que necesitan personalización profunda o tipos de datos poco comunes
- Equipos que hacen scraping a muy alto volumen y donde el coste por crédito importa
- Usuarios que necesitan ejecutar scraping en pipelines de CI/CD o en servidores
- Personas que integran datos de LinkedIn en flujos automatizados más grandes
Para todos los demás —especialmente equipos de ventas, recruiting y operaciones— la elimina por completo el ciclo de configuración y mantenimiento.
Paso a paso: cómo evaluar y usar un LinkedIn Scraper de GitHub
Si ya decidiste que GitHub es el camino correcto, aquí tienes un flujo por fases para minimizar el tiempo perdido y el riesgo sobre la cuenta.
Paso 1: busca y filtra repos
Busca en GitHub "linkedin scraper" y filtra por:
- Actualizado recientemente (últimos 6 meses)
- Lenguaje compatible con tu stack (Python es el más común)
- Alcance que encaje con tu necesidad real (perfiles vs. empleos vs. empresas)
Haz una lista corta de 3 a 5 repos que parezcan activos.
Paso 2: aplica la ficha de salud del repo
Pasa cada repo por la ficha anterior. Elimina cualquier cosa con:
- Ningún commit en el último año
- Issues sin resolver sobre "blocked" o "CAPTCHA"
- Autenticación solo con contraseña
- Ninguna mención de sesiones, cookies o proxies
Paso 3: prepara tu entorno
Comandos de configuración habituales que aparecieron en los repos de esta auditoría:
1pip install linkedin-scraper
2playwright install chromium
3pip install linkedin-jobs-scraper
4LI_AT_COOKIE=<cookie> python your_app.py
5scrapy crawl linkedin_people_profile
Puntos de fricción recurrentes:
- Archivos
session.jsonausentes - Desajustes de versión del driver del navegador (Chromium/Playwright)
- Extracción de cookies desde DevTools del navegador
- Timeouts en la autenticación del proxy
Paso 4: haz una prueba pequeña
Empieza con 10–20 perfiles. Comprueba:
- ¿Los campos se están parseando correctamente?
- ¿Los datos están completos?
- ¿Apareció algún punto de control de seguridad?
- ¿El formato de salida es usable o solo ruido JSON en bruto?
Paso 5: escala con cuidado
Añade retrasos aleatorios (5–15 segundos entre solicitudes), reduce la concurrencia, reutiliza sesiones y usa proxies residenciales. No pases a cientos de perfiles/día con una cuenta nueva.
Paso 6: exporta y estructura tus datos
La mayoría de los repos de GitHub exportan JSON o CSV en bruto. Aun así tendrás que:
- Eliminar duplicados
- Normalizar cargos y nombres de empresa
- Mapear campos a tu CRM o ATS
- Documentar el origen de los datos para cumplimiento normativo
(Thunderbit gestiona la estructura y la exportación automáticamente si prefieres saltarte este paso.)
LinkedIn Scraper GitHub frente a herramientas no-code: comparación completa
| Dimensión | Repo de GitHub (selectores CSS) | Repo de GitHub (IA/LLM) | Herramienta no-code (Thunderbit) |
|---|---|---|---|
| Tiempo de configuración | 1–2+ horas | 1–3+ horas (+ clave API) | Menos de 2 minutos |
| Habilidad técnica | Alta (Python, CLI) | Alta (Python + APIs de LLM) | Ninguna |
| Mantenimiento | Alto (los selectores se rompen) | Medio (el LLM se adapta, pero el código sigue necesitando actualizaciones) | Ninguno (lo mantiene el proveedor) |
| Anti-detección | Hecho por ti (proxies, pausas) | Hecho por ti | Integrado |
| Precisión | Alta cuando funciona | Alta, con errores ocasionales del LLM | Alta (impulsada por IA) |
| Coste | Gratis + coste de proxies + tu tiempo | Gratis + coste de la API LLM + coste de proxies | Plan gratuito; basado en créditos para volumen |
| Exportación | Hecho por ti (JSON, CSV) | Hecho por ti | Excel, Sheets, Airtable, Notion |
| Mejor para | Desarrolladores, pipelines personalizados | Desarrolladores que quieren menos mantenimiento | Equipos de ventas, recruiting y operaciones |
Consideraciones legales y éticas
Seré breve aquí, pero no se puede saltar.
El de LinkedIn (vigente desde el 3 de noviembre de 2025) prohíbe explícitamente usar software, scripts, robots, crawlers o extensiones de navegador para scrapear el servicio. LinkedIn ha respaldado esto con acciones de cumplimiento:
- : LinkedIn anunció acciones legales contra Proxycurl
- : LinkedIn afirmó que ese caso se resolvió
- : Law360 informó que LinkedIn demandó a más acusados por scraping a escala industrial
La línea de casos hiQ contra LinkedIn creó cierto matiz en torno al acceso a datos públicos, pero favorecieron a LinkedIn en teorías de incumplimiento contractual. "Visible públicamente" no significa "claramente seguro de scrapear a escala para reutilización comercial".
Para flujos vinculados a la UE, . La de la autoridad francesa de protección de datos es un ejemplo concreto de reguladores tratando los datos scrapados de LinkedIn como datos personales sujetos a normas de protección de datos.
Usar una herramienta mantenida como Thunderbit no cambia tus obligaciones legales. Pero sí reduce el riesgo de activar respuestas de seguridad o violar límites de tasa de forma accidental y llamar la atención de LinkedIn.
Qué funciona y qué no en 2026
Qué sí funciona
- Aplicar la ficha de salud del repo antes de comprometerte con cualquier proyecto
- Reutilizar cookies/sesiones en lugar de repetir inicios de sesión automáticos
- Usar proxies residenciales cuando tengas que hacer scraping con cuenta
- Flujos más pequeños, lentos y con comportamiento humano
- Extracción asistida por IA cuando valoras la adaptabilidad por encima del coste marginal de tokens
- cuando la necesidad real es sacar datos a una hoja de cálculo, no ser dueño del scraper
- Diversificar enfoques en lugar de apostar por un solo repo público
Qué no funciona
- Clonar repos con muchas estrellas sin revisar el estado de mantenimiento o los issues recientes
- Usar proxies de datacenter o listas de proxies gratis para LinkedIn
- Escalar a cientos de perfiles/día sin límites de tasa ni anti-detección
- Depender de selectores CSS a largo plazo sin un plan de mantenimiento
- Tratar tu cuenta real de LinkedIn como infraestructura desechable
- Confundir "accesible públicamente" con "sin problemas contractuales o legales"
Preguntas frecuentes
¿Siguen funcionando en 2026 los repos de GitHub para LinkedIn scraper?
Algunos sí, pero solo una pequeña parte. En esta auditoría de ocho repos visibles, solo dos parecían realmente utilizables para un lector de 2026 sin grandes advertencias. La clave es evaluar los repos por actividad de mantenimiento y salud de issues, no por número de estrellas. Usa la ficha de salud del repo antes de invertir tiempo de configuración en cualquier proyecto.
¿Cuántos perfiles de LinkedIn puedo scrapear al día sin que me bloqueen?
No existe una cifra segura garantizada porque LinkedIn evalúa el comportamiento de la sesión, no solo el volumen. Los informes de la comunidad sugieren que menos de 50 perfiles/día/cuenta es la zona de menor riesgo, 50–100/día es riesgo medio donde la calidad de la infraestructura importa, y por encima de 100/día la situación se vuelve cada vez más agresiva. Los retrasos aleatorios de 5–15 segundos y los proxies residenciales ayudan, pero nada elimina del todo el riesgo.
¿Existe una alternativa no-code a los proyectos de LinkedIn scraper en GitHub?
Sí. te permite scrapear páginas de LinkedIn en unos pocos clics con detección de campos impulsada por IA, autenticación basada en navegador (sin necesidad de configurar proxies) y exportación con un clic a Excel, Google Sheets, Airtable o Notion. Está pensado para equipos de ventas, recruiting y operaciones que quieren datos sin mantener código. Puedes probarlo desde la .
¿Es legal scrapear datos de LinkedIn?
Es una zona gris con bordes cada vez más afilados. El User Agreement de LinkedIn prohíbe expresamente el scraping, y LinkedIn ha emprendido acciones legales contra scrapers en . El precedente hiQ contra LinkedIn sobre acceso a datos públicos se ha ido acotando con resoluciones más recientes. El RGPD se aplica a datos personales de residentes de la UE independientemente de cómo se obtengan. Para cualquier caso de uso comercial, consulta con un abogado sobre tu situación concreta.
¿Extracción con IA o selectores CSS: cuál debería usar para scrapear LinkedIn?
Los selectores CSS son más rápidos y baratos por registro cuando funcionan, pero generan una rueda de mantenimiento porque LinkedIn cambia su DOM con frecuencia. La extracción con IA/LLM cuesta un poco más por perfil (~$0,001–$0,002 con las tarifas actuales de ), pero se adapta automáticamente a los cambios de diseño. Para la mayoría de usuarios no empresariales que extraen cientos y no millones de perfiles, la extracción con IA es la mejor inversión a largo plazo. El motor de IA integrado de Thunderbit ofrece esa ventaja sin que tengas que escribir ni mantener código.
Más información
