DEV Community

Cover image for Cumplimiento de RGPD en web scraping
Octoparse Español
Octoparse Español

Posted on

Cumplimiento de RGPD en web scraping

El web scraping es una forma de extraer datos de la web mediante herramientas y tecnologías de automatización. Anteriormente, las empresas eran muy informales con la recopilación de datos web. Pero con el inicio de las regulaciones RGPD (o GDPR), la debida diligencia con respecto a la extracción de datos es imprescindible.

Recientemente, Polonia impuso una multa de 220.000 euros a una organización que recopiló datos de alrededor de 7 millones de personas, pero no les informó (informar a las personas es una regla según el artículo 14 del RGPD). Además, hace unos meses, la DPA francesa emitió una guía relacionada con el web scraping comercial. Entonces, pensamos en explicar qué significa GDPR y por qué es importante para la comunidad de scraping. Lee este artículo para saber todo lo que necesitas para cumplir con el RGPD mientras raspando la web.

Tabla de contenidos

¿Cuándo entra en juego el RGPD?
¿Qué califica como información de identificación personal (PII)?
¿Estás raspando la información personal de los ciudadanos de la UE?
¿Tienes una base legal para raspar datos personales?
¿Qué puedes hacer para cumplir con el RGPD?
Conclusión

¿Cuándo entra en juego el RGPD?
Primero, echamos un vistazo a lo que se puede extraer de la web y, luego, analizamos qué tipo de datos se incluyen en el RGPD y cuáles no.

Puedes raspar:

Anuncios inmobiliarios para realizar marketing personalizado,
índices accionarios, portales de noticias para la inteligencia de mercado,
Publicaciones de trabajo para impulsar tus servicios de RR.HH,
Sitios de redes sociales para analizar los sentimientos de los clientes,
Directorios online para prospección,
Datos públicos de sitios web gubernamentales para obtener perspectivas,
Datos de productos de sitios de comercio electrónico para seguimiento de la competencia e inteligencia de precios,
Blogs, videos y todo eso.

Por supuesto, los casos de uso de la extracción de datos no se limitan a estos, sino que a un nivel amplio, esto te da una idea sobre los diferentes tipos de datos que puedes extraer. Ahora, RGPD, que significa Reglamento General de Protección de Datos (UE) 2016/679, es una ley en la Unión Europea (UE) sobre protección de datos y privacidad de todas las personas dentro de la UE y el EEE. GDPR tiene dos propósitos:

Pone a las personas en control de cómo se utilizan sus datos
Simplifica el entorno regulatorio para las empresas que operan en la región de la UE
La pregunta es, ¿en qué terreno se cruzan el raspado de datos y el RGPD? ¿Cuándo deberías preocuparte por el RGPD? Una respuesta corta sería, cada vez que se extraigas la información personal de un individuo / ciudadano que resida en la UE.

Para saber si necesitas cumplir con GDPR o no, y para asegurarte de que tu proyecto de raspado cumpla con GDPR, encuentra las respuestas a las siguientes preguntas:

¿Qué califica como información de identificación personal (PII)?
¿Estás raspando la información personal de los ciudadanos de la UE?
¿Tienes una base legal para raspar datos personales?
¿Qué puedes hacer para cumplir con el RGPD?
Alt Text
¿Qué califica como información de identificación personal (PII)?
Cualquier dato que pueda ayudar a alguien a rastrear o identificar a una persona calificaría como PII. Algunos ejemplos pueden ser:
Nombre
Email
Números de Contacto
Direccion postal
Detalles de la tarjeta de crédito
Detalles del banco
Dirección IP
DOB
Imagen / video / audio de la persona
Informes médicos
Detalles de empleo, etc.,

¿Estás raspando la información personal de los ciudadanos de la UE?
El RGPD se ocupa estrictamente de la información de identificación personal de las personas dentro de la Unión Europea y el Espacio Económico Europeo (EEE). Entonces, la siguiente pregunta que surge es ¿estás raspando datos de ciudadanos europeos? Si la respuesta es un "No", entonces estás a salvo. Por lo tanto, digamos que si estás extrayendo datos que conciernen a India, EE. UU. O Australia, no debes preocuparte por el RGPD. En su lugar, debes buscar leyes de protección de datos dentro de su jurisdicción respectiva. La jurisdicción de RGPD se limita al EEE. Si tus proyectos de raspado necesitan que raspes la PII de los ciudadanos de la UE, debes tener una base legal para hacerlo.

¿Tienes una base legal para raspar datos personales?
Las bases legales se establecen en el artículo 6 del RGPD, y existen seis bases legales para el procesamiento de datos extraídos:

  1. Consentimiento

Esta puede ser tu base legal cuando las personas, de las que estás extrayendo datos, te han dado su consentimiento para extraer sus datos para fines específicos.

  1. Contrato

El contrato con las personas interesadas puede tener una base legal bajo RGPD si el contrato necesariamente requiere que tú proceses los datos.

  1. Obligación Legal

El tercer tipo de base legal podría ser si el procesamiento de datos es necesario para que tú cumpla con una obligación legal.

  1. Intereses Vitales

Puedes argumentar que Intereses Vitales es la base legal para tu proyecto de raspado si está destinado a salvar la vida de alguien.

  1. Tareas Públicas

Cuando el tratamiento de los datos se realice por interés público o para el desempeño de tus funciones como funcionario, se contará como base jurídica.

  1. Interés Legítimo

Si el procesamiento de datos es necesario para el interés legítimo del controlador de datos, también puedes contarlo como una base del procesamiento legal de datos bajo RGPD. Pero esta no será la base legal si anula los derechos o intereses fundamentales de una persona cuyos datos se recopilan y procesan.

En resumen, consentimiento y contrato son más o menos lo mismo. Si las personas te han dado su consentimiento, está bien procesar sus datos. ¿Cuándo será aplicable? Tomamos un ejemplo. Supongamos que existe un sitio web de venta minorista de moda que recopila reseñas de productos de los compradores, así como la PII del comprador, y la pone a disposición del público en las reseñas. La PII podría ser la edad, el nombre y la ubicación. Los datos generales serían el texto de revisión y el tiempo. Ahora, si necesitas raspar solo el texto de revisión para la investigación para impulsar el desarrollo de tu nuevo producto, entonces no debes preocuparte por RGPD. Pero si también estás raspando el nombre, la edad, la ubicación y otros detalles, entonces estás ingresando a la zona de PII y debes cumplir con RGPD para abordar el cumplimiento legal.

Los intereses vitales, las tareas públicas y las obligaciones legales rara vez formarían tus bases legales, ya que son conceptos claros y no hay mucho espacio para argumentos teóricos. Pero el interés legítimo podría ser tu base legal sólida si estás haciendo raspado web. Pero para la mayoría de las empresas, afirmar que esto también es un desafío.

El caso de HiQ vs Linkedin también es una lectura interesante.

¿Qué puedes hacer para cumplir con el RGPD?
Aquí hay una lista de verificación para que te asegures de que tu proyecto de procesamiento de datos y raspado cumpla con el RGPD:

Mantener alejado de la interpretación incorrecta de los artículos en el reglamento RGPD
Un mito es que cualquier información de identificación personal disponible públicamente se puede raspar y utilizar para marketing o para algún otro propósito. Este no es el caso. El consentimiento o los intereses legítimos solo podrían ser la base legal para procesar datos de PII incluso si están disponibles públicamente. Por lo tanto, no puedes lanzar campañas de marketing en las ID de correo electrónico obtenidas de las secciones de comentarios de las redes sociales si pertenecen a ciudadanos / sitios web de la UE.

Obtener el Consentimiento
Esto es obvio. Si no tienes un interés legítimo sólido en obtener PII, obtener el consentimiento es la única salida.

Informar a las personas sobre la recopilación de datos
El artículo 14 del RGPD obliga a informar a todas las personas cuyos datos no se hayan recopilado directamente de ellos.

Garantizar la conservación de los DSAR
Los residentes de la UE tienen derecho a solicitar una copia de los datos que poseen, retirar el consentimiento para extraer / conservar sus datos o incluso solicitar la eliminación de sus datos. Debes asegurarte de que tu proyecto cumpla con los Derechos de acceso del sujeto de datos (DSAR).

Informar violación de datos
El artículo 33 del RGPD requiere que informes a la autoridad supervisora en caso de violación de datos en un plazo de 3 días, a menos que sea poco probable que la violación de datos personales sea una amenaza para los derechos fundamentales de una persona.

Evaluación de impacto de protección de datos (DPIA)
En caso de que no puedas cumplir con el artículo 14 de GDPR que requiere informar a las personas sobre tu recopilación de datos, debes obtener DPIA.

Asegúrate de que tus proxies de IP residenciales también cumplan con el RGPD
Las empresas o los raspadores de datos a menudo utilizan proxies IP residenciales para rastrear la web a gran escala o para superar las técnicas anti-raspado implementadas por los sitios web.

Audita tus proyectos de raspado nuevos y antiguos de forma iterativa
Tiene sentido auditar todos tus proyectos de raspado existentes, nuevos y antiguos para verificar si cumplen con el RGPD o no y, en consecuencia, intervenir cuando sea necesario.

Conclusión:
El raspado de datos ha cambiado la forma en que operan las empresas. Algunas nuevas verticales comerciales, como la agregación de noticias, se han derivado del web scraping. Aún en su infancia, pero RGPD ha cambiado radicalmente la forma en que las empresas raspan la web. Es una de las leyes de protección de datos más completas e impactantes hasta la fecha. Si tsu proyecto de raspado necesita que raspes PII, para evitar multas considerables, es mejor asegurarte de que cumples con RGPD.

Algunos recursos de raspado para ti:

Utilizar el web scraping para obtener información sobre precios

Raspando en la Nube

Raspar las Bolsas de Trabajo

Descargamos de responsabilidad: este artículo no es un consejo legal para cumplir con el RGPD. Es solo para fines informativos. Descubre más sobre RGPD en su sitio web.

Top comments (0)