Te decirmos qué es el Scraping Data y por qué es tan peligroso

El raspado de datos es otra técnica para extraer datos de un sitio web, portal o plataforma. Sorprendentemente, el raspado de datos es un área gris en términos de legalidad. Aquí es cómo contrarrestarlo.

Los datos de raspado y el raspado de la web son dos técnicas automatizadas distintas que logran lo mismo. Cosechan datos de sistemas de terceros. Extraen los datos, lo recopilan y lo almacenan en un formato reutilizable.

Normalmente, esto implica almacenarlo en una base de datos o convertirlo en un formato portátil, como CSV. El raspado de datos hace uso de API proporcionado por la plataforma que se rasca, incluso si los términos de servicio de la API casi seguramente prohíben la recopilación de datos masivos.

El raspado web funciona de manera similar a cómo hace un navegador web realizando solicitudes de páginas web. Sin embargo, en lugar de mostrar la página web, el software extrae los datos que necesita, lo guarda, y luego se solicita a otro. Los términos y condiciones de la mayoría de los sitios web, y ciertamente todas las plataformas de redes sociales «, prohíben expresamente los datos y el raspado web.

¿Cuál es la diferencia entre el raspado de datos y el raspado web?

A pesar de esto, las plataformas de redes sociales son objetivos atractivos para los raspadores debido a sus grandes bases de usuario. Los ciberdelincuentes pueden usar raspado para recopilar credenciales de inicio de sesión, información de pago o información de identificación personal. Además, se puede utilizar para fines legítimos, como agregar noticias, monitorear a los revendedores para garantizar que no violen los acuerdos de precios, o que realicen análisis de mercado.

Además, se utiliza para recopilar inteligencia de negocios, identificar clientes potenciales de ventas y sustentar la comercialización y la publicidad. Conectado: Cómo protegerse de los ataques de API para 2020, 4 millones de registros personales habrían sido raspados de YouTube.

La figura de Tiktok fue más de diez veces que, a los 42 millones. Ese mismo año, 191 millones de registros personales de Instagram fueron raspados. Cada una de estas plataformas prohíbe el raspado de datos.

Figuras significativas

LinkedIn realizó titulares en abril de 2021 cuando se instaló una base de datos que contenga 500 millones de registros personales en la Web Oscura. Microsoft, que posee LinkedIn, declaró que no se produjo una brecha de seguridad. La base de datos se construyó a través de raspaduras de datos.

La base de datos contenía la siguiente información para cada miembro afectado: en junio de 2021, se dispuso una base de datos que contenía 700 millones de registros personales. Eso representa más del 90% de la membresía de LinkedIn.

La segunda base de datos, además de los 200 millones adicionales de registros, se hace referencia a los datos a los datos raspados de otras fuentes, proporcionando una imagen más detallada de las personas afectadas. Creado por los ciberdelincuentes para los ciberdelincuentes, la base de datos se puede comprar en mercados de Web Dark y foros por $ 5000 en el momento de la escritura.

El raspado para fines comerciales también es problemático

La información contenida dentro se utilizará para cometer delitos como el phishing, el phido de lanza, la ingeniería social y otros fraudes financieros. Conectado: Cómo prevenir el robo de identidad desde las cuentas de apertura en su nombre, ¿qué pasa con los sitios web comerciales y el raspado de datos? Hay empresas que rasparán los datos para usted.

Puede crear sus propias aplicaciones de raspado web utilizando kits de herramientas de análisis de datos, como la hermosa sopa de la biblioteca de Python. El problema es que casi seguramente está violando las reglas de la plataforma desde la que está raspando.

Y las plataformas harán un intento de defenderse. De lo contrario, sus miembros, clientes y otros usuarios pueden abandonar su plataforma.

Cómo salvaguardar su negocio

Al proporcionar información personal a un servicio en línea, le confían a esa organización su información. No está otorgando a nadie más permiso para venir y cobrar esos datos y usarlo como lo ven en forma.

Cuando las organizaciones rasparan sus datos, no tiene forma de saber quiénes son, lo que pretenden hacer con él, cómo pretenden salvaguardarlo y protegerlo, o con quienes pretenden compartirlo. LinkedIn demandó HIQ Labs Inc.

para la recopilación de datos y el raspado web. HIQ argumentó en su defensa que los datos que estaban raspando de LinkedIn se encontraban en el dominio público, lo que significaba que estaba disponible libremente. El 9º Tribunal de Apelaciones del Circuito estadounidense dictaminado a favor de HIQ en 2019.

Sin embargo, la Corte Suprema revertió la decisión del Novena Circuito el 14 de junio de 2021. A partir del 2021 de julio, los raspados de datos no criminales y el raspado web son áreas de gris legal.

Y las cosas se vuelven aún más complicadas cuando considera la legislación de protección de datos que se aplica a los miembros de la plataforma. Por ejemplo, independientemente de si los datos de un ciudadano de la UE son públicos, no puede cosechar, almacenar o procesarlo digitalmente sin una base legal, según lo definido por el GDPR. Además, hay una distinción entre el dominio público visible y público.

Bajo el GDPR, solo hay dos bases legales permitidas para el raspado de datos. Uno se conoce como «consentimiento», mientras que el otro se conoce como «interés legítimo».

Claramente, los individuos no han consentido, por lo que está fuera de la cuestión. Y sería extremadamente difícil argumentar que su interés legítimo en el raspado de los datos no puso en peligro los intereses legítimos de los sujetos de los datos, así como su.