#ParcBitInspira: Data Scraping

El pasado 13 de marzo de 2019 tuvo lugar en el espacio Emprenbit el segundo taller del ciclo #ParcBitInspira. Jorge Morell, de Términos y Condiciones nos explicó los aspectos legales del Data scraping, o el sistema que usan las empresas para recopilar datos de las webs para un uso propio. Como experto en derecho y tecnologías nos advirtió sobre sus límites legales.

El data scraping no es algo nuevo. Todo empezó con Pete Warden en 2010, ingeniero de software, que creó dataset con datos de perfiles públicos en Facebook. Facebook le amenazó. Conclusión: “Big data? Cheap. Lawyers? Not so much”.

¿Qué és datascraping? Es como tirar una red de arrastre. Software para extraer de forma automatizada datos de un sitio web simulando la navegación de un humano. ¿Es legal? No es más que un instrumento, la tecnología en es legal, pero hay que poner atención al uso que se hace.

Los datos son clave y lo serán más para los negocios, vivimos en la era de los datos.

Jorge Morell (Términos y Condiciones) y Anne Laure Debrix (Fundació Bit)

Algunos precedentes judiciales:

En EEUU en el 2000 el caso Bidder’s Edge (generaban 10.000 accesos al día en la web de Ebay, representando un 1,53% de su tráfico diario). Tener en cuenta para scraping: no generar daños y pérdidas en la web que scrapeas.

Ryanair en 2008-2009 contra data scraping a agencias online (los llamó parásitos del sector), pero perdieron algunos juicios.

Caso Fixtures Marketing alegando que se vulneraba propiedad intelectual en relación a los calendarios de fútbol de la Premier League y la liga escocesa, y si podían ser protegidos como obra, pero perdieron.

Atención, las vulneraciones legales del data scraping son acumulables. Leer bien los términos y condiciones.

Cláusula habitual: “Se prohíbe el uso de cualquier sistema automatizado o software para extraer datos de este sitio web para fines comerciales”.

Predictim: Caso de datascraping a perfiles públicos de Twitter y Facebook para “espiar” babysitters y concluir si eran recomendables o no, fue prohibido por Facebook y Twitter.

Si el uso de los datos es personal o no comercial, no tendría que haber problema. Por ejemplo, como hacemos en Términos y Condiciones, scrapeando términos y condiciones de otros lugares con el fin de tener tener más conocimientos, business intelligence.

Si el data scraping es para uso comercial, hay que ver cada caso, podría haber vulneración legal, pero hay algunas pautas básicas:

Hay una “aceptación” de las condiciones; el acceso y uso de la web por el bot no basta, hay que aceptar específicamente las condiciones; no equivale a un “derecho de admisión digital”.

¿Cómo se puede proteger el servicio y convertir data scraping en vulneración? Adoptar medidas tecnológicas apropiadas; exigir la aceptación de condiciones para acceder al sitio o a los datos.

En todo caso, si el servicio considera que se han vulnerado las condiciones legales, te cerrarán el acceso al mismo.

Hay que preguntarse si estamos haciendo datascraping a una base de datos que requiera una creación intelectual protegible (requiere cierta trabajo y originalidad en los datos).

Propiedad intelectual puede ser: por el derecho de autor; o por el derecho “sui generis” sobre la base de datos. Hay que ver cada caso, si el dato en sí (un número único, por ejemplo) no está amparado por la propiedad intelectual, no sería protegible. Distinto sería otro tipo de contenido, como fotos, vídeos o texto.

Propiedad intelectual: Generando una base de datos que los recursos invertidos para su obtención, verificación o presentación, sea protegible. Hacer de ellos data scraping puede suponer un problema legal. En todo caso, habrá que ver el carácter sustancial o no de la utilización de los datos escrapeados.

Si quieres hacer data scraping de datos personales, atención al RGPD. Problemas:

1r problema: ¿Qué se considera un dato personal? Con el RGPD, metadatos o identificadores numéricos asociables a una persona con datos personales.

2º problema: sobre qué base legal las recopilaciones? No sólo consentimiento, también se puede hacer por interés legítimo, un contrato, etc…

3r problema: medidas de seguridad, ¿cómo cifrar datos, anonimizarlos? ¿Cuánto tiempo conservarlos?

4º problema: ¿para qué usas los datos recogidos en el data scraping? Por ejemplo, si meses después quieres tratar datos con otra finalidad que no era la inicial.

5º problema: ¿Data scraping implica algún perfilado o tratamiento automatizado? por ejemplo, para detectar fraude bancario o en proceso de compra.

También se considera data scraping no legal por otros motivos. Ejemplos: usar servidores de la empresa para minar criptomonedes (consumo recursos); si sin querer scrapeando te llevas datos que no querías por ser demasiado abiertos … pérdida por publicidad en pagos por impresiones, etc …

conclusiones:

Qué uso harás de los datos.

Leer bien términos y condiciones.

Si la base de datos está protegida pedo la propiedad intelectual.

Alerta con los datos personales (RGPD).

No conviene hacer scraping a datos públicos sin autorización.

 

Jorge Morell (Términos y Condiciones) en el espacio Emprenbit

Acerca de Dr.TIC

Servei d'assessorament tecnològic per a empreses que volen obtenir una visió general del grau d'ús de les TIC al seu negoci i millorar la seva salut TIC.
Esta entrada fue publicada en Big Data, Dr. TIC, Inteligencia artificial, Noticias, TenTIC y etiquetada , , . Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Spam protection by WP Captcha-Free