Entrevista TenTIC con Antònia Tugores del IFISC(UIB-CSIC)

Con una trayectoria de formación en matemáticas, estadística y programación en código abierto esta  especialista en análisis de datos y en Big Data (CV en la parte inferior) tiene uno de los perfiles màs buscados por las empresas en los últimos meses. Su bagaje académico y experiencia profesional, hacen de Antònia Tugoressu perfil de Linkedin) un referente en la isla y estamos muy contentos de que nos haya concedido esta entrevista donde nos cuenta cómo ve este mundo dibujado a través de datos y algoritmos.

Antonia Tugores

  • A través de Google Scholar podemos acceder a sus publicaciones, ¿cuáles son las principales fuentes de donde extrae la información para analizar? ¿Se debe pedir permiso para extraer esta información o está a libre disposición?

Principalmente usamos Twitter como fuente de información. Por defecto, lo que se publica en esta red social es público, pero, todo usuario de Twitter tiene la opción de proteger los tweets. Twitter da libre acceso a una pequeña fracción de todo su tráfico mundial, y estos son los que nosotros utilizamos. De hecho, actualmente empleamos tweets geolocalizados, es decir, que tienen las coordenadas GPS o información del sitio (ciudad, barrio, punto de interés, …) desde el que se ha emitido el tweet.

Claro está, que estos datos por sí solos a veces no son suficientes y se necesitan emplear más fuentes de información para extraer conclusiones. Intentamos que éstos sean datos libres y abiertos siempre que sea posible, aunque en algunos casos, para proyectos puntuales hemos utilizado datos cerrados anonimizados, por eso se han firmado acuerdos con las empresas titulares de los datos.

  • Sus estudios analizan la movilidad humana y las ciudades más influyentes básicamente a través de Tweets geolocalizados. ¿Ha surgido algún resultado inesperado o sorprendente que sea diferente a estudios que buscan los mismos resultados pero utilizando otras metodologías no basadas en la información a través de Twitter?

Diferente no, pero curiosamente en un artículo donde comparábamos la eficacia de distintas fuentes de información para analizar la movilidad urbana, vimos que la calidad de los tweets geolocalizados era similar a la de los datos de telefonía móvil (Call Detail Records) o el censo para extraer información referente a movilidad en ciudades. 

  • ¿Hasta qué punto se pueden extrapolar los resultados de Twitter a la población en general? ¿Es representativo?

El resultado mencionado en la anterior pregunta permite que se puedan emplear datos de Twitter para analizar la movilidad, siempre que los datos sean estadísticamente suficientes y se tengan datos de un periodo de tiempo suficientemente largo. Por lo tanto, el aparente sesgo que podemos pensar que hay en el uso de Twitter, no afecta a estos tipos de estudios.

  • ¿Qué metodologías y tecnologías utiliza para capturar, almacenar, analizar y visualizar la información?

Efectivamente el proceso de extracción de información de los datos no es trivial y se necesitan todos los pasos que mencionáis.

Para descargar datos dependemos de cómo los han puesto a nuestra disposición. En el caso de Twitter accedemos en tiempo real a los datos a través de las APIs (métodos de interacción preparados para poder pedir y recibir la información de manera controlada) que Twitter pone a disposición de los usuarios. En otros casos no tenemos tanta suerte.

Una vez tenemos los datos, se almacenarán de forma que sean fácilmente accesibles cuando se deban analizar, por eso usamos una base de datos no relacional distribuida.

 En todo el proceso (desde la extracción hasta la visualización) confiamos en software libre siempre que sea posible. Nuestros programas, están escritos generalmente en Python ya que es un lenguaje de programación con un muy buen ecosistema opensource de paquetes científicos, es práctico tanto para prototipar como para desarrollar programas, y además, tiene una comunidad muy activa y acogedora.

  • Exactamente, ¿qué información recogen? ¿Cuáles son las variables y los indicadores? ¿Nos podría indicar las fórmulas o algoritmos que utilizáis de forma que los no expertos ni en matemáticas ni estadística lo pudiéramos entender?

Para cada estudio se emplean datos e indicadores distintos así como algoritmos particulares.

En el caso de las ciudades más influyentes, los datos fundamentales son la geolocalización de los tweets y el momento de emisión del mensaje para poder analizar los desplazamientos en función del tiempo. Dicho de forma sencilla, lo que estudiamos es la distancia que recorre la gente para visitar una ciudad (atractivo de la ciudad) y la distancia a la que viaja la gente de una ciudad (influencia de la ciudad) y a partir de estos datos presentamos el ránking de las ciudades. Hay que tener en cuenta que no es exactamente así, ya que las islas y zonas remotas siempre estarían los primeros en los ránkings, y por tanto, se deben normalizar los datos para evitar estos problemas. También, estudiamos las diferencias de comportamiento de los residentes de una ciudad y de los turistas, midiendo el número de zonas visitadas dentro de la misma ciudad. Finalmente, aplicamos técnicas de clustering para agrupar las ciudades dependiendo de qué grupos de ciudades visitan los turistas considerando todos sus viajes.

  • Las empresas tipo Facebook o Google que dicen que utilizan algoritmos para analizar el comportamiento de los usuarios, ¿los hacen públicos, o son altamente secretos?

Últimamente tanto Facebook como Google están liberando sus algoritmos y las herramientas para extraer información valiosa de los datos. ¿Y por qué hacen esto? Porque lo que tiene valor hoy en día no son tanto los algoritmos, sino los datos. Eso sí, que liberen el código de su software es muy interesante para poder emplearlo con los datos que cada uno pueda tener (aunque siempre estaremos a mucha distancia de la cantidad de datos que mueven Google o Facebook), aprender qué están haciendo, coger ideas, detectar errores y reportarlos, o incluso colaborar con ellos, vamos, la esencia del software libre.

  • ¿La política de Twitter en cuanto a la accesibilidad de la información que generan los usuarios a través de sus servicios es muy diferente a la de Facebook y Google? ¿En qué aspectos?

Así como parte de los datos de Twitter están disponibles a través de su API y por emplear mayores volúmenes de datos hay empresas que venden tanto datos crudos como precocinadas, Facebook no permite emplear sus datos si no hay un convenio de colaboración.

 De hecho, los proyectos de investigación financiados a través del programa Horizonte 2020 de la Comisión Europea promueven que los datos empleados en los estudios sean libres o fácilmente accesibles siempre que sea posible, dan pasos hacia la ciencia abierta y reproducible: acceso a las datos y el software empleado además de acceso al artículo científico publicado.

  •  ¿A qué otras fuentes de datos abiertas puede recorrer los investigadores en Big Data?

Nosotros solemos trabajar con datos a nivel europeo o de Estados Unidos y hay que decir que aunque a nivel europeo últimamente se está avanzando al respecto, la política de datos en Estados Unidos todavía es mucho más abierta que en Europa.

 Para datos de Estados Unidos, por ejemplo, podemos acceder a la página Data.gov

 A nivel europeo Eurostat,  y el portal Data Europa concentran la gran parte de datos abiertos que empleamos.

 Y por ejemplo, nosotros usamos a menudo datos de transporte público y una de las ciudades que nos ha sorprendido gratamente con la política de datos abiertos ha sido Londres.

  •  ¿Qué tipos de análisis de datos hace, qué tipos de relaciones buscáis entre las variables? ¿Qué tipos de análisis estadísticos aplicáis?

 Depende de cada estudio, cada análisis es único. Eso sí, normalmente no aplicamos técnicas de Machine Learning sino que queremos encontrar el modelo físico que controla lo que estamos estudiando para entender por qué y cómo funciona el sistema. Esto hace, aún más, que no podamos generalizar; cada problema es diferente y se aborda de forma diferente.

  •  ¿Qué dificultades ha encontrado para realizar estos análisis y cómo las has solventado?

Algunas ya las he comentado. Por poner otro ejemplo, hicimos un estudio similar al de la influencia de las ciudades con monumentos (Torre Eiffel, Taj Mahal, Grand Canyon, La Alhambra, …) y en este caso tuvimos que modificar la lista inicial de puntos de interés ya que algunos estaban en zonas con mala cobertura telefónica o sencillamente la muestra que teníamos no era suficiente para poder llevar a cabo los análisis. Que los datos de Twitter sean suficientemente buenos para hacer análisis de movilidad no significa que siempre sean buenas, hay que comprobar siempre la calidad de los datos.

  • ¿Cuáles son los resultados más significativos? ¿Para qué y a quien sirven? ¿Qué nuevas líneas de investigación proponéis a partir de estos resultados?

 Es muy importante que los «nuevos datos», datos TIC, sirvan para caracterizar la movilidad humana en zonas urbanas. Esto ofrece métodos complementarios más dinámicos y baratos que las técnicas clásicas como las encuestas.

 Hemos hecho un estudio comparativo de sesenta ciudades importantes a nivel mundial en cuanto a población y hemos encontrado patrones comunes en cómo nos movemos dentro de la ciudad. En particular, estos estudios de movilidad son el punto de partida para poder entender la movilidad humana desde nivel mundial hasta nivel de barrio si no más detallado. Evidentemente no tomamos decisiones de la misma manera si tenemos que viajar 1000 km o si tenemos que ir al trabajo o a comprar el pan.

  •  ¿Qué aplicaciones tienen estas investigaciones para empresas de una comunidad turística como la nuestra?

 Por un lado, estos trabajos permiten entender mejor la movilidad humana a diferentes escalas. Y entender cómo nos movemos tanto dentro de nuestras islas como entre islas, o comprender, por ejemplo, como tomamos la decisión de coger un transporte y no otro es muy interesante para poder mejorar los servicios que se dan a turistas y residentes. Si no sabemos cómo funciona algo no la podemos mejorar.

  • ¿Qué aconseja que estudie a un joven que quiera ser un científico de datos?

Creo que es importante que estudie lo que le guste, pero para ser científico de datos necesita saber matemáticas (estadística principalmente) e informática para poder plasmar las ideas y probarlas. Pero creo que analizar datos tiene más que ver con cómo es la persona y no con lo que ha estudiado. Debe ser una persona curiosa, abierta de mente, autosuficiente, con mente deductiva, vaya, que quiera resolver problemas; y debe tener claro que no podrá parar de aprender, de actualizarse.

También se debe tener en cuenta que en un proyecto no sólo se necesitan conocimientos técnicos. Para poder plantear la pregunta hay que saber que hay un problema y entenderlo bien.

  • ¿Y a uno que se quiera reciclar para dedicarse a este nuevo campo que ahora parece estar tan de moda?

 Básicamente lo mismo que el que quiere empezar, hoy en día hay muchos MOOC que ayudan a tener base para ir avanzando por su cuenta. Como ya he dicho, recordemos que no sólo se necesitan técnicos, gente que conozca el problema en profundidad es igual de importante. Un proyecto de datos necesita un grupo de trabajo multidisciplinar.

  •  Nos puede recomendar una película que inspire lo que está trabajando?

 Más que una película, recomendaré una serie, Black Mirror, que plantea posibles escenarios futuros relacionados con la toma de decisiones a partir de datos. Algunos temas que plantea son el uso de redes sociales o la inteligencia artificial. Evidentemente la serie nos muestra algunas aplicaciones perversas del análisis de datos, pero debemos tener en cuenta que hay infinidad de aplicaciones buenas.

  • ¿Nos puede recomendar un libro que explique parte de lo que está haciendo?

Hay poca literatura no técnica, casi publicaciones científicas, relacionadas con lo que estoy haciendo. Uno de los libros que tratan de forma muy amena la estadística aplicada, tema clave en el Big Data es «The signal and the noise: why so many predictions fail – but some do not», de Nate Silver.

CV: Matemática de formación, especializada en código abierto y estadística aplicada. Durante su trayectoria profesional ha estado vinculada al desarrollo de software. Colaboró ​​en la creación de un motor de videojuegos a Tragnarion Studios. Después, a Grid Systems, participó en el desarrollo de un middleware de computación distribuida (grid). En 2010 entró a trabajar en el IFISC (UIB-CSIC), Instituto de Física Interdisciplinaria y Sistemas Complejos. Allí comenzó integrando el IFISC en la red de grid europeo, pero poco tiempo después se empezó a interesar por la movilidad humana y el análisis de datos. Ahora es Ingeniera de Datos al mismo IFISC.

Acerca de Dr.TIC

Servei d'assessorament tecnològic per a empreses que volen obtenir una visió general del grau d'ús de les TIC al seu negoci i millorar la seva salut TIC.
Esta entrada fue publicada en Big Data, Entrevistas, TenTIC. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

*

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Spam protection by WP Captcha-Free