Entrevistas TenTIC: José Javier Ramasco, Big Data

José Javier Ramasco

En el marco de nuestro proyecto Ten TIC (tendencias de futuro en las TIC) continuamos con nuestra serie de entrevistas a expertos. Esta semana entrevistamos a José Javier Ramasco, del Instituto de Física Interdisciplinar y Sistemas Complejos (IFISC), centro mixto de la Universitat de les Illes Balears (UIB) y del Consejo Superior de Investigaciones Científicas (CSIC) que se dedica a la investigación interdisciplinar y estratégica desde la perspectiva de los físicos, tratando, entre otros materias, el Big Data.

Recientemente habéis publicado el artículo “Comparing and modelling land use organization in cities” en la revista Royal Society Open Science. Según este artículo, se explica que se puede utilizar información geolocalizada publicada por los internautas para analizar los usos del suelo y del espacio urbano. Se pueden analizar concentraciones de gente por días, semanas y meses. Esta información también se puede cruzar con datos de empleo, PIB y delincuencia. Nos gustaría profundizar en la motivación, la metodología, la tecnología y los resultados de este estudio, estudios similares y de futuros.

¿Qué os ha motivado a realizar este tipo de estudio?

La motivación tras estos estudios es entender mejor el funcionamiento de los sistemas urbanos, que son ejemplos paradigmáticos de lo que nosotros entendemos por sistemas complejos donde hay un gran número de componentes interaccionando y que dan lugar a propiedades emergentes que no se encuentran en la naturaleza de cada componente individual. El uso del suelo surge como resultado de las interacciones de los ciudadanos con el espacio urbano y entre ellos mismos, y forma patrones que espacialmente y en el tiempo tienen una estructura fascinante. Es, de alguna forma, el alma de una ciudad.

¿Qué relación tienen este tipo de estudios con el Big Data?

Hasta ahora muchos de estos estudios en el campo del urbanismo se han hecho usando información colectada en catastros y encuestas. Son mecanismos caros de realizar y mantener al día, y que además dan información sobre el uso declarado de las distintas zonas de la ciudad. Si la mayoría del área está ocupada por un parque, aparece como zona verde y si hay tiendas, pues como zona comercial, muchas veces sin una relación directa con cuánta gente usa esa zona de esa manera. En este contexto, el Big Data que generan los ciudadanos cuando usan teléfonos móviles o entran en las redes sociales sirve para caracterizar el uso real que dan a los distintos espacios. Se agregan los datos y se puede saber si se concentran en un área determinada y si es un fenómeno que se repite a ciertas horas de los días de la semana. De este tipo de señal se puede inferir cuál es el uso mayoritario en términos de personas en cada zona.

¿Qué metodología y tecnología utiliza para buscar y almacenar la información? ¿Cuál es la principal ventaja? ¿Cuál es la principal dificultad?

La parte de tecnología viene esencialmente de datos de uso de teléfonos móviles. Es lo que se llaman CDRs (Call Detail Records) que recogen la hora y la torre que ha dado servicio a cada llamada hecha o recibida por los usuarios. Nuestros datos están anonimizados, aunque si podemos separamos la contribución de los distintos usuarios para contarla sólo una vez por hora. El objetivo es contar gente, no llamadas. La mayor dificultad es asignar las zonas de servicio de cada antena y filtrar los usuarios que se corresponden con teléfonos colectivos o automáticos.

¿Qué metodología y tecnología utilizáis para analizar los diferentes tipos de información? ¿Cuál es la principal ventaja? ¿Cuál es la principal dificultad?

La metodología pasa por estudiar las señales de empleos en el tiempo de las distintas divisiones de la ciudad y buscar patrones comunes que indican qué dos zonas se están usando de la MISMA manera. Por ejemplo, si las personas se concentran allí tarde los fines de semana y jueves, suele representar zonas de ocio nocturno, mientras que si es pronto por la mañana y partir de las 8 de la tarde, son zonas residenciales. Una dificultad importante es separar zonas con un uso mezclado, por ejemplo, en el centro pueden convivir zonas de ocio nocturno y residencial, y es difícil cuantificar cuánto domina una cierta actividad sobre la otra. En ese sentido, en este artículo proponíamos un algoritmo para detectar zonas con mezcla y categorizarlas.

¿Cuáles son las variables que analizáis y como relacionáis unas variables con las otras?
Las señales son el número de personas que se observan en cada zona en función del tiempo. El paso siguiente es medir correlaciones entre señales (correlación de Pearson) para poder determinar qué zonas presentan comportamientos similares.

¿Qué tipos de análisis estadísticos aplicáis? ¿Y por qué habéis escogido estos y no otros?
Una vez que tenemos las correlaciones, nos quedamos con la positivas, que son las que nos interesan, y aplicamos técnicas de clustering en redes para encontrar los grupos de zonas con comportamientos similares. Usamos varias técnicas de clustering, no sólo una, para asegurarnos que los resultados son consistentes.

¿Qué tecnología utilizáis para realizar los mapas y los gráficos que habéis presentado en el estudio?

Lo más sencillo, los mapas están hechos con librerías de procesamiento geográfico de Python y R. Lo mismo el resto de plots, pero en vez de procesamiento geográfico son Librerías para dibujar y analizar Resultados como matplotlib.

¿Qué dificultades os habéis encontrado para realizar este análisis y como las habéis solventado?

Ya he explicado alguna de ellas, se han solventadas buscando nuevos algoritmos para cuantificar la cantidad de mezcla en el uso del suelo en las zonas con uso mixto.

¿Cuáles son los resultados más significativos? ¿Para qué sirven? ¿Qué nuevas líneas de investigación proponéis a partir de estos resultados?

Los resultados más significativos son tres:

– Que los datos de las tecnologías de la información sirven para caracterizar el uso del suelo real por parte los ciudadanos en zonas urbanas. Esto ofrece métodos complementarios, más dinámicos y baratos, a las técnicas clásicas como el catastro. Esto era algo que ya se había visto en estudios anteriores pero nosotros lo hemos extendido al uso mixto.
– Hemos, hecho un estudio comparativo entre las cinco mayores ciudades de España en población y hemos encontrado patrones comunes en la forma en que el uso del suelo se organiza.
– Hemos introducido un modelo simple que explica esos patrones comunes.

Este trabajo tiene utilidad en dos sentidos:

– uno es fundamental, entender mejor los sistemas urbanos. Hay que saber cómo funciona algo para poder mejorarlo o cambiarlo.

– El segundo es más aplicado, puesto que demostramos el uso de las nuevas tecnologías en un campo diferente, que puede ahorrar dinero en la gestión pública y abrir nuevas oportunidades para empresas tecnológicas.

¿Qué aconsejáis que estudie a un joven que se quiera dedicar al análisis y visualización de datos en el campo del Big Data?

Hoy por hoy no existe una carrera que se llame Big Data, empieza a haber Másteres y los requisitos de entrada son saber de matemáticas, física y ciencias de la computación. Los estudios de cualquiera de esas tres ramas te pueden llevar a este destino.

¿Y a uno que se quiera reciclar para dedicarse en este nuevo campo que ahora parece estar tan de moda?

Lo mismo: aprender matemáticas, física y ciencias de la computación para aplicarlas a la colección y análisis de grandes cantidades de datos.

¿Nos puede recomendar una película que inspire lo que está trabajando?
Hay varias, La red es una película que, aunque antigua, muestra el potencial de los datos online para influir en la vida de las personas. Por supuesto en la película se muestra el lado perverso, sino no, hay interés en la trama, pero también se puedo usar en infinidad de aplicaciones positivas.

¿Nos puede recomendar un libro que explique parte de lo que está haciendo?

No existen muchos libros que no sean técnicos y en este caso estamos hablando casi de artículos. El libro que es más central en el campo de sistemas urbanos es el que publicó Michael Batty en 2013 y se titula “The new science of cities”, la nueva ciencia de las ciudades, donde se muestra el potencial de las nuevas tecnologías para cambiar el conocimiento actual de los sistemas urbanos.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Acerca de Dr.TIC

Servei d'assessorament tecnològic per a empreses que volen obtenir una visió general del grau d'ús de les TIC al seu negoci i millorar la seva salut TIC.
Esta entrada fue publicada en Big Data, Entrevistas, Noticias, Smartcities, TenTIC. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Spam protection by WP Captcha-Free