Entrevistas TenTIC: Esteve Lladó, Big Data

Iniciamos hoy una serie de entrevistas con expertos que nos irán explicando de manera sencilla cómo aplican las tecnologías que son tendencia (TenTIC) en sus campos profesionales. Empezamos con nuestro compañero Esteve Lladó, coordinador del área de Turismo de la Fundación BIT, que nos hablará de Big Data.

Pregunta: Recientemente habéis publicado el estudio “Anàlisis de tendencias en Twitter sobre destinos turísticos de Baleares en 2015″ que se presentó el pasado día 5 de febrero.

Nos gustaría profundizar en la motivación, la metodología, la tecnología y los resultados de este estudio y de futuros.

¿Qué os ha motivado a realizar este estudio?

Hoy en día las redes sociales se han convertido en el principal medio de comunicación de usuarios particulares y empresas para volcar opiniones, noticias, preferencias y experiencias. El estudio está motivado por la necesidad de analizar y medir todo este volumen de información sobre la actividad turística de los diferentes destinos o marcas turísticas Baleares. queríamos explotar la oportunidad de las redes sociales como fuente de información alternativa a las clásicas encuestas de satisfacción de clientes.

¿Qué relación tiene este estudio con el Big Data?

Es un proyecto Big Data tanto por el volumen de información, como por las tecnologías empleadas. En el último año y medio hemos analizado alrededor de 15 millones de tweets sobre todas las Islas. Un estudio sin precedentes en este campo, ya que se abre a nivel de toda un destino turístico. Éste es un enfoque más amplio que lo que hacen actualmente los community managers de los hoteles, que suelen acotar su actividad exploratoria a sus propios establecimientos, y no a todo el destino (en campos como espacios naturales, patrimonio, playas, etc.).

¿Qué metodología y tecnología utilizáis para buscar y almacenar la información? ¿Cuál es la principal ventaja? ¿Cuál es la principal dificultad?

La metodología consiste en monitorizar diariamente todos los tweets que se emiten en Twitter donde aparecen las palabras clave Mallorca, Majorca, Menorca, Minorca, Ibiza, y Formentera. Para hacer las extracciones de tweets empleamos la REST API que proporciona Twitter, y las tecnologías utilizadas son Python i NodeJS. La principal ventaja es que este servicio REST es abierto, aunque tiene un límite de accesos por minuto que se debe respetar. Hemos observado un efecto aleatorio donde, en diferentes sesiones de extracción de una fecha concreta, Twitter no entrega los mismos tweets. Aun así, este hecho no representa un problema para extraer la práctica totalidad de tweets que se emiten sobre las palabras clave seleccionadas.

¿Qué metodología y tecnología utilizáis para analizar los tweets? ¿Cuál es la principal ventaja? ¿Cuál es la principal dificultad?

La metodología para analizar los tweets consisten en calcular las tablas de frecuencias de apariciones de hashtags y palabras, agregándolos por día, de cada isla. La principal ventaja es que de esta manera podemos componer las series temporales que nos permiten explorar cuáles han sido los acontecimientos de interés turístico que más han destacado y los recursos turísticos que han sido más mencionados. Esta selección es entonces clasificada por categorías de producto turístico (espacios naturales, playas, patrimonio, deportes, eventos y topónimos) para cada isla. La principal dificultad es dintinguir los tweets que se consideran turísticos de los que no lo son, ya que hay mucha materia gris que no tiene relevancia para el estudio. Para desarrollar estos procesamientos usamos Python i R, y para el almacenamiento de los datos agregados utilizamos tecnología de NoSQL, concretamente MongoDB.

¿Cuáles son las variables que analizáis y cómo relacionáis unas variables con otras?

Calculamos básicamente tablas de frecuencias de palabras y hashtags agregados por día y por isla. También usamos el recuento de retweets para interpretar picos de actividad que se han producido y si han sido provocados por “influencers” ( perfiles de usuarios que cuentan con un gran número de seguidores ).

¿Qué tipos de análisis estadísticos aplicáis? ¿Y por qué habéis escogido estos y no otros?

Empleamos un análisis estadístico descriptivo y basado en series temporales. Hemos observado que Twitter es básicamente una fuente para analizar tendencias, y las series son una herramienta muy potente para analizar componentes tendenciales (si alguna actividad sube o baja en el tiempo) y componentes estacionales (si los datos muestran un patrón de repetición). El contexto de opinión difuso que representa Twitter hace que el análisis sea diferente si se hiciera, por ejemplo, sobre opiniones de TripAdvisor, donde las opiniones escritas por los usuarios hacen referencia a un contexto muy concreto, sobre la satisfacción de la estancia en un establecimiento de alojamiento.

¿Qué tecnología utilizáis para realizar los mapas y los gráficos que habéis presentado en el estudio?

Para graficar las series temporales empleamos Plotly, una librería gráfica de Python. Y para mapas hemos utilizado, en otros estudios, CartoDB, que sirve también para hacer películas animadas muy potentes para ver la evolución gráfica de los datos sobre mapas.

¿Qué dificultades os habéis encontrado para realizar este análisis y como las habéis solventado?

En el caso de los mapas una de las dificultades es que no todos los tweets guarden su posición geográfica, sólo si el usuario tiene activa esta opción desde su terminal móvil. Se estima que alrededor de un 10% de los tweets están georreferenciados. Es por tanto un dato a tener en cuenta a la hora de aventurar conclusiones.

¿Cuáles son los resultados más significativos? ¿Para qué sirven? ¿Qué nuevas líneas de investigación proponéis a partir de estos resultados?

Lo más significativo es que el volumen de actividad en Ibiza despunta respecto al de las otras islas. Con las series temporales hemos podido explorar si determinadas actividades turísticas se concentran en época estival, o si por el contrario se desarrollan en otras épocas del año.

Hemos realizado también correlaciones de las series de tweets acumulados por isla durante el 2015 con los datos de llegadas de pasajeros en las islas (fuente proporcionada por el Ibestat), y hemos observado que las series de Ibiza y Formentera están fuertemente correlacionadas con la actividad de Twitter, lo cual indica que las conclusiones que se puedan sacar de este estudio sobre estas islas representan bastante bien su actividad turística en general. Una línea de investigación que proponemos es la del análisis de sentimiento, que en el caso de Twitter es extremadamente compleja por el contexto difuso que representa la información que contiene. Hay herramientas de tipo comercial, pero pensamos que todavía hay mucho que explorar en esta materia.

¿Qué aconsejaríais que estudie a un joven que se quiera dedicar al análisis y visualización de datos en el campo del Big Data?

El Big Data no se puede desarrollar con una única tecnología, aconsejamos que se formen para ser solventes en lenguajes como Python i R, para el tratamiento de datos, y JavaScript para la representación gráfica de resultados. Hadoop y Spark  son herramientas básicas para el tratamiento eficiente de grandes volúmenes. También una buena base matemàtica y estadística es esencial.

¿Y a uno que se quiera reciclar para dedicarse a este nuevo campo que ahora parece estar tan de moda?

Lo mismo que lo expuesto en el punto anterior.

¿Nos puede recomendar una película que inspire lo que está trabajando?

Aunque todavía no está estrenada, Snowden, de Oliver Stone.

¿Nos puede recomendar un libro que explique parte de lo que está haciendo?

El libro titulado Natural Language Processing with Python.- Analyzing Text with the Natural Language Toolkit ha sido un muy interesante sobre procesado de lenguaje natural, y para desarrollar algunos de los procesamientos utilizados en el estudio, como la tokenización del texto, la extracción de n-gramas, el tratamiento de stopwords, y el cálculo de distribución de frecuencias.

 

 

 

Acerca de Dr.TIC

Servei d'assessorament tecnològic per a empreses que volen obtenir una visió general del grau d'ús de les TIC al seu negoci i millorar la seva salut TIC.
Esta entrada fue publicada en Big Data, Entrevistas, Noticias, TenTIC. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Spam protection by WP Captcha-Free