Entrevistas TenTIC: Santi Camps, Big Data

Continuamos con nuestra ronda de entrevistas con expertos que, tal como ya os anunciamos, nos irán explicando de manera sencilla cómo aplican las tecnologías que son tendencia (TenTIC) en sus campos profesionales. En esta ocasión hablamos con Santi Camps, director y fundador de la empresa Social Vane, empresa de tecnología para la inteligencia de mercado turística, que nos hablará de Big Data.

Pregunta: Hemos leído algunas entrevistas que le han hecho en InfoMenorca y en el Centro de Innovación BBVA sobre la actividad de su empresa. Sabemos que se dedica a analizar información turística procedente de diferentes plataformas web como Twitter, Tripadvisor, y otros lugares virtuales donde los turistas pueden dejar opiniones sobre destinos y servicios turísticos.

Nos gustaría profundizar en la motivación, la metodología, la tecnología y los resultados para sus clientes.

¿Qué relación tiene la tarea que realiza en Social Vane con el Big Data?

A menudo el término de Big Data es confuso. Mucha gente cree que si gestiona volúmenes de información medianamente grandes ya hace Big Data, pero no es así, aparte de los volúmenes grandes Big Data se caracteriza por extraer información no evidente de datos desestructurados. Esto es exactamente lo que hacemos en nuestra empresa, donde a partir de millones de comentarios que mencionan un destino turístico somos capaces de extraer una fotografía del mercado en tiempo real, con información y detalles del todo insospechados.

¿Qué metodología y tecnología utilizan para buscar y almacenar la información? ¿Cuál es la principal ventaja? ¿Cuál es la principal dificultad?

Obtenemos la información mediante las APIs de las redes sociales, principalmente Twitter e Instagram, y la almacenamos en bases de datos NoSQL. Dado el gran volumen de información (captamos más de 4 millones de menciones al día), las bases de datos tradicionales no son capaces de soportarlo. La principal dificultad es precisamente esa, al no poder disponer de BBDD tradicionales el análisis y cruce de la información es un poco más costoso.

¿Qué fuentes de información (webs) analizan?

Twitter, Instagram principalmente, pero nuestro sistema es capaz de rastrear menciones en cualquier web del mundo.

¿Qué metodología y tecnología utilizan para analizar la información que extraen de las fuentes antes mencionadas? ¿Cuál es la principal ventaja? ¿Cuál es la principal dificultad?

Utilizamos sobretodo procesamiento de lenguaje natural (NLP), mediante una librería desarrollada por el equipo de investigación de la UPC llamada Freeling, pero también usamos técnicas de reconocimiento facial y algoritmos de aprendizaje. Lo programamos todo en lenguaje Python y lo paralelizamos mediante Celery porque se necesitan muchas máquinas simultáneas para procesar todo. La principal ventaja es que conseguimos enriquecer mucho la información en grandes volúmenes, la dificultad es que hay que pensarlo todo para que se ejecute de forma distribuida.

¿Cuáles son las variables que analizan y cómo relacionan unas variables con las otras?

Nosotros captamos todo lo que podemos de la mención y del emisor de la misma, y ​​luego acabamos enriqueciendo esta información. Al final acabamos teniendo un montón de variables, como son los destinos turísticos, los mercados emisores, los productos turísticos, los atractivos turísticos por destino y producto, el género de los emisores, su rango de edad, su ubicación geográfica o incluso todo su perfil socioeconómico. Nuestro software permite cruzar todo con todo, es como una matriz N dimensional que facilita analizar la información desde todos los prismas posibles.

¿Qué tipo de análisis estadísticos aplican? Y por qué han escogido estos y no otros?

Aplicamos estadística sencilla, buscamos proporcionar una foto del mercado turístico de la manera más clara y comprensible posible. Donde quizás hay fórmulas un poco más complejas es a la hora de estimar indicadores como la percepción de seguridad de un destino o la satisfacción climática.

¿Qué tecnología utilizan para realizar los mapas y los gráficos que ofrecen a sus clientes?

Una librería de Javascript muy generalista y conocida llamada HighCharts.

¿Qué dificultades se han encontrado para realizar este análisis y cómo las han solventado?

Al principio tuvimos muchos problemas para poder analizar volúmenes de información tan grandes con tiempos de respuesta aceptables (de pocos segundos). Lo solucionamos en tres vías: tunning del sistema, caching por software y hardware especializado.

¿Cuáles son los resultados más significativos que nos puede explicar (no hace falta decir para quién los han descubierto)? ¿Para qué sirven? ¿Qué nuevas líneas de investigación propone a partir de estos resultados?

Algunos de los más sonados son el Ranking Big Data de las Costas Españolas publicado en Hosteltur o el análisis del impacto de los atentados de París en la percepción de seguridad publicado en Skift.

¿Qué aconsejaría que estudie a un joven que se quiera dedicar al análisis y visualización de datos en el campo del Big Data?

Ingeniería informática por un lado y Diseño Gráfico por el otro. Los datos deben ser útiles, pero también hace falta que se presenten de forma atractiva jajaja.

¿Y a uno que se quiera reciclar para dedicarse a este nuevo campo que ahora parece estar tan de moda?

Que empiece por descargar y estudiar la gran cantidad de herramientas de software libre que hacen posible este nuevo campo.

¿Nos puede recomendar una película que inspire lo que está trabajando?

Her, es una película muy interesante sobre la inteligencia artificial.

¿Nos puede recomendar un libro que explique parte de lo que está haciendo?

Running Lean, te ayuda a centrarte, su conclusión es que no hay nada peor que dedicar su vida a construir cosas que nadie necesita 🙂 

Acerca de Dr.TIC

Servei d'assessorament tecnològic per a empreses que volen obtenir una visió general del grau d'ús de les TIC al seu negoci i millorar la seva salut TIC.
Esta entrada fue publicada en Big Data, Entrevistas, Noticias, TenTIC. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Spam protection by WP Captcha-Free