Entrevistes TenTIC: Santi Camps, Big Data

Continuam amb la nostra ronda d’entrevistes amb experts que, tal com ja us anunciàrem, ens aniran explicant de manera senzilla com apliquen les tecnologies que són tendència (TenTIC) en els seus camps professionals. En aquesta ocasió parlam amb en Santi Camps, director i fundador de l’empresa Social Vane, empresa de tecnologia per la intel·ligència de mercat turística, que ens parlarà de Big Data.

Pregunta: Hem llegit algunes entrevistes que li han fet a InfoMenorca i al Centro de Innovación BBVA sobre l’activitat de la seva empresa. Sabem que es dedica a analitzar informació turística procedent de diferents plataformes web com Twitter, Tripadvisor, i altres llocs virtuals on els turistes poden deixar opinions sobre destinacions i serveis turístics.

Ens agradaria aprofundir en la motivació, la metodologia, la tecnologia i els resultats per als seus clients.

Quina relació té la tasca que realitza a Social Vane amb el Big Data?

Sovint el terme de Big Data és confús. Molta gent creu que si gestiona volums d’informació mitjanament grans ja fa Big Data, però no és així, a part dels volums grans, Big Data es caracteritza per extraure informació no evident de dades desestructurades. Això és exactament el que fem a la nostra empresa, on a partir de milions de comentaris que esmenten una destinació turística som capaços d’extreure una fotografia del mercat en temps real, amb informació i detalls del tot insospitats.

Quina metodologia i tecnologia utilitzen per cercar i emmagatzemar la informació? Quin és el principal avantatge? Quina és la principal dificultat?

Obtenim la informació mitjançant les APIs de les xarxes socials, principalment Twitter i Instagram, i l’emmagatzemam en bases de dades NoSQL

Quines fonts d’informació (webs) analitzen?

Twitter, Instagram principalment, però el nostre sistema és capaç de rastrejar mencions esments en qualsevol web del món.

Quina metodologia i tecnologia utilitzen per analitzar la informació que extreuen de les fonts abans esmentades? Quin és el principal avantatge? Quina és la principal dificultat?

Utilitzam sobretot processament de llenguatge natural (NLP), mitjançant una llibreria desenvolupada per l’equip d’investigació de la UPC anomenada Freeling, però també fem servir tècniques de reconeixement facial i algoritmes d’aprenentatge. Ho programam tot en llenguatge Python i ho paral·lelitzam mitjançant Celery perquè es necessiten moltes màquines simultànies per processar-ho tot. El principal avantatge és que vam aconseguir enriquir molt la informació en grans volums, la dificultat és que cal pensar-ho tot perquè s’executi de forma distribuïda

Quines són les variables que analitzen i com relacionen unes variables amb les altres?

Nosaltres acceptem tot el que podem de la menció i l’emissor de la mateixa, i després vam acabar enriquint aquesta informació. Al final vam acabar tenint un munt de variables, com són les destinacions turístiques, els mercats emissors, els productes turístics, els atractius turístics per destinació i producte, el gènere dels emissors, el seu rang d’edat, la seva ubicació geogràfica o fins i tot tot el seu perfil socioeconòmic. El nostre ssoftware permet creuar tot amb tot, és com una matriu N dimensional que facilita analitzar la informació des de tots els prismes possibles.

Quin tipus d’anàlisis estadístiques apliquen? I per què han escollit aquests i no uns altres?

Aplicam estadística senzilla, cercam proporcionar una foto del mercat turístic de la manera més clara i comprensible possible. On potser hi ha fórmules una mica més complexes és a l’hora d’estimar indicadors com la percepció de seguretat d’una destinació o la satisfacció climàtica.

Quina tecnologia utilitzen per realitzar els mapes i els gràfics que ofereixen als seus clients?

Una llibreria de Javascript molt generalista i coneguda anomenada HighCharts.

Quines dificultats s’han trobat per realitzar aquesta anàlisi i com les han solucionat?

Al principi vam tenir molts problemes per poder analitzar volums d’informació tan grans amb temps de resposta acceptables (de pocs segons). Ho vam solucionar en tres vies: tunning del sistema, caching per software i hardware especialitzat.

Quins són els resultats més significatius que ens pot explicar (no cal dir per a qui els han descobert)? Per a què serveixen? Quines noves línies d’investigació proposa a partir d’aquests resultats?

Alguns dels més sonats són el Ranking Big Data de las Costas Españolas publicat a Hosteltur o l’anàlisi de l’impacte dels atemptats de París a la percepció de seguretat publicat a Skift.

Què aconsellaria que estudiï a un jove que es vol dedicar a l’anàlisi i visualització de dades en el camp del Big Data?

Enginyeria informàtica per una banda i Disseny Gràfic per l’altra. Los dades han de ser útils, però també fa falta que es presentin de forma atractiva jajaja.

I a un que es vulgui reciclar per dedicar-se a aquest nou camp que ara sembla estar tan de moda?

Que comenci per descarregar i estudiar la gran quantitat d’eines de software libre que fan possible aquest nou camp.

Ens pot recomenar una pel·lícula que inspiri allò en què està treballant?

Her, és una pel·lícula molt interessant sobre la intel·ligència artificial.

Ens pot recomanar un llibre que expliqui part d’allò que està fent?

Running Lean, t’ajuda a centrar-te, la seva conclusió és que no hi ha res pitjor que dedicar la teva vida a construir coses que ningú necessita 🙂 

 

 

 

 

 

 

 

 

 

Quant a Dr.TIC

Servei d'assessorament tecnològic per a empreses que volen obtenir una visió general del grau d'ús de les TIC al seu negoci i millorar la seva salut TIC.
Aquesta entrada ha estat publicada en Big Data, Entrevistes, Notícies, TenTIC. Afegeix a les adreces d'interès l'enllaç permanent.

Deixa un comentari

L'adreça electrònica no es publicarà Els camps necessaris estan marcats amb *

Spam protection by WP Captcha-Free