Open Data BCN. 10-03-2015 Outliers Collective és un col•lectiu de professionals de l’enginyeria, l’anàlisi i la visualització de dades. Autors del projecte BCN Beats, pretenen entendre els comportaments humans a partir de les dades. En parlem amb Óscar Marín, enginyer de dades i fundador de la companyia.

Què fa Outliers Collective?
Ens dediquem a l’anàlisi i la visualització de dades, tant big com small data. L’anàlisi pot ser de dades financeres, d’arquitectura, geogràfiques... No estem especialitzats.

Com vau decidir emprendre aquest camí?
El 2012 un grup de gent que volíem començar pel nostre compte en el món de les dades i teníem una experiència sumada d’uns 30 anys en l’àmbit de les dades. Teníem una visió més multidisciplinària i oberta que a l’empresa privada tradicional, i no teníem cabuda. Per això vam dir de començar.

Us heu constituït com a empresa?
Som freelance amb una marca. La idea va ser començar com a freelance perquè prevèiem que necessitaríem col•laboracions puntuals de gent especialitzada en arquitectura, disseny, geografia, ciència.. però que no havíem de tenir en plantilla. En el món de les dades és habitual que necessitis experts puntuals en la matèria que estàs treballant, però quan canvies de projecte necessites altres experts, de manera que no pots tenir-los a tots en plantilla. I aquesta és una de les raons per les quals les companyies tradicionals en el món de les dades s’especialitzen i no tenen flexibilitat.

“A vegades és millor poques dades ben construïdes que no pas una pluja de dades”

Quins perfils professionals són els més habituals?
Dissenyadors, arquitectes, enginyers de software i de telecomunicacions, comunicadors i estadístics.

Parleu de tres potes: data engineering, data analysis i data visualization. Ens les expliqueu?
Data engineering consisteix en programar la infraestructura per poder solucionar el problema a algú que tingui moltes dades i necessiti un accés ràpid. Data analysis és la fase posterior, un cop muntada la infraestructura són totes les tecnologies per treure ordre del caos de les dades. Visualization es tracta de presentar tot el que has tret de l’anàlisi de manera que expliqui una història.

Amb quines dades soleu treballar?
Molts tipus. Dades geolocalitzades, dades de xarxes socials (Twitter, Facebook, LinkedIn, Foursquare i Instagram), financeres, d’immigracions, socioeconòmiques, de salut, de màrqueting, d’start-ups per caracteritzar el seu creixement com estem fent amb Ideas for Change de Javi Creus..

Per què pot servir l’anàlisi de dades?
Per a coses molt bones, i coses molt dolentes. La nostra obsessió és entendre a través de les dades a l’ésser humà i analitzar-ne els comportaments. Per exemple, fa poc a sortir un anàlisi que correlacionava el nivell de corrupció d’un país amb les diferències econòmiques i el nivell de renda i l’experiment va confirmar la hipòtesi. Les dades poden servir per a moltes coses i, en el nostre cas, per entendre a l’ésser humà.

De quina manera?
Treballem molt amb el llenguatge, mirant de veure quin tipus d’emoció expressa una frase, si és positiva o negativa. Detectar si una frase té humor o ironia. La base sempre és humana. En totes les anàlisis que fem sempre hi ha revisió humana. No tant dada per dada, sinó en l’estructura que suporta l’anàlisi. Es fa un test sobre un conjunt petit de dades i, si funciona bé, s’escala i llavors ja podem parlar de big data. Però sempre comencem amb una mostra molt petita perquè estigui bé.

La visualització de dades ja és una disciplina per si mateixa?
Té un espectre molt ampli. Des d’una visualització de dades exploratòria fins a una altra de tipus explicativa. En tot aquest espectre hi caben moltes coses. Un artista pot fer una visualització i ser considerada art, però pot tenir un encàrrec de fer una visualització sobre migracions, que hagi de ser més objectiva i clara. Hi entra art, periodisme, enginyeria, ciència, moltes coses..

Amb quin tipus d’infografies treballeu més habitualment?
Depèn de les dades que tingui la persona i que vulgui visualitzar. Ara mateix el que més fem són dashboards a gent que no en té i, o bé internament vol veure els patrons de les seves dades o bé vol obrir-les al públic. Ara, per exemple, treballem amb Goteo tractant de trobar patrons en el crowdfunding, en el sentit de si en projectes menys materials, com ara de software, el mecenatge es produeix a més distància en un món més global. El client té dades i una pregunta, i nosaltres tractem de respondre-la.

“El client té dades i una pregunta, i nosaltres tractem de respondre-la”

I pel que fa a l’analítica de dades?
El qui explica les coses és qui ha fet les preguntes, el qui fa l’encàrrec. Nosaltres tractem de reduir la complexitat perquè s’expliqui més o menys per si sol el resultat, però la interpretació la fa l’expert.

Com apareix el projecte BCN Beats?
La idea sorgeix d’un hackathon en el Big Data Week de 2013. Ens vam ajuntar gent de dades i gent d’audiovisual, de Telenoika, que fan videomapping –projectar resultats sobre edificis i estructures-. Al lloc on vam fer el hackathon hi havia una maqueta de Barcelona amb relleu i va sorgir la idea de barrejar el món físic amb el que estava passant a les xarxes. Vam començar amb els clàssics Twitter i Instagram, però després vam recollir també dades de tipus més físic com Bicing, Foursquare o el trànsit. El resultat sobre el mapa físic va ser espectacular. Vam fer-ho també a l’última Diada i l’únic que es veia era la V.

Aquest estudi és un encàrrec o l’heu fet de motu proprio?
És per amor a l’art. Tractem de dedicar un 25% del nostre temps a la innovació. No és fàcil a nivell material, però a nivell emocional enriqueix. Tractem de fer coses innovadores. Fallem molt però una de cada tres sí que té sentit. I les que tenen sentit després tractem que també en tinguin pel client.

Quin és el vostre model de negoci?
Bootstrapping, és a dir, començar sense finançament oferint serveis, consultoria, projectes, etc. i amb la rendibilitat d’aquests diners finançar el que realment vols fer que, en el nostre cas, és la innovació. No és en tant la tècnica d’aplicar a les dades sinó en els resultats i les reflexions que segueixen aquests resultats. No es tracta tant de fer més ràpid sinó d’analitzar alguna cosa que ningú hagi fet.

Com evolucionarà del Big Data a nivell tecnològic?
Falten dues bombolles per rebentar. D’una banda, es creu que és millor quantes més dades es disposi i, a nivell estadístic, quantes més dades tens més correlacions espúries es poden trobar. Hi ha relació entre el consum de gelats i els accidents de trànsit. Per què? Perquè és estiu. Hi ha una variable oculta. A més volum de dades més correlacions d’aquestes es trobaran. I de l’altra, el Machine learning, o aprenentatge automàtic. Les anàlisis automàtiques a vegades no donen respostes i cal posar la lupa en variables, parlar amb experts i desdoblar variables. Per tant, després d’aquestes bombolles s’arribarà a que la qualitat de l’anàlisi depèn de factors humans i que a vegades és millor poques dades ben construïdes que no pas una pluja de dades.

I a nivell humà?
Estem un procés de datificació de tot. El mòbil és una font de dades. Crec que hi haurà una espècie d’intel•ligència invisible entre els dispositius que recullen dades, en el sentit que es reprendrà la vella domòtica domèstica amb dispositius parlant entre sí.