In tanti parlano di Big Data ma addentrarsi nell’argomento risulta ancora ostico per molti. Abbiamo quindi chiesto di illuminarci ad un esperto, qualcuno che dentro questa fitta selva di definizioni, applicazioni e potenzialità si spinge con determinazione: il data scientist Riccardo Sabatini.
È un ricercatore e imprenditore italiano che si è trasferito in Silicon Valley, a San Francisco, per poter sfruttare a pieno le potenzialità dei suoi studi. Lo abbiamo intercettato su Linkedin, ci ha risposto tempestivamente e lo abbiamo riempito di domande tramite Skype. In questa lunga intervista che ci ha c oncesso ci ha coinvolti con il suo entusiasmo e, come usiamo dire in agenzia, ci ha aperto il terzo occhio. Ci ha dispensato ottimi spunti di riflessione, diversi esempi, simpatici aneddoti e ci ha appassionati alla sua materia. Vi consigliamo di leggerla tutta d’un fiato!
Ciao Riccardo, cominciamo subito con le domande. Sentiamo tanto parlare di big data e delle loro enormi potenzialità per ottenere informazioni utili alle decisioni strategiche, tu che definizione gli daresti?
Big data è un termine più di marketing che tecnico. Negli ultimi anni sono stati identificati una serie di infrastrutture, tecnologie, avanzamenti scientifici, algoritmi e approcci che si sono dimostrati interessanti.
Quando si hanno sufficienti dati si procede senza avere un modello a priori, partendo semplicemente dai dati. Non tutti i big data però sono significativi e ci sono tantissimi paradossi.
A proposito c’è una storia che racconto sempre ai miei studenti. Un tacchino va a studiare statistica e fa un dottorato in data analytics, una volta terminato torna nel pollaio e vuole costruire il modello di rischio della vita dei tacchini. Costruisce un modello data driver, cioè inizia a costruire una lunghissima tabella dove ogni mattina e ogni sera segna lo stesso evento, l’arrivo di un essere umano che dà del cibo a tutti. Il 3 di luglio il tacchino fa una previsione e dice “secondo i dati, anche domani arriverà il solito essere umano a darci il cibo”. Il 4 di luglio arriva l’essere umano e tira il collo a 150 tacchini.
Questo è dovuto ai cosiddetti rare events, cioè quegli eventi che sfuggono dalla significanza statistica dei dati, sono molto difficili da vedere e tante volte sono anche quelli più interessanti. Questi concetti richiederebbero decine di anni di campionamento e nessun calcolatore ad oggi conosciuto potrebbe estrarre i dati per ricostruire queste dinamiche. Alle volte è più conveniente integrare queste dinamiche con altri modelli, ad esempio i modelli a principi primi, o le neuroscienze. La mia visione è che più che dei big data, questa è l’era degli smart data, cioè l’integrazione di una mole importante di dati con un’intelligence sofisticata.
Molto meno frequentemente, invece, si sente parlare di data mining. Qual è il suo obiettivo nel complesso universo dei big data?
Il data mining è il termine generico con cui si identificano le tecnologie o gli algoritmi di analisi dei dati. Quando vuoi analizzare un database molto grande, esistono diverse tecniche, diversi approcci e diversi modelli matematici che puoi utilizzare. A volte si usano termini più specifici, ad esempio il machine learning, oppure se si applica il data mining ad aspetti visuali allora si parla di visual recognition. Insomma ci sono tanti piccoli sotto termini, esiste una piccola foresta di definizioni.
Né in Italia né negli Stati Uniti esiste ancora una scienza in merito. Spesso questi approcci derivano da campi più astratti come la matematica, la fisica teorica (io stesso sono un fisico teorico), computer science, ecc. Il core del data mining è nato 5-6 anni fa, ci sono alcune conferenze in giro per il mondo ma adesso tutto questo si sta strutturando come una disciplina a sé. È molto affascinante e se fossi un giovane studente non avrei il minimo dubbio su cosa studiare oggi: data mining.
Quali sono le maggiori criticità e gli aspetti che occorre valutare per riuscire a estrarre effettivo valore dalle grandi moli di dati?
Ho lavorato in diversi settori e ci sono un milione di sfide abbastanza peculiari che dipendono più che altro dal settore di applicazione.
Uno degli aspetti più complessi da valutare nei prossimi anni sarà la fusione tra informazione generata da essere umani e informazione generata da macchine, o Internet of Things.
Nei giorni scorsi ero a Berkeley a parlare con dei ricercatori che stanno cercando esattamente di capire come integrare questi dati. Ci sono ad esempio dei modelli con cui dall’analisi di sensori ambientali installati in casa o che derivano da dispositivi che indossi, si può arrivare a ricostruire modelli comportamentali, scelte di marketing, stati di salute o stati emotivi, se ti sei messo di recente in una relazione o meno, ecc. Inoltre i dati sono più affidabili perché nei nostri tweet e nei nostri commenti su Facebook selezioni e racconti una versione che vuoi di te. Invece con i dati crudi dei tuoi dispositivi è più difficile mentire. Puoi farti svariati selfie per far vedere che fai una vita movimentata, ma il GPS del tuo cellulare sa se sei stanziale in una singola città o meno.
Adesso sto lavorando ad un progetto di machine leraning con una banca italiana per creare la banca del futuro. La storia della tua carta di credito può raccontare delle cose assolutamente incredibili. Per esempio, sei un ragazzo fra i 20 e 30 anni e nel dettaglio delle tue spese hai una storia di hotel, attrezzature sportive o articoli elettronici. Ad un certo punto sulla tua carta di credito appare un acquisto in un negozio Prenatal. Ci vuole poco per capire che stai diventando padre e non puoi evitarlo. Puoi non scrivere su Facebook o Twitter che aspetti un figlio, ma il passeggino dovrai pur comprarlo. Il gestore della tua carta di credito sa che diventerai padre anche diversi mesi prima dei tuoi amici.
In che modo si legano i big data con le neuroscienze e in cosa si differenziano i risultati frutto di questa combinazione?
Le neuroscienze si stanno rivelando particolarmente interessanti da quando stanno diventando una branca sempre più quantitativa. La versione antica delle neuroscienze riguardava le scienze comportamentali, dove si facevano dei grandi studi di setup, domande-risposte, comportamenti in piccoli giochi. Invece adesso possiamo misurare le reazioni cerebrali con diverse tecnologie come l’elettrocardiogramma o la risonanza magnetica funzionale. Se sai di partecipare a uno studio, potresti comportarti non esattamente come ti comporteresti nella vita reale e l’esperimento potrebbe essere influenzato. Il tuo cervello invece reagisce in poche decine di millesimi di secondo e si riesce a registrare i dati prima ancora che tu possa bloccare l’istinto.
Tuttavia ci sono due difficoltà. La prima è che il cervello è un organo complesso e per analizzarlo abbiamo bisogno di metodi numerici e di rappresentazioni piuttosto sofisticate. La seconda riguarda invece come comprendere quello che si ricava dall’analisi. Purtroppo non esistono ancora database tanto massivi da costruire inferenze statistiche sui dati delle neuroscienze, quindi per ricavare dati utili si cerca ad esempio di studiare le persone che hanno subito dei traumi in specifiche zone del cervello che possono aiutare a capire se quell’area è connessa ad un’azione.
Si tratta di una branca giovane e in cui c’è tantissimo ancora da fare. Il neuromarketing deriva da questo ed è un altro campo in cui se fossi studente mi ci butterei volentieri, ma non posso essere studente tutta la vita.
Avendo compreso quindi che i big data sono ovunque e che attraverso il data mining abbiamo la concreta possibilità di migliorare qualsiasi performance, dal tuo punto di vista quali sono i settori che potrebbero beneficiarne maggiormente?
Direi tutti, però in particolare genomics, energy, banking, finance e scambi in generale. Il marketing lo utilizza già e continuerà a farlo comunque. Per quanto riguarda invece i settori che ho indicato, nel giro di uno o due anni usciranno degli sviluppi abbastanza importanti. Poi nel lungo termine non ci sarà un settore che non lo farà: dal controllo numerico dei pezzi stampati in una fonderia alle macchine senza conducente.
Riccardo, prima hai accennato al fatto che hai un’esperienza e una formazione molto eterogenee. Quanto sono state importanti per raggiungere il successo?
In Italia, per mille ragioni assurde, abbiamo perso sfortunatamente la correlazione fra l’investimento nell’educazione e la spendibilità nel mercato del lavoro. In gran parte delle nazioni del mondo questo avviene, se studi molto poi arrivano i risultati. In questo settore devi avere tantissima passione, perché tante cose devi impararle da solo la sera.
Io ho imparato molto grazie al dottorato che è un percorso educativo che ti concede tanto tempo per te, dove puoi approfondire tantissimi aspetti e hai molta libertà. Per me è stata un’esperienza eccezionale e qui in Silicon Valley non trovi un lavoro di questo tipo se non hai il PhD. Con una semplice laurea puoi sognartelo! Quando ho fatto il dottorato mi è venuta l’idea di applicare i metodi matematici che avevo imparato a meccanica quantistica per un problema completamente diverso: il cibo. A quel punto però si trattava di un’altra applicazione del machine learning, e abbiamo ottenuto dei risultati eccezionali molto in fretta. Forse perché eravamo i primi a farlo.
Un’ultima domanda. Solo vent’anni fa questa intervista sarebbe stata impossibile, non solo perché ti abbiamo contattato via Linkedin e ti stiamo intervistando dall’altra parte del pianeta via Skype, ma soprattutto perché difficilmente uno scienziato avrebbe accettato di rispondere alle domande di un’agenzia di comunicazione. Che peso credi abbia avuto la tecnologia nel generare questa evoluzione nella condivisione orizzontale dei saperi?
Per me è difficile pensare quando non c’era la tecnologia, sono così integrato che la mattina mi sveglio e voglio vedere i miei eventi automaticamente generarsi sul mio calendario dalle mie email.
Ormai nel 2015 non ci sono più barriere. Spedisci una mail, ti rispondono in cinque minuti e, se hai qualcosa di interessante da dire, dieci minuti dopo ti propongono un appuntamento e ti ritrovi a fare dei meeting con gente incredibile. Certe volte pensi che raggiungere un contatto sia impossibile, non ti risponderà mai, in realtà i veri professionisti ti rispondono ancora più in fretta degli altri o hanno i loro assistenti che ti rispondono per loro, perché è una dimostrazione di chi sei online.
Per quanto riguarda invece la scienza che si racconta al mondo della comunicazione è vero, ma non è necessariamente un male. Certe volte alcune agenzie non capaci di interfacciarsi con gli scienziati, estrapolano dal contesto alcuni concetti, scrivono dei titoli clamorosi e generano delle reazioni complesse poi da fermare. La sperimentazione sugli animali, la genomica, la fertilizzazione in vitro, la modificazione del DNA quando sei vivo… ci sono delle tecniche che usciranno tra qualche anno che ci faranno sobbalzare, e raccontarle in maniera sbagliata può generare un disastro. Adesso però ci sono alcune scuole che si stanno formando proprio sulla comunicazione e la deontologia della scienza, e io ho insegnato in un paio di queste.
Quindi tecnologia “yes, always!”, ma dobbiamo anche imparare a parlare di scienza in maniera veramente eccellente.
Grazie mille Riccardo!
Intervista a Riccardo Sabatini
Comments by Gero Di Bella