{"id":398,"date":"2016-03-10T11:32:35","date_gmt":"2016-03-10T11:32:35","guid":{"rendered":"http:\/\/ottosunove.com\/ottosublog\/?p=398"},"modified":"2018-10-05T14:36:21","modified_gmt":"2018-10-05T14:36:21","slug":"cosa-si-nasconde-dentro-luniverso-dei-big-data","status":"publish","type":"post","link":"https:\/\/ottosunove.com\/ottosublog\/2016\/03\/10\/cosa-si-nasconde-dentro-luniverso-dei-big-data\/","title":{"rendered":"Cosa si nasconde dentro l\u2019universo dei Big Data?"},"content":{"rendered":"<p>In tanti parlano di Big Data ma addentrarsi nell\u2019argomento risulta ancora ostico per molti. Abbiamo quindi chiesto di illuminarci ad un esperto, qualcuno che dentro questa fitta selva di definizioni, applicazioni e potenzialit\u00e0 si spinge con determinazione: il data scientist\u00a0<strong>Riccardo Sabatini<\/strong>.<\/p>\n<p><strong>\u00c8 un ricercatore e imprenditore italiano che si \u00e8 trasferito in Silicon Valley<\/strong>, a San Francisco, per poter sfruttare a pieno le potenzialit\u00e0 dei suoi studi. Lo abbiamo intercettato su Linkedin, ci ha risposto tempestivamente e lo abbiamo riempito di domande tramite Skype. In questa lunga intervista che ci ha c oncesso ci ha coinvolti con il suo entusiasmo e, come usiamo dire in agenzia, ci ha aperto il terzo occhio. Ci ha dispensato ottimi spunti di riflessione, diversi esempi, simpatici aneddoti e ci ha appassionati alla sua materia. Vi consigliamo di leggerla tutta d\u2019un fiato!<\/p>\n<p><strong>Ciao Riccardo, cominciamo subito con le domande. Sentiamo tanto parlare di big data e delle loro enormi potenzialit\u00e0 per ottenere informazioni utili alle decisioni strategiche, tu che definizione gli daresti?<\/strong><\/p>\n<p>Big data \u00e8 un termine pi\u00f9 di marketing che tecnico. Negli ultimi anni sono stati identificati una serie di infrastrutture, tecnologie, avanzamenti scientifici, algoritmi e approcci che si sono dimostrati interessanti.<\/p>\n<p>Quando si hanno sufficienti dati si procede senza avere un modello a priori, partendo semplicemente dai dati.\u00a0<strong>Non tutti i big data per\u00f2 sono significativi e ci sono tantissimi paradossi<\/strong>.<\/p>\n<p><img loading=\"lazy\" class=\"aligncenter size-full wp-image-399\" src=\"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-big-data-sabatini.jpg\" alt=\"ottosublog-big-data-sabatini\" width=\"950\" height=\"428\" srcset=\"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-big-data-sabatini.jpg 950w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-big-data-sabatini-300x135.jpg 300w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-big-data-sabatini-768x346.jpg 768w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-big-data-sabatini-552x249.jpg 552w\" sizes=\"(max-width: 950px) 100vw, 950px\" \/><\/p>\n<p>A proposito c\u2019\u00e8 una storia che racconto sempre ai miei studenti. Un tacchino va a studiare statistica e fa un dottorato in data analytics, una volta terminato torna nel pollaio e vuole costruire il modello di rischio della vita dei tacchini. Costruisce un modello data driver, cio\u00e8 inizia a costruire una lunghissima tabella dove ogni mattina e ogni sera segna lo stesso evento, l\u2019arrivo di un essere umano che d\u00e0 del cibo a tutti. Il 3 di luglio il tacchino fa una previsione e dice \u201csecondo i dati, anche domani arriver\u00e0 il solito essere umano a darci il cibo\u201d. Il 4 di luglio arriva l\u2019essere umano e tira il collo a 150 tacchini.<\/p>\n<p>Questo \u00e8 dovuto ai cosiddetti rare events, cio\u00e8 quegli eventi che sfuggono dalla significanza statistica dei dati, sono molto difficili da vedere e tante volte sono anche quelli pi\u00f9 interessanti. Questi concetti richiederebbero decine di anni di campionamento e nessun calcolatore ad oggi conosciuto potrebbe estrarre i dati per ricostruire queste dinamiche. Alle volte \u00e8 pi\u00f9 conveniente integrare queste dinamiche con altri modelli, ad esempio i modelli a principi primi, o le neuroscienze. La mia visione \u00e8\u00a0<strong>che pi\u00f9 che dei big data, questa \u00e8 l\u2019era degli smart data<\/strong>, cio\u00e8 l\u2019integrazione di una mole importante di dati con un\u2019intelligence sofisticata.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Molto meno frequentemente, invece, si sente parlare di data mining. Qual \u00e8 il suo obiettivo nel complesso universo dei big data?<\/strong><\/p>\n<p>Il data mining \u00e8 il termine generico con cui si identificano le tecnologie o gli algoritmi di analisi dei dati. Quando vuoi analizzare un database molto grande, esistono diverse tecniche, diversi approcci e diversi modelli matematici che puoi utilizzare. A volte si usano termini pi\u00f9 specifici, ad esempio il machine learning, oppure se si applica il data mining ad aspetti visuali allora si parla di visual recognition. Insomma\u00a0<strong>ci sono tanti piccoli sotto termini, esiste una piccola foresta di definizioni<\/strong>.<\/p>\n<p>N\u00e9 in Italia n\u00e9 negli Stati Uniti esiste ancora una scienza in merito. Spesso questi approcci derivano da campi pi\u00f9 astratti come la matematica, la fisica teorica (io stesso sono un fisico teorico), computer science, ecc. Il core del data mining \u00e8 nato 5-6 anni fa, ci sono alcune conferenze in giro per il mondo ma adesso tutto questo si sta strutturando come una disciplina a s\u00e9. \u00c8 molto affascinante e se fossi un giovane studente non avrei il minimo dubbio su cosa studiare oggi: data mining.<\/p>\n<p><strong>Quali sono le maggiori criticit\u00e0 e gli aspetti che occorre valutare per riuscire a estrarre effettivo valore dalle grandi moli di dati?<\/strong><\/p>\n<p>Ho lavorato in diversi settori e ci sono un milione di sfide abbastanza peculiari che dipendono pi\u00f9 che altro dal settore di applicazione.<\/p>\n<p>Uno degli aspetti pi\u00f9 complessi da valutare nei prossimi anni sar\u00e0\u00a0<strong>la fusione tra informazione generata da essere umani e informazione generata da macchine, o Internet of Things<\/strong>.<\/p>\n<p>Nei giorni scorsi ero a Berkeley a parlare con dei ricercatori che stanno cercando esattamente di capire come integrare questi dati. Ci sono ad esempio dei modelli con cui dall\u2019analisi di sensori ambientali installati in casa o che derivano da dispositivi che indossi, si pu\u00f2 arrivare a ricostruire modelli comportamentali, scelte di marketing, stati di salute o stati emotivi, se ti sei messo di recente in una relazione o meno, ecc. Inoltre i dati sono pi\u00f9 affidabili perch\u00e9 nei nostri tweet e nei nostri commenti su Facebook selezioni e racconti una versione che vuoi di te. Invece con i dati crudi dei tuoi dispositivi \u00e8 pi\u00f9 difficile mentire. Puoi farti svariati selfie per far vedere che fai una vita movimentata, ma il GPS del tuo cellulare sa se sei stanziale in una singola citt\u00e0 o meno.<\/p>\n<p>Adesso sto lavorando ad un progetto di machine leraning con una banca italiana per creare la banca del futuro.\u00a0<strong>La storia della tua carta di credito pu\u00f2 raccontare delle cose assolutamente incredibili<\/strong>. Per esempio, sei un ragazzo fra i 20 e 30 anni e nel dettaglio delle tue spese hai una storia di hotel, attrezzature sportive o articoli elettronici. Ad un certo punto sulla tua carta di credito appare un acquisto in un negozio Prenatal. Ci vuole poco per capire che stai diventando padre e non puoi evitarlo. Puoi non scrivere su Facebook o Twitter che aspetti un figlio, ma il passeggino dovrai pur comprarlo. Il gestore della tua carta di credito sa che diventerai padre anche diversi mesi prima dei tuoi amici.<\/p>\n<p><img loading=\"lazy\" class=\"aligncenter size-full wp-image-400\" src=\"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-data-mining-sabaitini.jpg\" alt=\"ottosublog-data-mining-sabaitini\" width=\"950\" height=\"330\" srcset=\"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-data-mining-sabaitini.jpg 950w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-data-mining-sabaitini-300x104.jpg 300w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-data-mining-sabaitini-768x267.jpg 768w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-data-mining-sabaitini-552x192.jpg 552w\" sizes=\"(max-width: 950px) 100vw, 950px\" \/><\/p>\n<p><strong>In che modo si legano i big data con le neuroscienze e in cosa si differenziano i risultati frutto di questa combinazione?<\/strong><\/p>\n<p>Le neuroscienze si stanno rivelando particolarmente interessanti da quando stanno diventando una branca sempre pi\u00f9 quantitativa. La versione antica delle neuroscienze riguardava le scienze comportamentali, dove si facevano dei grandi studi di setup, domande-risposte, comportamenti in piccoli giochi. Invece adesso possiamo misurare le reazioni cerebrali con diverse tecnologie come l\u2019elettrocardiogramma o la risonanza magnetica funzionale. Se sai di partecipare a uno studio, potresti comportarti non esattamente come ti comporteresti nella vita reale e l\u2019esperimento potrebbe essere influenzato.\u00a0<strong>Il tuo cervello invece reagisce in poche decine di millesimi di secondo e si riesce a registrare i dati prima ancora che tu possa bloccare l\u2019istinto<\/strong>.<\/p>\n<p>Tuttavia ci sono due difficolt\u00e0. La prima \u00e8 che il cervello \u00e8 un organo complesso e per analizzarlo abbiamo bisogno di metodi numerici e di rappresentazioni piuttosto sofisticate. La seconda riguarda invece come comprendere quello che si ricava dall\u2019analisi. Purtroppo non esistono ancora database tanto massivi da costruire inferenze statistiche sui dati delle neuroscienze, quindi per ricavare dati utili si cerca ad esempio di studiare le persone che hanno subito dei traumi in specifiche zone del cervello che possono aiutare a capire se quell\u2019area \u00e8 connessa ad un\u2019azione.<\/p>\n<p>Si tratta di una\u00a0<strong>branca giovane e in cui c\u2019\u00e8 tantissimo ancora da fare<\/strong>. Il neuromarketing deriva da questo ed \u00e8 un altro campo in cui se fossi studente mi ci butterei volentieri, ma non posso essere studente tutta la vita.<\/p>\n<p><strong>Avendo compreso quindi che i big data sono ovunque e che attraverso il data mining abbiamo la concreta possibilit\u00e0 di migliorare qualsiasi performance, dal tuo punto di vista quali sono i settori che potrebbero beneficiarne maggiormente?<\/strong><\/p>\n<p>Direi tutti, per\u00f2 in particolare genomics, energy, banking, finance e scambi in generale. Il marketing lo utilizza gi\u00e0 e continuer\u00e0 a farlo comunque. Per quanto riguarda invece i settori che ho indicato, nel giro di uno o due anni usciranno degli sviluppi abbastanza importanti.\u00a0<strong>Poi nel lungo termine non ci sar\u00e0 un settore che non lo far\u00e0<\/strong>: dal controllo numerico dei pezzi stampati in una fonderia alle macchine senza conducente.<\/p>\n<p><img loading=\"lazy\" class=\"aligncenter size-full wp-image-401\" src=\"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-mechanism-sabatini.jpg\" alt=\"ottosublog-mechanism-sabatini\" width=\"950\" height=\"350\" srcset=\"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-mechanism-sabatini.jpg 950w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-mechanism-sabatini-300x111.jpg 300w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-mechanism-sabatini-768x283.jpg 768w, https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2018\/10\/ottosublog-mechanism-sabatini-552x203.jpg 552w\" sizes=\"(max-width: 950px) 100vw, 950px\" \/><\/p>\n<p><strong>Riccardo, prima hai accennato al fatto che hai un\u2019esperienza e una formazione molto eterogenee. Quanto sono state importanti per raggiungere il successo?<\/strong><\/p>\n<p>In Italia, per mille ragioni assurde, abbiamo perso sfortunatamente la correlazione fra l\u2019investimento nell\u2019educazione e la spendibilit\u00e0 nel mercato del lavoro. In gran parte delle nazioni del mondo questo avviene, se studi molto poi arrivano i risultati. In questo settore\u00a0<strong>devi avere tantissima passione, perch\u00e9 tante cose devi impararle da solo la sera<\/strong>.<\/p>\n<p>Io ho imparato molto grazie al dottorato che \u00e8 un percorso educativo che ti concede tanto tempo per te, dove puoi approfondire tantissimi aspetti e hai molta libert\u00e0. Per me \u00e8 stata un\u2019esperienza eccezionale e qui in Silicon Valley non trovi un lavoro di questo tipo se non hai il PhD. Con una semplice laurea puoi sognartelo! Quando ho fatto il dottorato mi \u00e8 venuta l\u2019idea di applicare i metodi matematici che avevo imparato a meccanica quantistica per un problema completamente diverso: il cibo. A quel punto per\u00f2 si trattava di un\u2019altra applicazione del machine learning, e abbiamo ottenuto dei risultati eccezionali molto in fretta. Forse perch\u00e9 eravamo i primi a farlo.<\/p>\n<p><strong>Un\u2019ultima domanda. Solo vent\u2019anni fa questa intervista sarebbe stata impossibile, non solo perch\u00e9 ti abbiamo contattato via Linkedin e ti stiamo intervistando dall\u2019altra parte del pianeta via Skype, ma soprattutto perch\u00e9 difficilmente uno scienziato avrebbe accettato di rispondere alle domande di un\u2019agenzia di comunicazione. Che peso credi abbia avuto la tecnologia nel generare questa evoluzione nella condivisione orizzontale dei saperi?<\/strong><\/p>\n<p>Per me \u00e8 difficile pensare quando non c\u2019era la tecnologia, sono cos\u00ec integrato che la mattina mi sveglio e voglio vedere i miei eventi automaticamente generarsi sul mio calendario dalle mie email.<\/p>\n<p>Ormai\u00a0<strong>nel 2015 non ci sono pi\u00f9 barriere<\/strong>. Spedisci una mail, ti rispondono in cinque minuti e, se hai qualcosa di interessante da dire, dieci minuti dopo ti propongono un appuntamento e ti ritrovi a fare dei meeting con gente incredibile. Certe volte pensi che raggiungere un contatto sia impossibile, non ti risponder\u00e0 mai, in realt\u00e0 i veri professionisti ti rispondono ancora pi\u00f9 in fretta degli altri o hanno i loro assistenti che ti rispondono per loro, perch\u00e9 \u00e8 una dimostrazione di chi sei online.<\/p>\n<p>Per quanto riguarda invece\u00a0<strong>la scienza che si racconta al mondo della comunicazione \u00e8 vero, ma non \u00e8 necessariamente un male<\/strong>. Certe volte alcune agenzie non capaci di interfacciarsi con gli scienziati, estrapolano dal contesto alcuni concetti, scrivono dei titoli clamorosi e generano delle reazioni complesse poi da fermare. La sperimentazione sugli animali, la genomica, la fertilizzazione in vitro, la modificazione del DNA quando sei vivo\u2026 ci sono delle tecniche che usciranno tra qualche anno che ci faranno sobbalzare, e raccontarle in maniera sbagliata pu\u00f2 generare un disastro. Adesso per\u00f2 ci sono alcune scuole che si stanno formando proprio sulla comunicazione e la deontologia della scienza, e io ho insegnato in un paio di queste.<\/p>\n<p>Quindi tecnologia \u201cyes, always!\u201d, ma\u00a0<strong>dobbiamo anche imparare a parlare di scienza<\/strong>\u00a0in maniera veramente eccellente.<\/p>\n<p>Grazie mille Riccardo!<\/p>\n<p>Intervista a\u00a0<a href=\"https:\/\/www.linkedin.com\/in\/rsabatini\" target=\"_blank\" rel=\"noopener\">Riccardo Sabatini<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p class=\"post-excerpt\">Intervista al data scientist Riccardo Sabatini<\/p>\n","protected":false},"author":4,"featured_media":403,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"spay_email":""},"categories":[8],"tags":[16,24,112],"jetpack_featured_media_url":"https:\/\/ottosunove.com\/ottosublog\/wp-content\/sites\/3\/2016\/03\/Untitled-design-5-1.jpg","_links":{"self":[{"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/posts\/398"}],"collection":[{"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/comments?post=398"}],"version-history":[{"count":0,"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/posts\/398\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/media\/403"}],"wp:attachment":[{"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/media?parent=398"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/categories?post=398"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ottosunove.com\/ottosublog\/wp-json\/wp\/v2\/tags?post=398"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}