Apr 08 2015

HelpSemaforoQuesto semaforo indica il livello difficoltà del post
semaforo verde - articolo per tutti

La malattia per i dati

autore: Marco Cilia categoria: generale tag: ,

Sogno di scrivere questo post da tantissimo tempo. Un post in cui provo a indagare le pieghe più recondite della mente di una persona che vive per i numeri, tipo me. So già che è un po’ mettersi alla berlina, perché effettivamente molte cose se le leggi da fuori sono ridicole, ma so anche che vale sicuramente la pena di spiegare per bene da dove nasca – e magari perché – un amore che si è poi trasformato in un lavoro.

Non mi ricordo esattamente quando la passione per i numeri sia cominciata, ma sicuramente è iniziata prima dell’avvento dei computer; quindi non è legata all’informatica in senso stretto. Ricordo benissimo che a scuola preferivo le materie scientifiche: dentro di me sapevo benissimo che esisteva una e una sola risposta alle domande scientifiche/matematiche, e azzeccarla significava fare bene. Azzeccarle tutte significava massimo dei voti, e io ci tenevo a fare bene. Alle domande di lettere invece dovevi improvvisare un po’, perché la risposta magari era una, ma le sfaccettature erano troppe: magari la prof si era laureata studiando Dante per una vita? allora la tua risposta era probabilmente ok, ma lei avrebbe detto qualcosa in più. Oppure ancora, le materie letterarie erano il terreno perfetto per far soffrire gli studenti invisi ai professori. Ti faccio una domanda cattiva, pretendo una risposta articolata, più articolata, con più sfaccettature, ti metto un brutto voto lo stesso.

Ricordo invece molto chiaramente che una volta un professore di Matematica in prima superiore stava scrivendo una roba piuttosto complicata alla lavagna. Lui era veramente terribile, temuto da tutti e i brutti voti fioccavano ogni giorno. Fatto sta che, non so nemmeno perché, io stavo parlando col mio vicino di banco e ad un tratto lui tuonò “Cilia!, ora vieni e la risolvi tu”.
Non lo so come feci, ma alla fine scrissi un 2 molto grande (lui nemmeno guardava) e timidamente dissi “fatto!” immaginando che quella sera avrei dovuto prodigarmi in innumerevoli spiegazioni con i miei genitori. E invece lui laconico disse “Vedete? l’ho chiamato con il chiaro intento di mettergli un brutto voto, ma è giusta. E’ giusta, maledizione! Vatti a sedere!”
(A proposito, alle superiori ero a ragioneria, anche questo un po’ è sintomatico, no? 😀 )

Dopo il diploma scelsi Ingegneria informatica, ma non ce l’avrei mai fatta e infatti durai solo un anno. Ironia della sorte, mi mancavano completamente le basi di matematica che mi avrebbero permesso di non soffrire (troppo) Analisi I, Fisica I, Matematica I, ecc. Avevo comunque scoperto internet e deciso che volevo lavorare nei computer, e possibilmente con i numeri. Il mio primo lavoro vero, guarda caso, era la gestione del centro di elaborazione dati della ruota di Genova, per conto di Lottomatica. Numeri non ce n’erano tanti, a parte quelli che estraevano, ma computer si. Sintomatico anche quello, direi, tra tutte le possibilità che c’erano.

In ogni caso dopo varie avventure sono finalmente approdato su Google Analytics, su questo blog e sul lavoro che attualmente svolgo, interamente legato ai numeri. Nel frattempo la “malattia” per tutto quello che è dato/numero/statistica non si è affievolita, ma anzi si è rafforzata e contamina praticamente ogni aspetto della mia vita. Di qualsiasi cosa si stia parlando, state certi che una parte del cervello lavora per estrarre numeri, collegamenti, occorrenze, date. Quando non lo faccio inconsciamente, è perché allora lo faccio di proposito, ed ecco un elenco abbastanza esaustivo. Parte dell’elenco non esisterebbe senza un altro fattore tipica dei “malati”: la costanza maniacale nel dedicare tempo a fare data input e controllare la data quality. Ad esempio:

Biglietti del cinema
Colleziono (fisicamente) i biglietti del cinema da quando ci vado con gli amici (Batman, ottobre 1989). Su ognuno c’è scritto il cinema, il film, la data (una volta mica li stampavano dal computer 😉 ) e sul retro i nomi delle persone con cui ero. Una volta avevo provato a trasportarli su Excel, ma non trovavo un modo sensato di rappresentare i dati e lasciai perdere. Oggi ne uscirebbero delle infografiche mica male, ad esempio:
– con quale frequenza vado al cinema, e come essa è cambiata prima e dopo la nascita di mia figlia?
– con quale persona ho visto più film di fantascienza insieme? e film di azione?
– bubble chart combinata delle info sopra, con evoluzione nel tempo
– numero medio di amici per film, diviso per genere o per anno
– rating medio IMDB dei film visti, segmentati per genere, per amico o per sala (per capire se ad esempio un certo cinema è solito proiettare film migliori)

Fitbit
Sono un utente Fitbit da marzo 2014. Prima con un Fitbit Flex, ora con un Charge HR. Attraverso di essi ho il numero di passi al giorno/settimana/mese, la distanza percorsa, le calorie bruciate, i minuti di attività intensa, la durata e la qualità del sonno. Da quando ho il Charge HR anche il battito cardiaco e il numero di piani (equivalenti) saliti.
Avendo anche la bilancia Fitbit Aria, ho anche il peso registrato automaticamente.
Cosa me ne faccio e quali insight mi offre?
Di norma bisognerebbe fare 10.000 passi al giorno, ma poiché alcuni giorni lavoro da casa non ci vado nemmeno lontanamente vicino. Questo mi sprona, per quanto possibile, a recuperare quando posso andando a piedi nei tragitti ove è possibile. Un conto è immaginare che genericamente “mi muovo poco”, un altro è vedere un grafico terribilmente basso o la tua posizione in una classifica di amici che invece escono di casa tutti i giorni. Monitorare il peso, è banale, mi aiuta a regolare l’assunzione di cibo, ma in particolare mi interessa la % di massa grassa e magra. Ok, non è una vera e propria plicometria, ma come dato generico è sufficiente se integrato ad altri dati che ottengo.

FitBit-sonno

Il grafico della qualità del sonno è utile per capire come mai certi giorni finisci il carburante a metà giornata, mentre altri dati sono ovviamente più banali (indovina? in ferie dormo di più! 😀 ).

MyFitnessPal
Su MyFitnessPal inserisco la lista dei cibi che assumo. Sono iscritto da luglio 2013 e attualmente ho uno streak (giorni consecutivi di accesso al servizio) di 358 giorni

MyFitnessPal

Quali insight mi offre?
Sostanzialmente controllo la quantità di calorie assunte ogni giorno, solo ogni tanto anche la percentuale di carboidrati, grassi e proteine settimanali. Essendo sincronizzato a FitBit, più cammino e faccio attività più calorie posso assumere. Ma siccome un giro in bici di due ore è diverso se fatto in piano o in montagna, ecco che il numero esatto aiuta più di un generico “ho fatto attività, mangio di più per recuperare”. Oppure, al contrario, sapere esattamente di quanto hai esagerato un giorno di festa, mi aiuta a riequilibrare nella settimana successiva, con calma.

Runtastic Mountain Bike
Il terzo pilastro dei miei dati relativi al corpo è Runtastic Mountain Bike, una delle app più famose per il monitoraggio delle attività legate alla bici in montagna. Devo solo ricordarmi di indossare la fascia cardio e accendere il pulsante prima di partire 🙂
Cosa me ne faccio e quali insight mi offre?
Distanza per giro, mese, anno e totale. Frequenza di allenamento. Tempo di percorrenza, tempo medio, min e max per km, dislivello e battito cardiaco (anche su mappa geografica). Percentuale di tempo (o distanza) in salita, piano e discesa.
Se faccio un giro che ho già fatto in passato, allora confronto i dati per vedere se ho migliorato in qualcosa (non sempre è il tempo, magari mi basta avere un battito cardiaco minore nello stesso percorso, o un tempo minore in un particolare punto del giro).
Il tutto è di nuovo collegato a MyFitnessPal, in modo che le calorie bruciate vengano aggiunte a quelle assumibili nel giorno.

Assenze
In uno dei posti dove ho lavorato in vita mia c’era un tizio con la nomea di essere uno “poco presente”. Come al solito un conto è dirlo, un altro è avere un numero in mano e quindi con molta pazienza io e un paio di colleghi abbiamo popolato per un anno solare un Google Drive condiviso, il key learning era abbastanza scontato (andava solo verificato), così come il KPI da usare.

assenze

Purtroppo essendo un dato ad “uso interno” non poteva essere actionable, però concorderete con me che messa così (lavori solo 4 giorni alla settimana) fa un altro effetto, no? 😀

Automedicazione e topini
Sempre correlato a Google Drive, c’è stato un periodo della mia vita in cui ho sofferto di disturbi di stomaco. Mi svegliavo di notte con dolori, soffrivo un po’ e poi passavano. Non trovando conforto nelle spiegazioni mediche, ho pensato che in questo caso forse correlation e causation andassero di pari passo, e quindi presi a compilare un Gsheet con il contenuto delle cene e dei pranzi dei giorni precedenti ogni evento. Non raggiunsi mai una soglia statistica decente, ma siccome il problema rientrò da solo non me ne feci mai un cruccio 🙂

Allo stesso modo, siccome i miei due gatti (Brin & Page) sono dei trovatelli di campagna, amano portare in casa le loro prede più strane. Avevo iniziato a popolare un Gsheet con data e tipo del “riporto”, per provare ad avere una base statistica di un certo tipo nella stagionalità successiva. “Siccome entriamo in marzo, è più facile che portino orbettini a pezzetti. Ad Aprile topini di campagna o mantidi religiose”. Volevo preparare meglio moglie, figlia ed eventuali ospiti, ma quando sforo troppo nel ridicolo me ne rendo conto da solo, e ho lasciato perdere 😀

NetAtmo
Ho rimpiazzato il mio vecchio termostato con un NetAtmo controllato via WiFi. A parte l’indubbio vantaggio di poterlo controllare anche da fuori casa (tornare a casa e trovare sempre caldo, a prescindere dalla programmazione, è un toccasana credetemi), lui tira fuori delle statistiche niente male.
Cosa me ne faccio e quali insight mi offre?
Temperatura programmata, temperatura effettiva, percentuale di accensione della caldaia. Sembra poco, ma in realtà è molto complesso: il termostato conosce la sua posizione geografica ed elevazione (va puntato su una mappa), quindi è in grado di conoscere le previsioni e le temperature: se io dico che alle 7 del mattino voglio 20 gradi, è diverso se fuori ce ne sono 18 o se ce ne sono 2. Nel secondo caso la caldaia deve accendersi MOLTO prima, e da lì poter controllare il tempo di accensione totale è importante se si vuole controllare la bolletta in modo efficace.

netatmo-station

L’insight in questo caso è utile a risparmiare sulla bolletta del gas. Inoltre NetAtmo ha un sistema di conteggio automatico che il primo del mese manda email come questa

netatmo-mail

In realtà la temperatura esterna non la scarica più da internet (linea azzurra nella figura sopra), perché ho abbinato anche la Stazione Barometrica WiFi: lei comunica al termostato l’esatta temperatura fuori da casa mia, non quella generica di un sito di previsioni qualunque. Ovviamente anche lei produce una quantità di dati niente male: oltre ai dati esterni (temperatura, umidità, temperatura percepita) ha anche un modulo interno che misura temperatura, umidità, pressione in casa, più qualità dell’aria (CO2 in ppm) e rumorosità in decibel: quando c’è una festa di bambini e dico che fanno troppo rumore, ho il dato in mano! 😉

Prima di tutta questa automazione la produzione di dati relativi all’energia era basata su un file Excel con il conteggio dei consumi di Luce e Gas, con Kw/ora e metri cubi al giorno. Veramente arcaico, no?

MoneyTrackin
Un malato di dati e per lo più genovese come me, secondo voi, poteva non avere un repository di flussi monetari? Ho scelto moneytrackin perché è abbastanza flessibile senza essere troppo complesso come un MS Money, e inoltre essendo online puoi aggiornarlo anche mentre sei in giro.
Cosa me ne faccio e quali insight mi offre?
Abbastanza ovvio, tengo d’occhio le finanze di casa, mi assicuro che le spese non superino le entrate, cerco di fare il forecast delle uscite e il planning degli acquisti. In periodi di ristrettezze (tipicamente per spese extra non preventivate) posso ragionevolmente capire dove c’è margine per recuperare e dove invece no.

Google Dashboard, Google location history e search history
Non ho mai fatto opt-out da Google Search History. Mi serve più che altro perché a volte ti ricordi più facilmente la query con cui hai trovato qualcosa piuttosto che il sito che poi hai trovato. Comunque sia, contiene un sacco di informazioni interessanti, ad esempio che il giorno in cui cerco di più è il mercoledì, e il mese è Gennaio.
Location History lo uso molto poco, ma mi piace ogni tanto vedere dove sono stato in tutto un mese. Il migliore dei tre è sicuramente Google Dashboard che ogni tanto guardo per capire quante migliaia di mail ricevo e invio ogni mese

Assunzioni
Da quanto lavoro in InTarget, tengo un grafico dell’organico che compone l’azienda.
Cosa me ne faccio e quali insight mi offre?
Senso di orgoglio, prima di tutto e in massima parte. Più che altro è un draft da completare con altri dati incrociabili che permetterebbe di estrarre informazioni utili che però sono tutte ad uso interno. Vi mostro solo una delle tante visualizzazioni create

Schermata 2015-04-08 alle 21.02.40

OK, io direi che a questo punto mi sono esposto abbastanza: ma siccome se leggi questo blog almeno un po’ malato di dati lo sei anche tu, perché non mi racconti nei commenti che rapporto hai tu con i numeri? 🙂