Jun 16 2008

I tempi di analisi dei dati

autore: categoria: generale tag: , ,

OrologiUna delle maggiori critiche che mi sento opporre quando parlo di Google Analytics suona circa come “si, ma non è in tempo reale”. Questo è indubbiamente vero, ma molto meno di quanto si sospetti.

Innanzitutto sarebbe utile fare un esame della propria attività e chiedersi se è realmente necessario avere i dati in tempo reale: molto spesso infatti il desiderio delle persone è di avere i dati fino all’ultimo minuto quelle due o tre volte alla settimana in cui sbirciano le statistiche. Il dato real-time invece è pensato (e dovrebbe essere rivolto) a chi fa web analytics di mestiere e sta tutto il giorno con i dati aggiornati davanti, dovendo decidere in tempo reale modifiche alla strategia o ai budget o dovendo tenere sotto controllo le vendite minuto per minuto.
Questo come premessa generale, non è mia intenzione dire a nessuno come deve fare analisi, ma vorrei solo porre l’accento sul fatto che larga parte di chi mi pone questa obiezione non lo fa perché ne ha realmente bisogno, ma per sottolineare una mancanza di GA.

Mancanza che, come dicevo prima, è molto minore di come appare. Quando accediamo ai rapporti, GA ci mostra per impostazione predefinita (e ahimé immutabile) gli ultimi 30 giorni di dati, partendo dal giorno precedente, e questo basta a molte persone per pensare che i dati siano fermi, e che i dati di oggi saranno disponibili domani. Tramite una semplice selezione nel calendario è possibile rendersi conto che le cose stanno diversamente: selezionando la data odierna infatti il sistema ci mostra i dati di oggi in modo incompleto, sottostando a queste tre regole:

  1. i dati sono fermi a tre ore prima il momento in cui li si visualizza
  2. i dati si aggiornano ogni ora
  3. i dati possono variare entro 24 ore

Per capire come mai questo accade è necessario fare un ulteriore passo nella comprensione del percorso che i dati fanno da quando il vostro sito viene visualizzato a quando voi guardate i report, percorso che ho iniziato a spiegare nel post “l’ordine è importante“. Quando si richiama la gif trasparente __utm.gif da http://www.google-analytics.com in realtà non si sta interrogando un solo server. www.google-analytics.com viene risolto dai dns in www-google-analytics.l.google.com, che è un round robin di server sparsi per la rete: facendo un nslookup da vari server nel mondo si ottengono indirizzi IP differenti, per minimizzare il percorso che i dati trasmessi dai client dei visitatori devono fare. E’ quindi assolutamente normale che un visitatore italiano e un visitatore cinese “sparino” i dati dello stesso codice di Analytics su due server Google differenti.

Una volta ogni ora Google li recupera dalle sue macchine in giro per il mondo e li analizza, e a causa del numero di analisi necessarie li presenta con tre ore di ritardo. Inoltre, poiché non è garantito che il recupero dei dati avvenga da tutti i server del mondo, ogni 24 ore Google Analytics effettua una rianalisi del giorno precedente per colmare eventuali lacune e garantire la solidità del dato. Per questo motivo i dati vanno considerati definitivi solo dal giorno successivo, e per questo motivo all’accesso Google presenta gli ultimi 30 giorni escludendo la data odierna.

Condividi l'articolo:

9 Commenti

  1. Grazie per la delucidazione, mi sono sempre chiesto come e quando fossero fatti i rilevamenti dei dati.

  2. il ritardo di 24 ore avviene anche per il fatto che google analytics rielabora i dati della giornata, oltre che per controllare la consistenza dei dati, anche per verificare eventuali frodi al PPC di adWords: infatti i dati relativi ad adwords e il costo delle campagne sono importati solo ogni 24 ore.
    Anche per questo motivo i dati del giorno stesso sono disponibili ma ne viene sconsigliato l’uso per l’analisi, dato che potrebbero subire modifiche all’importazione giornaliera.

  3. vero! non ci avevo pensato 🙂

  4. Io pensavo che fosse un problema di fusorario degli utenti che si collegano ma, guardando i dettagli delle statistiche, la stragrande maggioranza sono tutte visite italiane. Quindi incide molto la rielaborazione dei dati dopo le 24 ore.

  5. ottimo, bella spiegazione. Grazie

  6. Sono le 16:00 e non so ancora le visite di ieri.

    Magari il sito ha avuto dei problemi, per via di una penalizzazione, del server, … ma io me ne posso accorgere 2 giorni dopo, e quindi intervenire con notevole ritardo.

    Non solo, se mi fermassi all’apparenza, vedendo già registrate le visite di oggi, e un numero relativo a ieri che è fermo da 12 ore, concluderei che ieri c’è stato un notevole calo, che forse oggi sta proseguendo, forse si, forse no.

    Il paradosso è che per avere una idea dell’andamento delle visite io mi debba affidare alle esposizioni di banner di piccole concessionarie, che non avendo la potenza di calcolo di Google possono darmi il dato in tempo reale.

    Ok, GA fa anche il caffè, e per coltivarlo gli serve del tempo, ma quei numerini visite, utenti unici, e pagine visualizzate totali, puoi darmeli subito?

    Che poi, a me cosa serve che Google mi prepari 100 diversi tipi caffè al giorno se io gliene chiedo 1 alla settiama?
    Che spreco è?

    Quello che mi serve subito me lo dai tardi e quello che forse mi potrebbe servire una volta nella vita me lo prepari ogni giorno?

    Le emissioni di CO2 si devono anche scelte scellerate come questa, prese anche per esempio dai sistemi operativi:
    ti calcolo in background tutto, perché prima che tu muoia potrebbe servirti, e non ti do subito quello che ti serve immediatamente.

  7. ti affidi a quel che ti propone o nell’intervallo temporale hai selezionato anche oggi? anche a me, sporadicamente, è indietro di un po’, ma i motivi sono chiaramente espressi nel post

  8. Si Marco, riportava gli stessi dati, sia lasciando il periodo di default, sia selezionando solo la data di ieri.

    Le statistiche di ieri me le ha poi completate verso 18, quando quelle di oggi erano già molto avanti.

    Riesco a capire se ha finito, selezionando solo data ieri,
    poi andando su (vado a memoria) visite, cliccando sull’icona dell’orologio, e verificando che pure le ore 23 hanno raggiunto i valori prevedibili.
    Esiste un altro metodo?

    Mi toccherà rimettere su pure un altro servizio di statistiche solo per tracciare i dati di oggi e ieri.

    Per me è abbastanza importante il real time, o per lo meno avere aggiornamenti orari e sapere cosa considerare definitivo.

  9. se la tua esigenza è il real-time, e la limitazione di tre ore indietro e il fix giornaliero ti stanno strette, direi che si, hai bisogno di un altro sistema di WA 🙂

    Una delle mie previsioni per il 2010 è che il lasso sarà ridotto a un’ora, ma real time GA non lo sarà mai (anche se gli ingegneri ci hanno più volte stupito rendendo possibili cose che non lo sembravano).

Scrivi un Commento