Nov 24 2008

HelpSemaforoQuesto semaforo indica il livello difficoltà del post
semaforo verde - articolo per tutti semaforo giallo - articolo avanzato semaforo rosso - articolo per esperti

Google Analytics sbaglia le misurazioni?

autore: categoria: web analytics

Non conosco Brandt Dainow e non leggo il suo blog, però trovo parecchio interessante e condivisibile il post di “risposta” di Ian Thomas su “Lies, damned lies…”. Brandt asserisce che Google Analytics sbaglia le misurazioni (anzi, lo farebbe apposta) al punto che molte persone percepirebbero una situazione fortemente distorta rispetto alla realtà. Si concentra in particolar modo sul fatto che GA considera le visite di una sola pagina (i bounce, tanto per chiarire) come visite valide e le usa anche per calcolare la durata media delle visite.

Mi permetto di riportare i tre punti che Ian usa per smontare questa tesi:

  • Esistono innumerevoli situazioni in cui è perfettamente legittimo che i visitatori guardino una sola pagina: il lettore tipico di blog, che consulta la homepage e va via se non ci sono aggiornamenti, o chi clicca su un articolo da un feed rss e lo legge. Tagliare via tutte queste visite sarebbe da pazzi
  • Sebbene l’inclusione di queste visite nel calcolo del tempo medio sia un problema conosciuto, escluderle non lo risolverebbe ma semplicemente lo sposterebbe altrove: non si avrebbe un numero “più accurato” ma un numero “inaccurato in altra maniera”. Non si avrebbe comunque modo di conoscere il tempo di permanenza sull’ultima pagina, e questo si rifletterebbe in una scarsa accuratezza del dato in presenza di una visita di due pagine
  • Il tipo di metrica che produce GA è il risultato di lunghi studi e discussioni (e peraltro è aderente agli standard della Web Analytics Association); c’è bisogno di una forte motivazione per cambiare una metrica semplice e facile da capire con una più complicata che non apporta sostanziali miglioramenti

bilanciaSono personalmente d’accordo al cento per cento con Ian, e non solo perché questo blog tratta di Google Analytics. Non difendo nessuno a priori e quando ne ho occasione mostro anche i limiti di GA, ma non mi sembra questo il caso: particolarmente significativa la frase “Quando, come industria, non siamo d’accordo su cosa costituisca esattamente una visita, è facile accusare questo o quel sistema di non essere accurati semplicemente perché non si ha fiducia nell’approccio che essi hanno nei confronti dei dati“. Che non esista un tool perfetto e universale lo sappiamo tutti (e se non lo sapete lo ripeterò ancora una volta), il problema è che bisogna trovare un tool di cui fidarsi. Bisogna studiare, conoscere, chiedere e provare, e poi scegliere di conseguenza. Possibilmente verificando l’aderenza del prodotto con i famosi standard della WAA.

Volevo approfittare di questo post per fare un’altra considerazione: Ian Thomas lavora in Microsoft, e faceva parte del team di adCenter Analytics (il sistema di analisi che prima si chiamava Gatineau), ma nonostante questo difende GA, che è comunque un suo competitor. E’ un comportamento molto onesto che ritrovo spesso nel web, in maggior parte negli Stati Uniti dove c’è una cultura migliore del mercato e della concorrenza, ma che mi sembra ancora più accentuato quando si guarda al settore della Web Analytics. Io penso che la ragione sia da ricercare nel grande fermento che lo sta attraversando e dal relativo nuovo interesse che vedo nascere intorno alla web analisi (di pochi giorni fa la discussione “la web analytics è a prova di crisi?” di Eric Peterson su Web Analytics Demystified). Non sono abbastanza dentro al settore per definirla una “seconda giovinezza”, ma credo che le aziende si stiano rendendo conto che c’è bisogno di analisi, e che le analisi sono un investimento e non un costo, spesso un investimento che permette di tagliare con senso altri costi. Voi cosa ne pensate?

[image credit Morning Glory on Flickr]

Condividi l'articolo:

11 Commenti

  1. Ciao Marco,

    sulla qualità dei dati nella web analytics non c’è da discutere: i numeri vanno considerati in relazione ad un “contesto”, seguendo eventuali trends e investigando ulteriormente. Concordo in pieno con quanto dici. La bontà dei dati tracciati si migliora col tempo, ma non si avrà mai uno specchio della realtà.

    Che le aziende inizino a sentire la necessità di fare analisi è altresì vero, da quello che vedo nella mia attività. Credo però che la web analytics sia percepita troppo “analiticamente” e per niente “operativamente”: in sostanza un investimento per grandi organizzazioni.

    Se anche l’albergo, l’enoteca, l’agenzia immobiliare facessero un minimo di attività d’analisi giorno per giorno, potrebbero arrivare a fare investimenti web più consapevoli con l’opportunità di massimizzare i ritorni.

  2. Concordo anche io con le tesi esposte. Ci sono bounce e bounce e molti di questi (anzi, spesso i più), sono visite eccome.

    Durante il corso che teniamo, amo dire che non considerare visita il bounce del signore che ha trovato una nostra pagina con il numero di telefono del ristorante, ha telefonato e prenotato, per poi tornarne ed organizzare il banchetto del suo matrimonio, sarebbe folle!

    Si tratta di un’idea tutta nostra quella per cui un visitatore si dovrebbe fare il giro del sito ogni volta che piace a noi!

  3. Concordo appieno… Le discrepanze che si rilevano tra GA e motori di analisi interni sono una discussione che va avanti da mesi anche nella nostra piccola realtà.

    La verità spesso sta semplicemente nel mezzo. Lo stesso GA ammette di avere dei limiti derivati già solo dal metodo di inclusione dello script. E se si effettuano analisi dettagliate dei log si possono rilevare molti utenti che non vengono considerati nelle analisi GA (e troppi utenti utenti considerati in altri sistemi).

    GA è uno strumento gratuito che effettua di per se già un ottimo lavoro. E va considerato tale… sicuramente sarebbe sbagliato prendere i dati forniti da GA come assuluti e indiscutibili.

    Anche se a mio avviso basterebbe che su GA venisse fornito un semplice strumento di archiviazione dei log conteggiati. Già questo permetterebbe di effettuare dei raffronti molto più professionali con altri strumenti di analisi.

  4. i log conteggiati possono già essere archiviati in locale tramite le funzioni che ho descritto nel post http://www.goanalytics.info/funzioni-per-integrare-ga-e-urchin-o-backuppare-i-dati/ 🙂

  5. Google Analytics lo trovo comodo per avere sotto controllo più siti e per abbattere i costi delle più affidabili statistiche lato server, ma ho notato differenze pesanti tra le statistiche di GA e le statistiche attive lato Server su un dominio, tanto da affiancare tramite Php-Stats un altro servizio di statistiche basato su script e rilevare che GA riporta numeri nettamente inferiori agli altri due servizi. Non potendo esaminare e confrontare le statistiche lato server con quelle di GA e Php-Stats per l’elevato numero di viste e di traffico generato dal dominio.

    I dati di differenza maggiore sono stati riscontrati soprattutto in un sito dove i contenuti maggiori sono video, proprio questo sito aveva attratto l’attenzione in quanto costantemente le visualizzasioni dei video in home erano nettamente superiori alle visite e al numero di pagine viste, trovando assurdo che ogni visitatore riguadasse un video più volte di fila sanza fare il reload della pagina e che tutti i visitatori lo visionassero, ho provato a fare raffronti attraverso JoomlaStat trovando GA sempre in forte difetto. Poi succesivamente, ho installato su una decina di siti realizzati in Joomla e con diversi volumi di traffico (in cui erano già attive le statistiche GA), il componente JoomlaStats. Ho riscontrato differenze significative addirittura sugli utenti univoci, dove JoomlaStats tiene traccia dei visitatori (IP, e pagine visitate dal utente, sistema operativo, risoluzione e browser, ecc.) mentre in GA questi dati non sono presenti si rivelano incongruenze significative in cui GA da un valore nettamente inferiore.

    Tengo a precisare che JoomlaStats è basato su script come GA, puoi inserire il codice nella pagina direttamente agendo sul Template oppure, utilizzare un modulo apposito analogamente a GA. Le condizioni di porva e verifica sono le medesime. Stessa cosa vale per Php-Stats con il quale i dati sono congrui con gli altri sistemi tranne che con GA.

    Continuo ad usare GA, per la comodità di avere una rapida panoramica di tutti i siti da me gestiti, ma per le statistiche dove non ho quelle lato server sto passando a altri sistemi, nel caso di JoomlaStats non appogiandosi a server esterni non influisce sulla velocità di caricamento delle pagine, tanto che prima o poi andrò nuovamente sito per sito a rimuovere il codice GA.

    Rimane solo un mistero sono gli altri a sbagliare i conti o GA? E in caso di visitatori univoci JoomlaStats si inventa pure i dati?

  6. ho dato una rapida occhiata al sito di Joomlastats, ma dice che soltanto dalla versione 3.0.4.715 usano i cookie per discernere visitatori dietro allo stesso IP. Inoltre non mi è chiaro se lo script è javascript o php. Stesso discorso per php-stats, che invece sono sicuro basarsi su php (è anche in grado di tracciare gli spider, cosa che per GA è impossibile). l’Ip del visitatore in GA non c’è per policy, gli altri dati si (tranne la descrizione puntuale di tutte le pagine viste dal singolo visitatore).

    Non direi però che le condizioni di prova sono le medesime. Non ti sto dicendo che i numeri giusti sono quelli di GA, sia chiaro, ma che il confronto andrebbe fatto con un sistema similare. Troveresti sempre discrepanze, ma forse non sarebbero così marcate. Per dire, io monitoro un sito sia con GA che con WEBTRENDS, che non è proprio l’ultimo arrivato, e i numeri differiscono per un 5-8%

  7. @Marco le condizioni di prova sono le medesime, i siti integrano gli script di tutti e tre i sistemi e rimane sempre il divario con le statistiche lato server oppure i servizi a pagamento come SmarterStats Enterprise 4.0 che non depone a vantaggio di GA .

    JoomlaStat è in PHP ovviamente essendo un componente Joomla troverei alquanto strano forse in altro linguaggio. Il sistema è similare in quanto basato su script fatto che rende indifferente cmq il linguaggio di programmazione usato.

    Php-Stats lo devi installare nel tuo spazio web, non è un servizio esterno e tine traccia di molte cose in più rispetto a GA analogamente a quanto fatto da JoomlaStats che tiene una traccia dettagliata anche dei Bots/Spiders non solo degli utenti. Anche Joomlastats in pratica si installa nel tuo spazio web e usa il db usato da joomla, ma almeno che google non sia quasi mai UP e quindi non riceva i dati, anche questo dato è indifferente anzi depone a vantaggio degli altri due sistemi in quanto ad accuratezza non dovendo richiamare un servizio esterno.

    Attualemente GA sta monitorando 32 domini, in 10 di questi è installato ora anche JoomlaStats. I numeri in percentuale differiscono di molto nei siti con molte visite e meno in quelli a minore traffico, il comportamento è esponenziale. Per ora ho un monitoraggio su una decina di giorni troppo esiguo per trovare una percentuale statistica di un eventuale errore. Nei prossimi giorni vedo di iniziare un confronto anche su domini residenti sul server di Milano, in caso che GA si comporti male sul server in casa Aruba.

  8. che Joomlastat sia scritto in php è palese, quel che non capisco è se IL RISULTATO è uno snippet php oppure un’aggiunta di javascript. Joomla lo conosco abbastanza bene 😉

    per il resto ribadisco: il fatto che ci sia “uno script” non significa nulla. Javascript non viene eseguito lato server, questo significa – ad esempio – che non viene mai eseguito quando un bot chiede una pagina. Nel caso di php invece lo script viene eseguito. Che poi queste visite vengano filtrate, ok, ma ne siamo sicuri al 100%? sai quanti spider diversi ci sono al mondo?

    non si può MAI confrontare un sistema lato servre con uno lato client.

  9. [quote] queste visite vengano filtrate, ok, ma ne siamo sicuri al 100%?[/quote]

    Hai mai visto uno spider che usa un browser e sistema operativo da desktop? In tutti i casi JoomlaStats separa molto bene gli Spider dai visitatori. Tra l’altro tendendo traccia dei visitatori con tutti i dettagli tra cui pure il nickname se l’utente è logato sarebbe semplice notare in siti con poche visite eventuali anomalie. E’ proprio qui che rimango perplesso in quanto è sui visitatori unici che non la più grande discrepanza. In alcuni domini la differenza è minore, in altri maggiore e in un solo caso GA dava un numero superiore di visitatori, ma per ora e presto, tra un mesetto avrò abbastanza dati per avere un idea più chiara dell’anomalia, attualmente su 12 domini di cui 10 su un server ad Arezzo e 2 su un server a Milano.

    Per come vengono richiamati anche se non ha nessuna importanza a livello pratico:

    Php-Stats viene richiamato da un Javascript quindi eseguito dal client, è possibile richiamarlo anche lato server tramite inclusione nei file PHP. Mentre Joomlastats è in PHP.

    Le soluzioni sono equivalenti, anzi più affidabili in quanto non suscettibili di problematiche lato client! Soprattutto non è vero che gli Bots/Spiders non eseguano codice Javascript, i più vecchi sicuramente, ma quelli attuali che operano nel Web 2.0 si sono attrezzati in quanto la maggioranza dei portali utilizza richieste asincrone ai db attraverso la tecnologia Ajax che sarebbero invisibili altrimenti. Nn credo poi che un bot visioni un video, il raffronto è nato proprio dalle anomalie tra le statistiche di GA sul numero di pagine visionate e il numero di visualizzazioni dei video su un grosso portale internet.

    Fino a prima ritenevo affidabile GA tanto da non pesare adeguatamente alcune perplessità sollevate dagli utonti sulle loro statistiche anche perché il raffronto di qualche anno fa tra ShinyStat e GA aveva dato esito favorevole al prodotto di google.

    Per ora rimango perplesso.

    E se lo permetti i raffronti si possono fare anche tra sistemi che usano tecnologie diverse. Che sia uno script eseguito lato server e lato client non imposta quello che importa sono le statistiche se GA è meno accurato di JoomlaStats ove possibile userò il secondo.

  10. beh, ma se il tuo raffronto è positivo solo se ti da un numero più alto, allora a che serve?
    JoomlaStat, come ti dicevo, discerne gli unici usando un cookie solo dalla versione 3.0.qualcosa. Prima usa un metodo diverso, quindi è logico che dia un risultato totalmente diverso da GA. Ti dirò che se usassi AWstat, avresti un numero ancora differente; è nell’ordine delle cose, e non stupisce più di tanto.
    Se le soluzioni lato server sono più affidabili direi che GA non è affatto il prodotto per te, dato che come noto gira solo lato client. Come ti ho detto, non devo convincere nessuno, e il mondo è bello perché è libero e molto vario. Mi permetto solo di farti notare che nessuna delle soluzioni da te citate è mai menzionata quando si parla di strumenti di “web analytics” e che Google Analytics è uno dei Founding Corporate Members della WAA ( http://www.webanalyticsassociation.org/?page=founding_corporate ), che tra le altre cose si occupa di definire gli standard del settore. Secondo te un founding member dell’associazione internazionale della web analytics può proporre un prodotto “impreciso”?

    Quanto al raffronto, resto della mia idea. poiché la tecnologia sottostante è determinante ai fini del risultato, è un fattore che non si può ignorare ai fini della comparazione. Altrimenti “siccome sempre un database è” possiamo confrontare Access e Oracle?

  11. Io vorrei fare un passo indietro per un secondo. Posso?

    Misurare in modo certo i visitatori è impossibile, qualunque tecnologia si usi, se non quella prevedente una connessione attiva per tutto il periodo della visita, per ognuno dei singoli visitatori. Cosa impossibile appena si superano le poche decine di visite contemporanee. Lo si è detto mille volte, persino gli sviluppatori dei sistemi di tracking lo hanno precisato molte volte. Il concetto di visitatore è una interpolazione di un dato tecnicamente non rilevabile (l’identificazione). Coi log e con i biscottini, ci si può avvicinare, ma non arrivare alla certezza. Margini di errore ce ne sono e ce ne saranno sempre.

    A questo punto, tutto ciò che si costruisce sull’identificazione e sul visitatore, è cosa incerta costruita su dato incerto. Cioè quasi aria fritta.

    Parlare di visite ad un sito è un non-senso. Sono solo indicazioni e che ci siano differenze tra vari sistemi di tracking è scontato.

    Vorrei ricordare, però, che fare Web Analytics non significa misurare le visite. Sono i trend che ci interessano, non i numeri assoluti. I numeri assoluti sono come il fazzolettino nel taschino. Non è lui ad interessarci, ma la capacità della persona di sceglierlo abbinandolo a tutto il resto (e non solo alla cravatta).

    A questo punto, in termini di valore rilevato per visitatori e unici, quello che conta non è la precisione, ma la costanza della precisione e della rilevazione. A noi interessa il fatto che il x% di un parametro sia collegato ad una chiave, non ci interessa quanti sono esattamente.

    Ci interessa il fatto che nell’ultimo mese c’è stato un incremento del x% su un certo segmento, non il numero esatto di persone in più o in meno.

    Le diatribe sulla correttezza dei numeri assoluti è come la discussione della velocità raggiungibile da una Ferrari piuttosto che da una Lamborghini o da una Lotus. Non è la velocità a fare la grande sportiva. Sono ben altre cose, come per esempio la sua capacità di raggiungere i 100 Km all’ora in pochi secondi (cioè la sua accelerazione), cosa ben diversa, così come la precisione del suo cambio, la giusta presenza di sotto-sterzo, la capacità di scaricare a terra centinaia di cavalli senza girarsi, ecc.

    Uffa! 🙂 🙂

Scrivi un Commento