Verschillen in web analytics systemen (TNO rapport)

TNO webanalyticsGisteren vond er weer een Web Analytics Wednesday plaats in Amsterdam. Een van de presentaties was het onderzoek dat TNO in de personen van Almerima Jamakovic, Bart Gijsen en Martijn Staal heeft uitgevoerd naar “Verschillen in Web Analytics”. De ondertitel is :Feiten, fabels en verwachtingen”. In dit artikel de slides van de presentatie en een samenvatting van de bevindingen.

Belangrijkste conclusies:

  • Verschillen tussen metingen van webstatistieken blijken (bij een goede implementatie) over langere periodes constant, maar verschillen per website.
  • Voor webstatistieken geldt een maximaal procentueel verschil tussen metingen van verschillende pakketten. Dit vormt goede richtlijnen om de betrouwbaarheid van webstatistieken en de implementatie te controleren.
  • Dart en STIR data zijn zowel absoluut als op trends nauwelijks vergelijkbaar.
  • Het verklaren van alle oorzaken van de verschillen is erg complex, omdat verschillen meestal gevolg zijn van een zeer grote hoeveelheid van oorzaken. De aandacht moet daarom vooruit uitgaan naar de juistheid van de implementatie van de pakketten.

Presentatie:

Samenvatting: (vanuit TNO)

Verschillen in webstatistieken leiden regelmatig tot vragen over de betrouwbaarheid van de data. De migratie naar een ander pakket, het ´toevallig´ vergelijken van de statistieken met data uit andere pakketten en het afrekenen van advertentiecampagnes kunnen hierdoor aanleiding geven tot veel discussie. TNO heeft in samenwerking met Blue Mango, ClickValue, Maximum en Netprofiler onderzoek gedaan naar de betrouwbaarheid van webstatistieken. Belangrijke vragen hierbij waren in welke mate verschillen reëel en acceptabel zijn, hoe de betrouwbaarheid van webstatistieken voor een specifieke implementatie van statistieken te bepalen is.

Aanpak project: Verschillen In Webstatistieken

Een stevige basis om de verschillen inzichtelijk te maken is vorig jaar gelegd door Stonetemple door middel van het Shootout rapport. In samenwerking met online marketing experts van Blue Mango, ClickValue, Maximum en Netprofiler startte TNO in de tweede helft van 2008 een project om in verder detail de verschillen en metingen van webstatistieken inzichtelijk te maken en een beeld te krijgen van de betrouwbaarheid van de data. De aanpak hiervoor bestond uit twee soorten onderzoeken. Ten eerste werd van diverse grotere Nederlandse websites de statistiekdata samen met STIR en Dart geanalyseerd. Aan deze analyse werkten onder andere Agis, Ilse Media, Typhone, Univé Verzekeringen en TNO mee. Om extra inzicht te krijgen in de verschillen en de oorzaken van deze verschillen, zijn ten tweede in een gesloten website omgeving testen met verschillende webstatistiek pakketten uitgevoerd. In de gesloten omgeving werd het verkeer gereguleerd en waren variabelen zoals het klikgedrag, IP-adressen en browser types instelbaar. De pakketten die zijn getest in de gesloten omgeving zijn Google Analytics, Sitestat en Webtrends. Daarnaast zijn in de data analyse van sommige sites ook de pakketten HBX en SpeedTrap meegenomen inclusief Dart en STIR data.

De verschillen tussen metingen van pakketten op een website zijn onderling constant

Uit de analyses blijkt dat de gemeten waarden door de diverse websitestatistiek pakketten onderling soms zeer verschillen. De richting en de mate van de trends voor het aantal bezoekers, bezoeken en pageviews blijken sterk overeen te komen. Dit betekent dat de onderlinge verschillen tussen de pakketten over langere periodes constant blijven. Maar hoewel de verschillen tussen metingen constant blijken, is dit verschil niet voor iedere website hetzelfde. Statistiekpakket A dat op de ene website structureel hogere waardes geeft dan pakket B, kan op een andere website juist lagere waardes geven. Belangrijke oorzaken hiervan blijken te liggen in de content en structuur van de website.

Welke mate van verschillen is reëel en acceptabel?

Een belangrijke conclusie uit het onderzoek is dat uit de analyses blijkt dat de waarden van de webstatistiek metingen Normaal verdeeld zijn. Daarnaast blijkt uit de analyse dat voor de spreiding van statistieken uit goed geconfigureerde pakketten een bovengrens is aan te geven. Deze statistische eigenschappen geven concrete vuistregels voor ´acceptabele´ of ´reële´ afwijkingen. Hierdoor kunnen website (statistiek) beheerders eenvoudig de betrouwbaarheid van de implementatie van webstatistieken controleren, door het percentage verschillen tussen de pakketten te vergelijken met het aantal pakketten dat je gebruikt. Als niet wordt voldaan aan de richtlijnen, dan wijst dit in de praktijk op implementatiefouten of incidenten waardoor significante verschillen optreden. Deze controle is zowel te gebruiken voor grote als kleine websites omdat uit het onderzoek blijkt dat het aantal bezoekers, bezoeken en pageviews geringe invloed op de resultaten heeft.

Controleer hier de betrouwbaarheid van jouw webstatistieken

Hierdoor is het voor websites waarop twee of meer pakketten tegelijk worden gebruikt is relatief eenvoudig te bepalen of statistieken goed geïmplementeerd zijn. Daarnaast loont het de moeite voor websites met 1 pakket om een extra (gratis) pakket als Google Analytics te implementeren om deze controle te kunnen doen.

Voor de betrouwbaarheidscheck gelden de volgende richtlijnen:

  1. Bepaal aan de hand van de statistiekdata op week of maandniveau voor een paar periodes het procentuele verschil in visits, visitors en/of page views tussen het pakket met de hoogste en het pakket met de laagste waarde.
  2. Selecteer in onderstaande tabel de rij met het aantal pakketten dat je op je site hebt draaien.
  3. Is het door jou vastgestelde percentage voor meerdere periodes groter dan het percentage in de kolom ´Max-Min afwijking zelden groter dan´, dan is de kans groot dat de implementatie van de WA pakketten dusdanig verschilt (b.v. tags van één pakket staan niet op alle webpages) dat de interpretatie van de data onvergelijkbaar is. Laat in dit geval de implementatie door de ICT afdeling of je Analyticsbureau kijken, of overweeg een audit.

TNO betrouwbaarheid

Dart en STIR data zijn niet vergelijkbaar

Naast een onderzoek van de webstatistieken zijn voor sommige websites ook de Dart en STIR data onderzocht. Het vermoeden dat deze data niet met de webstatistiekendata vergelijkbaar zijn, wordt door het onderzoek bevestigd. Doordat er andere doelstellingen en analysemethodes worden gebruikt zijn de absolute data en trends nauwelijks, respectievelijk in beperkte mate vergelijkbaar.

Oorzaken van verschillen in WA pakketten

In de gesloten testomgeving is een aantal oorzaken verder onderzocht. Basis hiervoor vormde een niet-uitputtende lijst van oorzaken:

Web analytics meet verschillen oorzaken

Door van tevoren ingesteld verkeer over enkele van de buitenwereld afgeschermde webpagina´s te leiden, ontstond meer inzicht in de verschillende manieren van meten van de WA pakketten. Hieruit bleek dat de pakketten in hoge mate hetzelfde werken, en dus in principe dezelfde getallen moeten geven. De verschillen die toch ontstaan blijken deels veroorzaakt te worden door het niet meetellen van pageviews door Webtrends bij het gebruik van de back-pijl in de browser. Daarnaast is geen van de pakketten in staat om het verkeer dat afkomstig is van webbots volledig uit te filteren. In het algemeen constateren we dat de afwijkingen vooral worden veroorzaakt door de grote hoeveelheid aan relatief kleine oorzaken. Het verklaren van alle oorzaken is hierdoor erg complex, vandaar dat de aandacht vooral uit moet gaan naar een goede implementatie van de pakketten.

Reacties (20)

  1. Het is goed dat dit onderzocht is, en ik ben blij dat de resultaten als verwacht zijn. Grotendeels valt of staat de betrouwbaarheid met de implementatie van het pakket.

  2. Leuk onderzoek, maar erg basic opgezet. Ik was vooral geïnteresseerd in de verschillen in definities tussen de pakketten (die tot verschillen leiden) en de impact van het grote boze internet op de meetresultaten van pakketten (hoe wordt een pagina geladen, worden er framesets gebruikt – google images, google translate) etc.

    Genoeg te doen nog in vervolg onderzoeken!

  3. Dank aan TNO voor dit onderzoek. Scheelt een hoop gedoe met potentiële adverteerders die het erover hebben dat ze alleen pakket X vertrouwen, en dat we voor hun banner dat pakket dus maar moeten installeren.

  4. Reinout,

    Het klopt dat er nog veel te doen is op dit vlak. Maar belangrijkste punt was om de discussies scherper te maken op het gebied van verschillen en het verklaren van de oorzaken hiervan. Daarnaast was het doel concrete handvaten te geven voor het testen van de betrouwbaarheid van statistieken implementaties. Het issue met dit soort onderzoeken is dat je vooral basic moet beginnen, omdat het verzamelen van data van verschilende partijen en het opzetten van testen op zich al snel tijdrovend en complex wordt.

    Maar ik ben benieuwd wat voor vervolgonderzoeken je precies ziet op dit vlak!

  5. Het was ons ook al opgevallen dat de resultaten van de diverse analytics pakketten behoorlijk verschillen, ten opzichte van elkaar, maar ook ten opzichte van metingen binnen ons CMS en de applicatieserver. Dit onderzoek geeft wat meer duidelijkheid, dank! De details waar Reinout om vraagt ben ik ook wel geinteresseerd in trouwens.
    Overigens is Google Analytics tot 5 miljoen pageviews per maand gratis, daarboven moet je een aktief Google Adwords account hebben om het te kunnen gebruiken. Maar dat zal voor veel sites wel gelden.

  6. @Martijn: de vervolgonderzoeken zouden de definities van de diverse metrics bij de verschillende pakketten kunnen onderzoeken. Je geeft aan dat tussen pakketten de absolute aantallen nogal kunnen verschillen terwijl de trends gelijk lopen. Geldt die absolute afwijking voor alle metrics?

    En waarschijnlijk ontstaan de afwijkingen grotendeels niet door de gebruikte techniek, want die is veelal hetzelfde. Elk pakket meet eigenlijk voornamelijk maar 1 ding: pageviews. De afgeleide metrics visitors, time-on-site, visits, enz. worden op basis van deze pageview metingen bepaald. Verschillen hierin zijn dan ook definitieverschillen: wat is een bezoek, wanneer timed hij out, moet er een cookie bestaan, enz.

    En is het belangrijk om te weten hoeveel een pakket absoluut afwijkt van de rest? Want met trend informatie kun je prima stijgingen en dalingen bekijken voor bijvoorbeeld succespercentages, visits, entrances, enz. Hier haal je de zaken uit waar je mee aan de slag kunt.

    Echte absolute aantallen zijn vooral belangrijk bij e-commerce metingen, die wil je niet afwijkend hebben. En mijn ervaring leert dat bijvoorbeeld een pakket als Google Analytics qua ecommerce meting dusdanig betrouwbaar is dat je hem nagenoeg 100% gelijk kunt laten lopen met je backend.

  7. @Martijn: Omdat het onderzoek nu beperkt was tot klikgedrag binnen 1 sitedomein ben ik voor een eventueel vervolg ook wel benieuwd hoe de verschillende pakketten omgaan met herkomstdata. Bezoekers uit banners, search engines, e-mails etc.

  8. Neem bij een vervolg onderzoek dan ook gelijk mee hoe dat de verschillende pakketten omgaan met cross-domein meten. Want daar is nog maar weinig echt duidelijk in. Terwijl het toch voor veel websites van toepassing is.

  9. @André: die afwijking geldt inderdaad voor alle metrics. Typisch zijn verschillen tussen page views kleiner dan tussen visits of visitors. De reden geef je zelf al aan. Page views kan je zien als basis data waar nog een extra interpretatieslag overheen wordt gedaan richting visits en visitors worden toegevoegd. De extra interpretatieslag introduceert extra mogelijke oorzaken van afwijkingen en daarmee meer ruis, hoewel die interpretatieslag in theorie ook afwijkingen op page viewniveau ongedaan kan maken. Gross modo zien we dat afwijkingen tussen page views gemeten met meerdere WA pakketten op één website kleiner zijn dan de andere metrics. Echter, dit was niet voor alle websites uit onze data analyse het geval en vaak waren de afwijkingen niet veel kleiner dan voor visits en visitors. Omdat een bovengrens op de afwijkingen genomen hebben zijn de gemelde ‘acceptabele afwijkingen’ geldig voor alle metrics.

  10. Heren van TNO: dank u wel voor dit onderzoek.

    Vooral de bovengrens van afwijkingen tussen x-aantal web analytics pakketten is zeer nuttig, we weten allemaal dat het zo is, maar een benchmark hiervoor is zeer nuttig. Ook de gesloten test is nuttig omdat het wel laat zien dat de verschillen niet zo zeer in de pakketten zelf zitten maar meer in de honderden variabelen eromheen.

    Als vervolg studies zou ik graag zien:
    1. Gesloten test met meer web analytics pakketen (Omniture, Unica, Coremetrics, Yahoo Analytics, etc.) waarbij de timeout van de scripts dusdanig hoog staan dat meerdere image requests gedaan kunnen worden zonder timeout van enkele.

    2. Gesloten test van diverse WA pakketten en hun mobiele tracking oplossing. En dan graag 2 manieren van deze tracking: server side en client side (Javascript).

    Ik heb zelf de ervaring dat vooral de laatste manier erg vreemde nummers oplevert in de andere metrics dan page views omdat je te maken krijgt met een alternatieve tracking (zonder cookie) die http headers, user agent en ip adres combineert tot een unieke visitor ID. Wij hebben gekozen voor deze server side tracking omdat de Javascript code te groot en intensief was voor een mainstream mobile telefoon met een mainstream data verbinding.

    Het is erg interessant om te zien hoe de verschillende WA pakketten visits en andere metrics berekenen voor hun mobile oplossing en of de een er beter in is dan de andere, zeker nu mobile sites steeds belangrijker worden.

  11. Allereerste een mooi stuk! Uiteraard ben ik er direct mee aan de slag gegaan en ik kwam erachter dat bij een van mijn sites de afgelopen maand er een flinke afwijking aan het ontstaan is.

    Vandaar dat ik mij afvraag of anderen dit ook hebben? Wij gebruiken een betaald pakket en Google Analytics. Tot maart was de afwijking onder de 9,5% en nu er flink boven. Iemand een idee hoe het komt en wellicht soort gelijke getallen?

  12. @Martijn
    Wij gebruiken OneStat.com en GA. De grotere afwijking geldt inderdaad alleen voor maart wat in mijn ogen zeer vreemd is. Ik moet er wel aan toevoegen dat onze site half februari een flinke sprong opwaarts heeft gemaakt. De afwijking tussen beide pakketten is 24 a 25 procent!

  13. @ Marcel: de STIR data betreffen het gepubliceerde aantal bezoeken uit het panel-onderzoek. Het betreft een andere meetmethode dan WA (en met een ander doel !) waarvan de vraag was in hoeverre de trend toch overeen zou kunnen komen met WA trends. De trend blijkt een beetje overeen te komen, maar lang niet zo duidelijk als trends tussen WA pakketten onderling.

    @ Benjamin: zoals je uit de tabel kunt zien, is dit groter dan de maximaal accepteerbare afwijking. Het lijkt me onwaarschijnlijk dat alles te wijten is uit de ‘sprong opwaarts’. Ik zou dus zeker de implementatie controleren; het missen van een GA of onestat tag op een pagina met hoge traffic of foute implementatie kan zeker veroorzaker zijn. Wat dat betreft is een check door de ICT afdeling of een WA bureau aan te raden.
    Als je kijkt op weekniveau, is het verschil dan idem?

  14. @Egan excuses, ik zie nu pas dat ik niet op je reactie heb gereageerd.
    Wat je beschrijft is inderdaad interessant, en gaven ca. 5 anderen tijdens de WAA presentatie aan en hoor ik ook vaak. Het lastige hiervan is dat bijna het hele internet in kaart gebracht moet worden om echt goed te kunnen onderzoeken waar bezoekers blijven als ze op een emaillink of banner klikken. Voor ons gevoel is dit zeer complex. Maar als je hier ideeen over hebt houden we ons zeker aanbevolen!

  15. Er zijn veel suggesties gedaan voor vervolgprojecten, bedankt hiervoor.
    We merken dat de meeste behoefte uitgaat naar meer en uitgebreider onderzoek. Dit betekent dat we een vergelijkbaar ‘verschillen in webstatistieken’ project starten waarin meer pakketten worden onderzocht, meer meeteenheden worden meegenomen en extra aandacht kan worden gegeven aan de verschillende definities van de pakketten.

    Heb je interesse om hieraan mee te werken? Mail naar martijn.staal [ a t ] tno.nl

Reacties zijn gesloten.