CH2017 Ronny Kohavi

Ronny Kohavi @ CH2017

Ronny Kohavi is General Manager, Analyse en Experimentatie bij Microsoft en een lang gewilde keynote spreker voor Conversion Hotel. Na het uitvoeren van experimenten bij Amazon verhuisde hij rond 2004 naar Microsoft om daar verder te gaan met experimenteren en het http://exp-platform.com op te zetten. We kennen niemand anders die meer wetenschappelijke publicaties over online experimenten en antwoorden bij Quora op zijn naam heeft staan dan Ronny Kohavi. Tijdens Conversion Hotel 2017 deelde Ronny 5 lessen die hij geleerd heeft van experimenteren op grote schaal.

CH2017 Ronny Kohavi

Experimenteren bij Microsoft

De missie van het Analyse- en Experimentatie Team bij Microsoft is het versnellen van innovatie door middel van analyse en experimentatie. Het team bestaat uit zo’n 90 mensen: 50 ontwikkelaars, 30 data scientists, 10 programmabeheerders en 2 overhead. Het team voert 15000 experimenten per jaar en dus 300 experimenten per week uit. Op Bing alleen al worden 1200 experimenten per maand uitgevoerd. Iedere gebruiker wordt op deze manier blootgesteld aan meer dan 15 gelijktijdige experimenten. Ze krijgen een van de 5 ^ 15 = 30 miljard varianten te zien. Daarnaast wordt één experiment bij Microsoft gemiddeld blootgesteld aan miljoenen gebruikers, soms zelfs tientallen miljoenen.

CH2017 Ronny Kohavi

Het platform

Als je op deze schaal experimenteert is het niet gek als je een eigen platform hebt. Het Experimentation Platform van Microsoft biedt volledige experiment-lifecycle management. Zodra een nieuw experiment voldoet aan de voorwaarden dan gaat het systeem op zoek naar de juiste splitsing voor de controle / behandeling groep. Het systeem test honderden splitsingen, evalueert ze en kiest de beste fit. Het nieuwe experiment wordt gestart bij een klein percentage van de bezoekers of zelfs enkel in een datacenter. Als er na enkele uren geen fouten ontdekt worden door het systeem dan wordt het gebruikerspercentage automatisch verhoogd naar het gewenste percentage (bijv. 10-20% van de gebruikers). Als er een dag voorbij is, berekent het systeem nog meer statistieken en verzendt het e-mailwaarschuwingen over eventuele interessante bevindingen.

5 lessen geleerd van het uitvoeren van grootschalige experimenten

Les #1: Zorg voor een goede Overall Evaluation Criterion

De eerste les die Ronny deelde is het opstellen van een goede Overall Evaluation Criterion (OEC). Een OEC moet worden gedefinieerd aan de hand van statistieken die de waarde van iets op de lange termijn voorspellen. Bijvoorbeeld de lifetime value van de klant. Let daarnaast op met lokale optimalisaties. Het verplaatsen van onderdelen op een en dezelfde pagina heeft vaak weinig invloed op de OEC.

Les #2: De meeste ideeën falen

Van alle ideeën die je bedenkt voor je experimenten is slechts 1/3 positief en statistisch significant, 1/3 neutraal (geen statistisch significant verschil) en 1/3 negatief en statistisch significant. Bij Bing liggen deze aantallen nog lager: 10-20%. Slechts 1 van de 5000 experimenten zijn een succes. Dit lage succespercentage is vergelijkbaar bij andere grote bedrijven. De oplossing? Experimenteer vaak. Als je veel kikkers moet kussen om een prins te vinden, zorg dan dat je meer kikkers vindt en kus ze sneller en sneller. Versnel innovatie door de kosten per experiment te verlagen.

Les #3: Kleine veranderingen kunnen een grote impact hebben op Key Metrics

Er zijn veel leuke voorbeelden van experimenten met hele kleine veranderingen die verantwoordelijk zijn voor enorme groei. Maar deze testen zijn zeldzaam. Je moet honderden dan niet duizenden experimenten uitvoeren om deze zeldzame edelstenen te vinden.

Les #4: Veranderingen hebben maar zelden een grote impact op Key Metrics

Zoals Al Pacino zegt in de film ‘Any Given Sunday’: “winnen gebeurt centimeter voor centimeter”. De meeste vooruitgang wordt geboekt door kleine continue verbeteringen: 0,1% – 1%. Bij Bing doen honderden ontwikkelaars elk jaar duizenden experimenten die de OEC met 2% per jaar verbeteren (2% is de som van OEC-verbeteringen in gecontroleerde experimenten).

Les #5: Valideer het systeem

Getallen vinden is eenvoudig; nummers vinden waarop je kunt vertrouwen is moeilijk. Voer altijd eerst een A/A-tests uit. Als het systeem correct werkt, vindt het systeem slechts ongeveer 5% van de tijd een statistisch verschil. Check daarnaast je SRM (Sample Ratio Mismatch) en controleer op bots (bij Bing wordt meer dan 50% van het verkeer door bots gegenereerd!).

Wil je meer weten over Conversion Hotel of de presentatie van Ronny Kohavi? Klik dan hier voor meer informatie over de conferentie, de sprekers, de slides en aantekeningen van de presentaties tijdens Conversion Hotel 2017.

Ronny Kohavi