A/B-testing betrouwbaarder met SPSS

Het doen van experimenten als onderzoekmethoden is de laatste jaren veel populairder geworden bij studenten voor een stage of afstudeeronderzoek. Waar er eerder altijd de keuze was tussen interviews en enquête onderzoek, ontdekken steeds meer studenten hoe ze stapsgewijs verbeteringen kunnen doorvoeren voor hun opdrachtgever via A/B-testing.

Mocht je onbekend zijn met deze term: A/B-testing is een methode waarbij je de (potentiële) doelgroep twee verschillende uitingen laat zien en meet welke effectiever is. Online wordt dit veelvuldig toegepast met landing pagina’s, nieuwsbrieven, teksten en knoppen op pagina’s, cross selling, en nog veel meer.

De reden waarom deze wijze van experimenteren een vlucht neemt is omdat veel e-mail en websitetools ook deze mogelijkheid bieden om dit gemakkelijk uit te voeren. Echter bieden deze tools slechts beperkt inzicht in de betrouwbaarheid van de uitkomsten. Die betrouwbaarheid is wel zeer belangrijk om de volgende stap te bepalen en echt goed advies te geven. En niet te vergeten, voor een goede onderbouwing in je scriptie of stagerapport. SPSS kan je helpen om de juiste conclusies te trekken, zodat ook jij betrouwbaar en professioneel overkomt. In deze blog staat omschreven hoe je A/B-testing opzet in de praktijk, hoe je het uitvoert en uiteraard hoe je de uitkomsten interpreteert. Dit alles met behulp van een case.

Visuele afbeelding A/B-test

Opzetten A/B-test

Het mooie van A/B-testing is dat je er direct mee in de praktijk kunt beginnen. Er zijn een aantal stappen die je moet doorlopen om dit methodologisch op de juiste wijze te doen.

Basisstappen
Stap 1
huidige situatie in kaart brengen, inclusief doelstellingen
Stap 2
aannames formuleren (ook wel hypothesen genoemd)
Stap 3
experiment uitvoeren
Stap 4
resultaten interpreteren; en
Stap 5
nieuwe aannames formuleren voor een volgend experiment

In de eerste stap ga je een aantal zaken vooraf bepalen (al dan niet samen met je opdrachtgever). Je begint uiteraard altijd met een doel. En die kan voortkomen uit een probleem of uit een ambitie. Zorg ervoor dat dit doel meetbaar is met de data die op dit moment al wordt verzameld. Als dit niet het geval is, dan moet je eerst gaan achterhalen op welke wijze je de data kan gaan verzamelen. Sta stil bij welke variabelen er allemaal een rol kunnen spelen in het hoofddoel.

Laten we als voorbeeld eens nemen dat er een probleem is dat de nieuwsbrief matig wordt geopend. Gaat het dan om het openen van de nieuwsbrief (open rate) alleen of spelen meer variabelen een rol? Zoals bijvoorbeeld doelgroep of specifieke momenten of acties waar de verbetering moet plaats vinden? Maak het zo nauwkeurig mogelijk. In ons voorbeeld kijken we naar de huidige doelgroep/nieuwsbrief ontvangers.

Nadat je de variabelen in kaart hebt gebracht zet je op een rij wat er allemaal van invloed kan zijn op het openen van een nieuwsbrief. Dit zijn de knoppen waar je straks aan kunt draaien in een experiment. Zo is er bijvoorbeeld verzendmoment, onderwerpregel, content, verzendfrequentie en nog veel meer.

Nu je de huidige situatie en de doelstelling goed in beeld hebt gebracht maak je in de de tweede stap aannames (ook wel hypothesen genoemd). Bij een hypothese spreek je de verwachting uit dat als je (bijvoorbeeld) het verzendmoment van vrijdag naar woensdag verplaatst de nieuwsbrief vaker geopend wordt. Het is belangrijk dat je met A/B testing maar aan één knop gelijk gaat draaien en pas bij een volgens experiment aan een andere knop. Het kan dus zijn dat je meer aannames hebt, omdat je aan meer knoppen wilt draaien. Zet ze in volgorde van waarschijnlijkheid en begin met degene waar je de meeste winst verwacht. Nu je weet wat je doel is (hogere open rate), bij wie (de hele doelgroep) en aan welke knop je gaat draaien (verzendmoment) ben je bijna klaar voor je experiment. Je moet nu de groep aan wie je de nieuwsbrief gaat verzenden nog in twee groepen splitsen. De controle groep (alles blijft bij het oude) en de experimentele groep (ander verzendmoment). Dit kan vrij eenvoudig in verschillende mail programma’s, maar je kunt natuurlijk ook zelf de groepen splitsen. Daarna kun je de derde stap uitvoeren: het doen van het experiment.

Basiskennis voor de juiste conclusie

Nu je data aan het verzamelen bent is het goed om alvast vooruit te kijken naar stap 4: het interpreteren van de resultaten. Bij het doen van experimenteren hoort ook de basiskennis om een toets te interpreteren. Hiervoor kijken we naar significantie. Is een gevonden verschil (in bijvoorbeeld open rate) ook daadwerkelijk een verschil en is deze niet ontstaan door toeval? Hoe weet je zeker dat een gevonden verschil ook betrouwbaar is, zodat je niet de verkeerde conclusie trekt?

Er spelen een aantal zaken een rol die een uitkomst kunnen beïnvloeden. Door statistisch te toetsen (met een significantietoets) probeer je met hoge betrouwbaarheid toeval uit te sluiten. Met andere woorden, je probeert een zo hoog mogelijke zekerheid te hebben dat jouw uitspraak straks betrouwbaar is. Hoe betrouwbaar? De grens van betrouwbaarheid bepaal je zelf. In de praktijk is 95% betrouwbaarheid gangbaar. Dit betekent dat als je nog 100x het experiment zou doen, er 95x dezelfde conclusie uit getrokken zou worden. Dat is al erg betrouwbaar. Er wordt ook vaak gebruik gemaakt van 90% en 99%. Lager wordt gezien als niet betrouwbaar!

Dan is er nog de keuze van de significantietoets die je nodig hebt. In dit geval gaat het om het vergelijken van twee groepen abonnees die allemaal de keuze maken om wel of niet de nieuwsbrief te openen. We spreken daarom wel over een dichotome / binominale variabele. Om deze op verschil te toetsen kunnen we de Chi-kwadraat (pearson) toets gebruiken. Om te vergelijken met een gemiddelde kunnen we Chi-Kwadraat (one sample) gebruiken. Wat heb je nodig om conclusies te kunnen trekken? In ieder geval de data per ontvanger (abonnee). Dit moet je kunnen inlezen in SPSS en dan kun je op basis van de toets kijken welke antwoord je experiment oplevert. En kun je op de juiste wijze conclusies trekken. Hiervoor heb je kennis nodig van hypothesen en significantie.

A/B-test: een case

Om je een beeld te geven hoe de stappen er in de praktijk uit kunnen zien, werken we de case verder uit. Even opfrissen: ons doel is een hogere open rate van de nieuwsbrief, bij de gehele doelgroep.

Stap 1: Huidige situatie en doelstelling

De nieuwsbrief wordt één keer per week aan de hele groep abonnees (n=478) verzonden. Het afgelopen half jaar was de open rate met 37% vrij stabiel. Geen lage open rate, maar de ambitie van de ondernemer is om minimaal boven de 50% uit te komen. In de afgelopen twee jaar had hij vooral de focus om een klantengroep op te bouwen en nu verschoof zijn focus naar het meer stimuleren van herhalingsaankopen. De content van de nieuwsbrief bestaat regelmatig uit twee of drie producten die worden uitgelicht met een call to action. Over het algemeen hangt er een promotie aan minimaal één product. De promotie is soms op prijs gericht, maar wordt voldoende afgewisseld om het interessant te houden.

Stap 2: Aannames (hypothesen)

Op basis van een nieuwsbriefanalyse van het afgelopen jaar (met de focus op de open rate), zijn er twijfels over twee variabelen: de onderwerpregel en de verzendfrequentie. De onderwerpregel was vaak vrij traditioneel (nieuwsbrief week 23: product x). De frequentie van één keer in de week lijkt niet te passen bij het type product (mode gerelateerd). De aanname is dat er met een actiegerichte onderwerpregel al snel wat gewonnen kan worden. En anders wel met een verlaging van de frequentie. We beginnen met het uitvoeren van een experiment voor de onderwerpregel.

Stap 3: Experiment

Het experiment vond plaats in week 34. De controle groep kreeg een vrij traditionele onderwerpregel en de experiment groep een actiegerichte. Hieronder de resultaten.

Op het gevoel zie je hier meteen dat het beter gaat met de experimentele groep dan met de controle groep. Het totaal van week 34 ligt ook boven het gemiddelde van 37%. De volgende stap is nu om te kijken of deze resultaten ook daadwerkelijk significant zijn (zonder toeval), zodat we betrouwbare conclusies kunnen trekken.

Stap 4: conclusies trekken

Om conclusies te trekken moeten we de data inlezen in SPSS. Bij dit experiment kunnen we meerdere vergelijkingen maken. In de tabel hieronder staan 4 vergelijkingen die interessant kunnen zijn. Daarnaast zie je de significantiewaarde staan. Een uitkomst die SPSS genereert om jou te vertellen of er een duidelijke winnaar is en in hoeverre je een betrouwbare uitspraak kunt doen. Met deze informatie kun je per vergelijking een winnaar uitroepen en een conclusie trekken. Laten we naar de vier vergelijkingen kijken:

We zien drie conclusies en die worden getrokken aan de hand van de significantiewaarde. Een korte uitleg (lange versie lees je hier) van de significantiewaarde: een waarde van 0,05 of lager betekent een betrouwbaarheid van 95% (oftewel 0,95). Zoals je ziet telt het samen op tot 1 (0,05+0,95) of tot 100% (5% + 95%).

Hierdoor kunnen we drie winnaars aanwijzen met 99% betrouwbaarheid. De totale open rate van week 34 is hoger dan het gemiddelde (37%), (2) de onderwerpregel die actiegericht is doet het echt beter dan de traditionele en (3) de experimentele groep had een veel hogere open rate dan gemiddeld. De andere conclusie is dat de controlegroep niet afwijkt van het gemiddelde. Dat is een fijne constatering, anders zouden de eerdere conclusies niet kloppen.
Onze conclusie, met 99% zekerheid, is dat de actiegerichte onderwerpregel het beter doet dan gemiddeld als het gaat om open rate.

Stap 5: nieuwe aannames formuleren en verder experimenteren

De volgende stap is om te kijken of we nog een verbetering door kunnen voeren met behulp van een experiment. De tweede aanname is dat de verzendfrequentie van invloed is. Iedereen heeft in week 34 een nieuwsbrief ontvangen. Laten we de helft van de groep in week 35 mailen en de andere helft in week 36. Omdat de nieuwsbrief gelijk is in de twee verzendingen kunnen we de groepen met elkaar vergelijken!

Hieronder de resultaten van het tweede experiment. Daarin staan (1) een gemiddelde open rate van de beide momenten samen (2) Week 35 alleen en (3) week 36 alleen. Opvallend is dat in week 35 de open rate weer terugzakt naar het oude gemiddelde, ondanks dat we daar een actiegerichte onderwerpregel hebben gebruikt. Het gemiddelde van de twee nieuwsbrieven samen ligt hoger dan het oude gemiddelde (37%) en week 36 doet het bijzonder goed met 54%.

Stap 6: conclusies trekken

Dit experiment levert wederom veel verschillende vergelijkingen op. De meest interessante vergelijkingen staan hieronder in de tabel. Wederom weer met de significantiewaarde, betrouwbaarheid en de winnaar.

We kunnen nu met zekerheid (betrouwbaarheid) onze conclusies trekken. Een verzending na twee weken doet het beter dan een verzending na één week dan het gemiddelde van week 34 (met 99% betrouwbaarheid). Daarnaast zien we dat week 36 het beter doet dan week 34, beide met een actiegerichte onderwerpregel (met 95% betrouwbaarheid). Interessant is dat week 35 het significant slechter heeft gedaan (99% betrouwbaarheid) dan de experimentele groep in week 34. En we zien dat gemiddeld genomen er geen verschil zit tussen de combinatie week 35/36 en week 34.  Dit levert de volgende conclusies op:

  • Twee keer een actiegerichte onderwerpregel na 1 week verzenden lijkt een negatief effect te hebben.
  • Twee keer een actiegerichte onderwerpregel na 2 weken verzenden lijk een positief effect te hebben.

Uiteraard ga je nu door experimenteren met de tweede conclusie om te kijken of de open rate rond de 54% blijft.

Betrouwbaar experimenteren

We hebben besproken dat het uitvoeren van A/B testen steeds vaker als onderdeel van stage en afstudeeronderzoeken wordt gebruikt. Logisch, want het is in de praktijk vrij gemakkelijk te organiseren en de resultaten helpen de opdrachtgever direct verder. Verschillende tools geven je vrijwel direct de uitkomsten. Om methodologisch goed te handelen en betrouwbaar te handelen is je basiskennis in hypothesen formulering en significantietoetsen belangrijk. SPSS neemt de meest ingewikkelde zaken voor je uit handen. Aan jou om op de juiste manier de juiste conclusie te trekken. Blijf betrouwbaar experimenteren en je bent al snel een Koning!