Wann ist Ihr Testergebnis signifikant? Die Statistik hinter dem A/B Test

„Traue keiner Statistik, die du nicht selbst gefälscht hast“ hat Winston Churchill höchstwahrscheinlich nie gesagt. Sehr wohl hört man diesen Satz aber oft im Alltag, wenn die Gültigkeit von statistischen Ergebnissen angezweifelt wird. Und in der Tat: es schadet nie, wenn man weiß, wie ein solches Ergebnis zustande gekommen ist, ganz besonders, wenn man selbst A/B Tests zur Conversion-Optimierung durchführt.

In den unendlichen Weiten des Internets gibt es zahlreiche Onlinerechner, die bestimmen, ob der Unterschied zwischen den Conversionrates zweier Testvarianten signifikant ist. Auch mit unserem Signifikanz-Rechner sehen Sie auf einen Blick, welches Ergebnis signifikant ist und welcher Uplift oder Downlift zufällig entstanden sein könnte.

Wir wollen uns hier jedoch einmal ansehen, wie diese Rechner funktionieren. In diesem Sinne: „Traue keiner Statistik, die du nicht selbst gerechnet hast!“

Schritt 1: Beobachtete und erwartete Werte

Die meisten Signifikanz-Rechner benutzen für ihre Berechnung den Chi2-Test (sprich: ki-Quadrat). Wie dieser funktioniert und wie man ihn rechnet, soll hier an einem fiktiven Beispiel gezeigt werden:

Besucher Conversions Conversionrate
Variante A 9.998 1.001 10,01%
Variante B 10.001 1.087 10,87%

Die Conversionrates ergeben sich, wenn man die beobachteten Conversions einer Variante durch die Gesamtanzahl der Besucher einer Variante dividiert und mit 100% multipliziert. Für Variante A ergibt dies eine Conversionrate von 10,01% und für Variante B 10,87%. Das Maß, um wieviel Variante B besser abschneidet als Variante A, nennt man den Uplift. Dieser berechnet sich folgendermaßen:

daum_equation_1472110857969

Variante B hat also eine um eine 8,55% höhere Conversionrate als Variante A. Dies bedeutet aber nun nicht automatisch, dass Variante B besser ist, als Variante A. Die unterschiedlichen Conversionrates können auch zufällig entstanden sein. Man bezeichnet diese zufällige Abweichung als „statistisches Rauschen“.

Wirft man zum Beispiel einen Würfel 600 Mal, so kann man erwarten, dass die Sechs 100 Mal fällt. Tatsächlich ist die Wahrscheinlichkeit sehr hoch, dass wir einen davon abweichenden Wert beobachten. Vielleicht wird 110 Mal die Sechs  gewürfelt, vielleicht nur 92 Mal. Erst wenn wir unendlich viele Würfelwürfe durchführen, können wir sicher sein, dass genau ein Sechstel aller Würfe die 6 zeigt.

Da aber unendlich viele Beobachtungen praktisch nicht machbar sind, müssen wir akzeptieren, dass der beobachtete Wert vom tatsächlichen Wert abweichen kann. Um nun beurteilen zu können, ob Variante B tatsächlich besser performt als Variante A, müssen wir herausfinden, mit welcher Wahrscheinlichkeit der Unterschied durch statistisches Rauschen entstanden ist.

Dazu wird eine Kreuztabelle erstellt, die die beobachteten Werte der konvertierten und der nicht konvertierten Besucher enthält:

Besucher Conversions Keine Conversions Conversionrate
Variante A 9.998 1.001 8.997 10,01%
Variante B 10.002 1.087 8.915 10,87%

Im nächsten Schritt stellt man diesen beobachteten Werten jene Werte gegenüber, die man erwarten würde, gäbe es keinen Unterschied zwischen den beiden Varianten. Die erwarteten Werte ergeben sich aus der gemeinsamen Conversionrate beider Varianten:

Berechnung der gemeinsamen Conversionrate beider Varianten

Mit dieser gemeinsamen Conversionrate werden nun die Besucherzahlen jeder Variante multipliziert. Damit erhalten wir die erwarteten Conversions einer Variante:

Berechnung der erwarteten Conversions

Die erwarteten Nicht-Conversions werden ganz einfach ermittelt, indem man die erwarteten Conversions von den Besucherzahlen der beiden Varianten abzieht:

Berechnung der erwarteten Nicht-Conversions

Diese Werte tragen wir nun in unsere Kreuztabelle ein:

Besucher Conversions Keine Conversions CR
beobachtet erwartet beobachtet erwartet
Variante A 9.998 1.001 1.044 8.997 8.954 10,01%
Variante B 10.002 1.087 1.044 8.915 8.958 10,87%

Schritt 2: Abweichungswerte berechnen

Nun berechnen wir für jeden beobachteten Wert die Abweichung vom erwarteten Wert. Dies geschieht mit der Formel:

Formel für die Abweichungswerte

Durch das Quadrieren der Abweichung erreichen wir, dass es egal ist, ob der beobachtete Wert unter oder über dem erwarteten Wert liegt und vermeiden, dass positive und negative Abweichungen einander aufheben oder abschwächen. Außerdem werden größere Abweichungen stärker berücksichtigt als kleine Abweichungen.

Mit der Division durch den erwarteten Wert akzeptieren wir bei höheren erwarteten Werten auch eine etwas größere Abweichung als bei niedrigen erwarteten Werten.

Berechnung des Abweichungswertes für die Conversions der Variante A

Analog gehen wir für die Conversions der Variante B vor und die Werte der Nicht-Conversions. Alle vier Werte addieren wir nun und erhalten den Prüfwert für den Chi2-Test:

Berechnung des Prüfwerts für den gesamten Test

Schritt 3: Auf Signifikanz überprüfen

Allgemein gilt, je höher dieser Wert ist, umso höher ist auch die Wahrscheinlichkeit, dass sich die beiden Varianten tatsächlich unterscheiden. Eine hundertprozentige Aussage darüber lässt sich nicht treffen, daher muss ein Konfidenzwert gewählt werden. Dieser gibt an, mit welcher Wahrscheinlichkeit die beiden Varianten unterschiedlich sind. Für diesen Konfidenzwert schlägt man nun in einer Chi2-Verteilungstabelle nach, wie hoch der Prüfwert mindestens sein muss, damit ein Unterschied zwischen den beiden Varianten mindestens so hoch ist, wie der Konfidenzwert. Beliebte Konfidenzwerte und die dazugehörigen Mindestprüfwerte sind:

Konfidenz Mindestprüfwert Anmerkung
90% 2,71 tendenziell
95% 3,84 signifikant
99% 6,63 sehr signifikant
99,9% 10,83 höchst signifikant

Wir entscheiden uns für eine Konfidenz von 95%, dafür benötigen wir einen Prüfwert von mindestens 3,84. Mit 3,955 überspringen wir diesen Mindestwert, daher können wir mit 95%iger Wahrscheinlichkeit behaupten:

Variante A und B unterscheiden sich signifikant voneinander. Der gemessene Uplift hat seinen Ursprung also tatsächlich in einer höheren Conversionrate und ist nicht nur durch statistisches Rauschen verursacht.

Was wir jedoch nicht sicher sagen können, ist dass der Uplift auch tatsächlich +8,55% beträgt. Dies ist der wahrscheinlichste Wert, den der Uplift einnehmen kann, aber auch dieser unterliegt dem statistischen Rauschen. Aber mit großer Wahrscheinlichkeit liegt er in der Nähe dieses Wertes.

Das alles ist Ihnen zu kompliziert? Dann verwenden Sie einfach den

e-dialog Signifikanz-Rechner >

Sie sind sich nicht sicher, was sie nun mit dem errechneten Ergebnis anfangen sollen? Oder sie wissen nicht, was sie überhaupt testen sollen?
Wir helfen Ihnen gerne weiter! Schreiben Sie uns via kontakt@e-dialog.at

Kontakt

Hinterlassen Sie einen Kommentar:

3 Kommentare zu “Wann ist Ihr Testergebnis signifikant? Die Statistik hinter dem A/B Test

  • Hallo,

    Sie beschreiben beim Berechnen des Uplifts
    ((Conversionrate Variante A – Conversionrate Variante B)/Conversionrate Variante A) * 100%

    Im Beispiel nehmen Sie allerdings:
    ((Conversionrate Variante B – Conversionrate Variante A)/Conversionrate Variante A)*100%

    Was ist nun richtig?

    • Hallo Herr Graunke,

      Ja, da hat sich der Fehlerteufel eingeschlichen. Korrekt ist der Rechengang im Beispiel. Ich habe auch gleich die Formel im Beitrag korrigiert. Vielen Dank fürs aufmerksame Mitlesen!

  • Hallo – was müsste man tun, wenn man nicht nur Conversions, sonderen auch die Warenkörbe, die dahinterstehen berücksichtigen möchte? Erst dann macht doch die ganze Rechnerei Sinn?