Sind Ihre Testergebnisse signifikant?

Sie möchten wissen, ob Ihre Testergebnisse auch signifikant und damit wirklich aussagekräftig sind? Mit unserem Signifikanzrechner sehen Sie auf einen Blick, welches Ergebnis signifikant ist und welcher Uplift oder Downlift zufällig entstanden sein könnte.

Der Signifikanzrechner eignet sich für A/B- und multivariate Tests. Sie haben die Möglichkeit bis zu 8 Testvarianten (inkl. Control) miteinander zu vergleichen. Geben Sie einfach die Anzahl der Unique Visitors und die Anzahl der Conversions ein – wir berechnen Conversion-Rate, Uplift oder Downlift sowie Konfidenz und Signifikanz.

Der e-dialog Signifikanzrechner

VisitorsConversionsConv.Conversion RateCR?Uplift?Konfidenz 1-seitigKonf.Konfidenz 2-seitigKonf.?
Control
Variante 1V1
Variante 2V2
Variante 3V3
Variante 4V4
Variante 5V5
Variante 6V6
+ Variante hinzufügen Variante entfernen

Vorsicht! Sie haben bei mindestens einer Variante nur sehr wenige Conversions (<80).

Zu wenig Conversions für einen aussagekräftigen Test (mind. 5)

Die Anzahl der Visitor darf nicht kleiner sein als die Anzahl der Conversions!

Nur Zahlen als Eingabe zulässig!

Errechnet mittels zweiseitigem Chi2-Test. Jede Variante wurde einzeln mit der Control verglichen. (4-Felder-Test)


Konfidenz und Signifikanz

Konfidenz ist die Wahrscheinlichkeit, dass der gemessene Unterschied zur Original-Variante (Control) nicht zufällig entstanden ist, sondern aufgrund der Testanordnung.

Signifikanz ist das Gegenteil, also die Wahrscheinlichkeit, dass beide Varianten keine strukturellen Unterschiede aufweisen und gemessene Unterschiede rein zufällig entstanden sind.

Die Konfidenz ist somit die Umkehrwahrscheinlichkeit zur Signifikanz. Signifikanz und Konfidenz zusammen ergeben immer 100%. Bei einer errechneten Signifikanz von 20% liegt die Konfidenz beispielsweise bei 80%.

Ist mein Testergebnis signifikant?

Signifikanz-Betrachtungen sind ein gutes Hilfsmittel zur Bewertung Ihrer Testergebnisse. Mit unserem Signifikanz-Rechner können Sie herausfinden, mit welcher Wahrscheinlichkeit die Ergebnisse aussagekräftig sind oder rein zufällig gemessen wurden.

Generell gilt: Je kleiner die ermittelte Signifikanz, desto unwahrscheinlicher ist es, dass der gemessene Uplift oder Downlift rein zufällig entstanden ist. Umgekehrt bedeutet eine hohe Konfidenz, dass die Wahrscheinlichkeit eines zufälligen Ergebnisses eher gering ist.

Konfidenzniveaus und Signifikanzniveaus

Vor Beginn des Tests muss ein Konfidenzniveau gewählt werden. Das festlegt, wie sicher man sich sein will, dass das Testergebnis auch auf die Grundgesamtheit zutrifft. Liegt die ermittelte Konfidenz über dem Konfidenzniveau, wird der Test als statistisch signifikant akzeptiert.

Das folgende Schema an Konfidenzniveaus hat sich in der Sozialwissenschaft eingebürgert:

90%tendenziell: Ein Unterschied darf weiterhin vermutet werden, gilt aber nicht als bewiesen.
≥ 95%signifikant: 95% ist in vielen Anwendungsbereichen das am häufigsten gewählte Konfidenzniveau. Deshalb werden in diesem Standardschema auch Konfidenzen von 95% oder mehr als statistisch signifikant betrachtet.
≥ 99%sehr signifikant: Überschreitet die Konfidenz ein Niveau von 99% spricht man von einem sehr signifikanten Test.
≥ 99,9%höchst signifikant: Die Wahrscheinlichkeit, dass der Unterschied rein zufällig zustande gekommen ist, beträgt ≤ 0,1%. Das Ergebnis ist höchst signifikant.

Einseitiger Test vs. zweiseitiger Test

Grundsätzlich gibt es zwei Möglichkeiten zu Testen: einseitige und zweiseitige Tests. Der Unterschied liegt dabei in der Fragestellung.

Der zweiseitige Test ermittelt, ob es überhaupt einen Unterschied zwischen der getesteten Variante und der Original-Variante (Control) gibt. Beim einseitigen Test wird hingegen nur geprüft, ob die getestete Variante besser ist die Original-Variante.

Vorweg: mit unserem Signifikanz-Rechner wird immer eine zweiseitige Auswertung angeführt. Die einseitige Berechnung führt zwar schneller zu einem signifikanten Ergebnis, die einseitige Berechnung ist jedoch nicht ganz unproblematisch: Schneidet die vermeintlich bessere Testvariante nämlich schlechter ab als das Original, wird das auf den Zufall zurückgeführt und nicht auf einen strukturellen Unterschied.

Man kann mit einseitigen Test also nie herausfinden, ob eine Variante signifikant schlechter ist – lediglich, dass sie nicht signifikant besser ist. Da man bei Tests generell nicht ausschließen sollte, dass die getestete Variante schlechter performt als die Originalvariante, empfehlen wir, immer einen zweiseitigen Test durchzuführen.

Sie haben noch Fragen zur Interpretation Ihrer Tests?
Ihre Testergebnisse sind nicht signifikant?
Oder suchen Sie generelle Infos zu A/B- und multivariatem Testing?

Wir helfen Ihnen gerne!
Kontaktieren Sie uns via kontakt@e-dialog.at