cc13 korsus

10.04.2023 1

Warum 99% der A/B Tests fehlerhaft sind

Andreas KorsusMarketing Technologist 4 Statistische Fehler, die (fast) jeder macht

Andreas Korsus10.04.2023 3

1. Fehler

Split URL Tests mit JavaScript Lösungen


Bedeutung der Geschwindigkeit

+100 ms -1% Verkäufe

Greg Linden, über Amazon

+500ms -20% Traffic

Marissa Meyer über Google

Zeit

Wie lange dauert das?

Zeit

Wie lange dauert das?

50-1000ms


Lösung

A/A‘/B Test

A A‘ B

www.beispiel.de/original.htm

www.beispiel.de/original.htm?cachebuster

www.beispiel.de/variante-b.html

Kopie

Inkl. Redirect Inkl. Redirect

Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-12%20ExPUnexpectedSIGKDD.pdf


Lösung

A/A‘/B Test

A A‘ B

Differenz gibt den Betrag der

Verzerrung an

Differenz gibt bereinigten Unterschied

zwischen A und B an

Kopie


2. Fehler

Blind auf Signifikanz und Konfidenzintervalle der Testing-

Tools vertrauen


2. Fehler

Ist DAS wirklich signifikant?


Normalverteilung

95% Confidence interval


Binomialverteilung


Vergleich Binomial- & Normalverteilung

0% 0,5% 1% 1,5% 2%

Ausgewiesene Signifikanz: 96%Wahrer Wert: 77%


Problem

Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung

insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau

wieder

(Die Student t-Verteilung macht es auch nicht besser)

Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784


Lösung

Mindestens 500 Besucher pro Variante

Konversionsrate < 2,0%:Mindestens 2000 Besucher pro Variante,

besser noch höher

Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante

Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.


3. Fehler

Multivariate Tests

Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt-

Fehlerwahrscheinlichkeit ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich

Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121


Problem

5%

Test mit 1 Variante

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:


Problem

9,75%

Test mit 2 Varianten



Problem

18,55%

Test mit 4 Varianten



Problem

56%Test mit 16 Varianten



Lösung

Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten

Kombinationen nur mit Sinn und Verstand testen.Nicht alles, was geht.

Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von

5% / 4 = 1,25%(entspricht Signifikanzniveau 98,75%)

Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.


Oder

Erst multivariaten Test wie gewohnt durchführen

Besten „Kandidaten“ im A/B Test nochmal überprüfen


Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Andreas Korsus

Das wird bestimmt noch positiv!

10.04.2023 25



Dienstag -5% Nein

Mittwoch -15% Ja




Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja




Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)


4. Fehler

Wiederholtes Testen

Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung

zu fällen, jedes Mal ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt

Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787


Problem

5%

Test mit 1 Mal „nachgucken“



Problem

8,3%

Test mit 2 Mal nachgucken*


* Gleicher Zeitabstand zwischen den Auswertungen


Problem

14,2%

Test mit 5 Mal nachgucken



Problem

24,8%



Andreas Korsus

53%

10.04.2023 33

Problem



Andreas Korsus

Diese Funktionen schauen nach jedem Besucher nach!

10.04.2023 34

Problem



Lösung

Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch*

Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie

sich an die Werte!

* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php

Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden.

Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt

Zu niedrig geschätzt: Der Test braucht ewig


Lösung

Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede

zuverlässig sehr früh und kleinere Unterschiede durch eine längere

Testdauer zu erkennen

Allerdings gibt es (noch) keine einfache Anwendung für die CRO

Pläne nach Pocock, O‘Brien Fleming, Alpha-Spending Funktionen, SPRT, Dreieckspläne

Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).


Lösung

Beispielplan nach O‘Brien Fleming

Führe eine Testdaueranalyse durch und schätze den Uplift konservativ

Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch:

1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%


Alles in allem

Mach keine A/B Split URL Tests in JavaScript-Tools – Starte mit A‘/B Tests!

Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus!

Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten!

Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden.

Arbeite methodisch sauber


Vielen Dank

http://xing.to/korsus

http://de.linkedin.com/in/korsus


Jeffrey’s Equal-Tailed Intervall

R:L <- qbeta( alpha/2, k+1/2, n-k+1/2)U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)

Excel:=BETA.INV(alpha/2;k+1/2;n-k+1/2)=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)

k=Anzahl der Conversions, n=Anzahl der Besucher

Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784