cc13 korsus
DESCRIPTION
TRANSCRIPT
10.04.2023 1
Warum 99% der A/B Tests fehlerhaft sind
Andreas KorsusMarketing Technologist 4 Statistische Fehler, die (fast) jeder macht
Andreas Korsus10.04.2023 3
1. Fehler
Split URL Tests mit JavaScript Lösungen
Andreas Korsus10.04.2023 4
Bedeutung der Geschwindigkeit
+100 ms -1% Verkäufe
Greg Linden, über Amazon
+500ms -20% Traffic
Marissa Meyer über Google
Zeit
Zeit
Wie lange dauert das?
Zeit
Wie lange dauert das?
50-1000ms
Andreas Korsus10.04.2023 8
Lösung
A/A‘/B Test
A A‘ B
www.beispiel.de/original.htm
www.beispiel.de/original.htm?cachebuster
www.beispiel.de/variante-b.html
Kopie
Inkl. Redirect Inkl. Redirect
Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-12%20ExPUnexpectedSIGKDD.pdf
Andreas Korsus10.04.2023 9
Lösung
A/A‘/B Test
A A‘ B
Differenz gibt den Betrag der
Verzerrung an
Differenz gibt bereinigten Unterschied
zwischen A und B an
Kopie
Andreas Korsus10.04.2023 10
2. Fehler
Blind auf Signifikanz und Konfidenzintervalle der Testing-
Tools vertrauen
Andreas Korsus10.04.2023 11
2. Fehler
Ist DAS wirklich signifikant?
Andreas Korsus10.04.2023 12
Normalverteilung
95% Confidence interval
Andreas Korsus10.04.2023 13
Binomialverteilung
Andreas Korsus10.04.2023 14
Vergleich Binomial- & Normalverteilung
0% 0,5% 1% 1,5% 2%
Ausgewiesene Signifikanz: 96%Wahrer Wert: 77%
Andreas Korsus10.04.2023 15
Problem
Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung
insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau
wieder
(Die Student t-Verteilung macht es auch nicht besser)
Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
Andreas Korsus10.04.2023 16
Lösung
Mindestens 500 Besucher pro Variante
Konversionsrate < 2,0%:Mindestens 2000 Besucher pro Variante,
besser noch höher
Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante
Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.
Andreas Korsus10.04.2023 17
3. Fehler
Multivariate Tests
Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt-
Fehlerwahrscheinlichkeit ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich
Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121
Andreas Korsus10.04.2023 18
Problem
5%
Test mit 1 Variante
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus10.04.2023 19
Problem
9,75%
Test mit 2 Varianten
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus10.04.2023 20
Problem
18,55%
Test mit 4 Varianten
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus10.04.2023 21
Problem
56%Test mit 16 Varianten
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus10.04.2023 22
Lösung
Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten
Kombinationen nur mit Sinn und Verstand testen.Nicht alles, was geht.
Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von
5% / 4 = 1,25%(entspricht Signifikanzniveau 98,75%)
Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.
Andreas Korsus10.04.2023 23
Oder
Erst multivariaten Test wie gewohnt durchführen
Besten „Kandidaten“ im A/B Test nochmal überprüfen
Andreas Korsus10.04.2023 24
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Andreas Korsus
Das wird bestimmt noch positiv!
10.04.2023 25
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Andreas Korsus10.04.2023 26
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
Andreas Korsus10.04.2023 27
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)
Andreas Korsus10.04.2023 28
4. Fehler
Wiederholtes Testen
Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung
zu fällen, jedes Mal ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt
Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787
Andreas Korsus10.04.2023 29
Problem
5%
Test mit 1 Mal „nachgucken“
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus10.04.2023 30
Problem
8,3%
Test mit 2 Mal nachgucken*
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
* Gleicher Zeitabstand zwischen den Auswertungen
Andreas Korsus10.04.2023 31
Problem
14,2%
Test mit 5 Mal nachgucken
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus10.04.2023 32
Problem
24,8%
Test mit 20 Mal nachgucken
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus
53%
10.04.2023 33
Problem
Test mit 1000 Mal nachgucken
Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
Andreas Korsus
Diese Funktionen schauen nach jedem Besucher nach!
10.04.2023 34
Problem
Test mit 1000 Mal nachgucken
Andreas Korsus10.04.2023 35
Lösung
Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch*
Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie
sich an die Werte!
* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php
Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden.
Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt
Zu niedrig geschätzt: Der Test braucht ewig
Andreas Korsus10.04.2023 36
Lösung
Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede
zuverlässig sehr früh und kleinere Unterschiede durch eine längere
Testdauer zu erkennen
Allerdings gibt es (noch) keine einfache Anwendung für die CRO
Pläne nach Pocock, O‘Brien Fleming, Alpha-Spending Funktionen, SPRT, Dreieckspläne
Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).
Andreas Korsus10.04.2023 37
Lösung
Beispielplan nach O‘Brien Fleming
Führe eine Testdaueranalyse durch und schätze den Uplift konservativ
Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch:
1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%
Andreas Korsus10.04.2023 38
Alles in allem
Mach keine A/B Split URL Tests in JavaScript-Tools – Starte mit A‘/B Tests!
Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus!
Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten!
Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden.
Arbeite methodisch sauber
Andreas Korsus10.04.2023 39
Vielen Dank
http://xing.to/korsus
http://de.linkedin.com/in/korsus
Andreas Korsus10.04.2023 40
Jeffrey’s Equal-Tailed Intervall
R:L <- qbeta( alpha/2, k+1/2, n-k+1/2)U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)
Excel:=BETA.INV(alpha/2;k+1/2;n-k+1/2)=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)
k=Anzahl der Conversions, n=Anzahl der Besucher
Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784