A/B-Tests - A/B testing

Beispiel für A/B-Tests auf einer Website. Indem Besuchern nach dem Zufallsprinzip zwei Versionen einer Website angeboten werden, die sich nur im Design eines einzigen Schaltflächenelements unterscheiden, kann die relative Wirksamkeit der beiden Designs gemessen werden.

A / B - Tests (auch bekannt als bucket Tests oder Split-Run - Test ) ist eine Benutzererfahrung Forschungsmethode . A/B-Tests bestehen aus einem randomisierten Experiment mit zwei Varianten, A und B. Es beinhaltet die Anwendung von statistischen Hypothesentests oder " zweistichproben Hypothesentests ", wie sie in der Statistik verwendet werden . A/B-Tests sind eine Möglichkeit, zwei Versionen einer einzelnen Variablen zu vergleichen , normalerweise indem die Reaktion einer Person auf Variante A gegen Variante B getestet wird und bestimmt wird, welche der beiden Varianten effektiver ist.

Überblick

A/B-Testing ist eine Abkürzung für ein einfaches kontrolliertes Experiment. bei dem zwei Stichproben (A und B) einer einzelnen Vektorvariablen verglichen werden. Diese Werte sind bis auf eine Variation ähnlich, die das Verhalten eines Benutzers beeinflussen könnte. A/B-Tests gelten weithin als die einfachste Form des kontrollierten Experiments. Durch das Hinzufügen weiterer Varianten zum Test wächst jedoch seine Komplexität.

A/B-Tests sind nützlich, um das Engagement und die Zufriedenheit der Benutzer mit Online-Funktionen wie einer neuen Funktion oder einem neuen Produkt zu verstehen . Große Social-Media- Sites wie LinkedIn , Facebook und Instagram verwenden A/B-Tests, um die Benutzererfahrung erfolgreicher zu gestalten und ihre Dienste zu optimieren.

A/B-Tests werden heute auch dazu verwendet, komplexe Experimente zu Themen wie Netzwerkeffekten im Offline- Zustand durchzuführen , wie Online-Dienste die Benutzeraktionen beeinflussen und wie sich Benutzer gegenseitig beeinflussen. Viele Berufe nutzen die Daten aus A/B-Tests. Dazu gehören Dateningenieure, Vermarkter, Designer, Softwareingenieure und Unternehmer. Viele Positionen verlassen sich auf die Daten aus A/B-Tests, da sie es Unternehmen ermöglichen, Wachstum zu verstehen, den Umsatz zu steigern und die Kundenzufriedenheit zu optimieren.

Version A könnte eine derzeit verwendete Version sein (und somit die Kontrollgruppe bilden), während Version B in gewisser Hinsicht gegenüber A (Behandlung) modifiziert ist. Zum Beispiel auf einer E-Commerce - Website des Kauf Trichter ist in der Regel ein guter Kandidat für die A / B - Tests, da sogar marginal-Abnahmen in Drop-Off - Raten einen signifikanten Umsatzzuwachs darstellen. Durch das Testen von Elementen wie Text, Layouts, Bildern und Farben können manchmal erhebliche Verbesserungen festgestellt werden, aber nicht immer. In diesen Tests sehen Benutzer nur eine von zwei Versionen, da das Ziel darin besteht, herauszufinden, welche der beiden Versionen vorzuziehen ist.

Multivariate Tests oder multinomiale Tests sind ähnlich wie A/B-Tests, können jedoch mehr als zwei Versionen gleichzeitig testen oder mehr Kontrollen verwenden. Einfache A/B-Tests sind nicht gültig für Beobachtungs- , quasi-experimentelle oder andere nicht-experimentelle Situationen - üblich bei Umfragedaten, Offline-Daten und anderen, komplexeren Phänomenen.

A/B-Testing wird von einigen als eine Änderung der Philosophie und der Geschäftsstrategie in bestimmten Nischen bezeichnet, obwohl der Ansatz identisch mit einem Zwischen-Subjekt-Design ist , das in einer Vielzahl von Forschungstraditionen häufig verwendet wird. A/B-Testing als Philosophie der Webentwicklung bringt das Feld in Einklang mit einer breiteren Bewegung in Richtung evidenzbasierter Praxis . Die Vorteile von A/B-Tests werden darin gesehen, dass sie für fast alles kontinuierlich durchgeführt werden können, zumal die meisten Marketing-Automatisierungs-Software heute typischerweise die Möglichkeit bietet, A/B-Tests kontinuierlich durchzuführen.

Allgemeine Teststatistiken

"Zweistichproben-Hypothesentests" sind zum Vergleich der beiden Stichproben geeignet, wobei die Stichproben durch die beiden Kontrollfälle im Experiment geteilt werden. Z-Tests sind geeignet, um Mittelwerte unter strengen Bedingungen hinsichtlich Normalität und bekannter Standardabweichung zu vergleichen. Student-t-Tests eignen sich zum Vergleich von Mittelwerten unter entspannten Bedingungen, wenn weniger angenommen wird. Der t-Test von Welch geht am wenigsten davon aus und ist daher der am häufigsten verwendete Test in einem Hypothesentest mit zwei Stichproben , bei dem der Mittelwert einer Metrik optimiert werden soll. Während der Mittelwert der zu optimierenden Variablen die häufigste Wahl des Schätzers ist , werden andere regelmäßig verwendet.

Für einen Vergleich zweier Binomialverteilungen wie der Klickrate würde man den exakten Test von Fisher verwenden .

Angenommene Verteilung	Beispielfall	Standardtest	Alternativer Test
Gaussian	Durchschnittliches Einkommen pro Benutzer	Welch-t-Test (Ungepaarter t-Test)	T-Test für Studenten
Binomial	Klickrate	Fishers genauer Test	Barnards Test
Poisson	Transaktionen pro zahlendem Benutzer	E-Test	C-Test
Multinomial	Anzahl jedes gekauften Produkts	Chi-Quadrat-Test
Unbekannt		Mann-Whitney-U-Test	Gibbs-Sampling

Geschichte

Wie bei den meisten Feldern ist es schwierig, ein Datum für die Einführung einer neuen Methode festzulegen. Die erste randomisierte Doppelblindstudie zur Beurteilung der Wirksamkeit eines homöopathischen Arzneimittels fand 1835 statt. Experimente mit Werbekampagnen, die mit modernen A/B-Tests verglichen wurden, begannen Anfang des 20. Jahrhunderts. Der Werbepionier Claude Hopkins testete mit Werbegutscheinen die Wirksamkeit seiner Kampagnen. Dieser Prozess, den Hopkins in seiner wissenschaftlichen Werbung beschrieb , beinhaltete jedoch keine Konzepte wie die statistische Signifikanz und die Nullhypothese , die bei statistischen Hypothesentests verwendet werden . Im gleichen Zeitraum wurden separat moderne statistische Methoden zur Bewertung der Signifikanz von Stichprobendaten entwickelt. Diese Arbeit wurde 1908 von William Sealy Gosset durchgeführt, als er den Z-Test änderte , um Student's t-Test zu schaffen .

Mit dem Wachstum des Internets sind neue Möglichkeiten zur Stichprobenziehung von Populationen verfügbar geworden. Google-Ingenieure führten im Jahr 2000 ihren ersten A/B-Test durch, um die optimale Anzahl von Ergebnissen für die Anzeige auf der Ergebnisseite der Suchmaschine zu ermitteln. Der erste Test war aufgrund von Störungen, die aus langsamen Ladezeiten resultierten, nicht erfolgreich. Spätere Forschung zu A/B-Tests würde fortgeschrittener sein, aber die Grundlage und die zugrunde liegenden Prinzipien bleiben im Allgemeinen gleich, und im Jahr 2011, 11 Jahre nach dem ersten Test von Google, führte Google über 7.000 verschiedene A/B-Tests durch.

Im Jahr 2012 erstellte ein Microsoft- Mitarbeiter, der an der Suchmaschine Microsoft Bing arbeitete , ein Experiment, um verschiedene Möglichkeiten der Anzeige von Werbeüberschriften zu testen. Innerhalb von Stunden führte das alternative Format zu einer Umsatzsteigerung von 12 % ohne Auswirkungen auf die Messwerte zur Nutzererfahrung. Heute führen Unternehmen wie Microsoft und Google jedes Jahr über 10.000 A/B-Tests durch.

Viele Unternehmen verwenden heute den Ansatz des "Designed Experiment", um Marketingentscheidungen zu treffen, in der Erwartung, dass relevante Stichprobenergebnisse positive Conversion-Ergebnisse verbessern können. Dies ist eine zunehmend gängige Praxis, da die Tools und das Know-how in diesem Bereich wachsen.

Beispiele

E-Mail Marketing

Ein Unternehmen mit einer Kundendatenbank von 2.000 Menschen entscheidet eine E - Mail - Kampagne mit einem Rabatt - Code zu schaffen , um Verkäufe über seine Website zu generieren. Es erstellt zwei Versionen der E-Mail mit unterschiedlichen Call-to-Action (der Teil der Kopie, der Kunden dazu auffordert, etwas zu tun – im Falle einer Verkaufskampagne einen Kauf zu tätigen) und einen identifizierenden Aktionscode.

An 1.000 Personen wird die E-Mail mit dem Call-to-Action verschickt: "Angebot endet diesen Samstag! Code A1 verwenden",
und an weitere 1.000 Personen wird die E-Mail mit dem Call-to-Action verschickt: "Angebot endet bald! Code B1 verwenden".

Alle anderen Elemente von Text und Layout der E-Mails sind identisch. Das Unternehmen überwacht dann, welche Kampagne die höhere Erfolgsquote hat, indem es die Verwendung der Aktionscodes analysiert. Die E-Mail mit dem Code A1 hat eine Antwortrate von 5 % (50 der 1.000 per E-Mail gesendeten Personen haben den Code verwendet, um ein Produkt zu kaufen), und die E-Mail mit dem Code B1 hat eine Antwortrate von 3 % (30 der Empfänger haben den Code verwendet, um ein Produkt kaufen). Das Unternehmen stellt daher fest, dass in diesem Fall der erste Call To Action effektiver ist und wird ihn in zukünftigen Verkäufen verwenden. Ein differenzierterer Ansatz würde die Anwendung statistischer Tests beinhalten, um festzustellen, ob die Unterschiede in den Antwortraten zwischen A1 und B1 statistisch signifikant sind (d. h., dass die Unterschiede mit hoher Wahrscheinlichkeit real, wiederholbar und nicht zufällig sind).

Im obigen Beispiel besteht der Zweck des Tests darin, festzustellen, wie Kunden am effektivsten zum Kauf animiert werden können. Wäre das Ziel des Tests jedoch gewesen, zu sehen, welche E-Mail die höhere Klickrate generiert – also die Anzahl der Personen, die nach Erhalt der E-Mail tatsächlich auf die Website klicken –, dann wären die Ergebnisse möglicherweise anders ausgefallen.

Obwohl zum Beispiel mehr Kunden, die den Code B1 erhalten, auf die Website zugegriffen haben, weil im Call-to-Action das Enddatum der Aktion nicht angegeben ist, fühlen viele von ihnen möglicherweise keine Dringlichkeit, einen sofortigen Kauf zu tätigen. Hätte der Test also lediglich den Zweck gehabt, zu sehen, welche E-Mail mehr Traffic auf die Website bringt, wäre die E-Mail mit dem Code B1 möglicherweise erfolgreicher gewesen. Ein A/B-Test sollte ein definiertes Ergebnis haben, das messbar ist, wie die Anzahl der getätigten Verkäufe, die Klickraten-Conversion oder die Anzahl der Personen, die sich anmelden/registrieren.

A/B-Tests für Produktpreise

A/B-Tests können verwendet werden, um den richtigen Preis für das Produkt zu bestimmen, da dies vielleicht eine der schwierigsten Aufgaben ist, wenn ein neues Produkt oder eine neue Dienstleistung eingeführt wird.

A/B-Tests (insbesondere gültig für digitale Güter) sind eine hervorragende Möglichkeit, um herauszufinden, welcher Preis und welches Angebot den Gesamtumsatz maximieren.

Politische A/B-Tests

A/B-Tests werden nicht nur für Konzerne eingesetzt, sondern treiben auch politische Kampagnen voran . Im Jahr 2007 nutzte Barack Obamas Präsidentschaftswahlkampf A/B-Tests, um Online-Anziehungskraft zu gewinnen und zu verstehen, was die Wähler von dem Präsidentschaftskandidaten sehen wollten. Obamas Team testete beispielsweise vier verschiedene Schaltflächen auf ihrer Website, die Benutzer dazu veranlassten, sich für Newsletter anzumelden. Darüber hinaus verwendete das Team sechs verschiedene begleitende Bilder, um Benutzer anzulocken. Durch A/B-Tests konnten die Mitarbeiter feststellen, wie sie effektiv Wähler anziehen und zusätzliches Interesse wecken können.

HTTP-Routing und API-Funktionstests

HTTP-Router mit A/B-Tests

A/B-Tests sind bei der Bereitstellung einer neueren Version einer API sehr verbreitet. Zum Testen der Benutzererfahrung in Echtzeit wird ein HTTP- Layer-7- Reverse-Proxy so konfiguriert, dass N % des HTTP- Verkehrs in die neuere Version der Back-End-Instanz geleitet werden, während die verbleibenden 100-N % des HTTP-Verkehrs treffen die (stabile) ältere Version des Back-End-HTTP-Anwendungsdienstes. Dies geschieht normalerweise, um die Exposition von Kunden gegenüber einer neueren Backend-Instanz so zu begrenzen, dass bei einem Fehler in der neueren Version nur N % der gesamten Benutzeragenten oder Clients betroffen sind, während andere zu einem stabilen Backend geleitet werden ist ein üblicher Ingress-Kontrollmechanismus.

Segmentierung und Ausrichtung

A/B-Tests wenden am häufigsten dieselbe Variante (zB Benutzeroberflächenelement) mit gleicher Wahrscheinlichkeit auf alle Benutzer an. Unter bestimmten Umständen können die Reaktionen auf Varianten jedoch heterogen sein. Das heißt, während Variante A insgesamt eine höhere Rücklaufquote aufweisen kann, kann Variante B innerhalb eines bestimmten Segments des Kundenstamms eine noch höhere Rücklaufquote aufweisen.

Im obigen Beispiel hätte die Aufschlüsselung der Antwortquoten nach Geschlecht beispielsweise wie folgt aussehen können:

Geschlecht	Gesamt	Männer	Frauen
Gesamtzahl der Sendungen	2.000	1.000	1.000
Gesamtantworten	80	35	45
Variante A	50/ 1.000 (5%)	10/ 500 (2%)	40/ 500 (8%)
Variante B	30/ 1.000 (3%)	25/ 500 (5%)	5/ 500 (1%)

In diesem Fall sehen wir, dass während Variante A insgesamt eine höhere Rücklaufquote aufwies, Variante B bei Männern sogar eine höhere Rücklaufquote aufwies.

Infolgedessen könnte das Unternehmen als Ergebnis des A/B-Tests eine segmentierte Strategie wählen und in Zukunft Variante B an Männer und Variante A an Frauen senden. In diesem Beispiel würde eine segmentierte Strategie zu einem Anstieg der erwarteten Antwortraten von bis führen – was einem Anstieg von 30 % entspricht. ${\textstyle 5\%={\frac {40+10}{500+500}}}$ ${\textstyle 6,5\%={\frac {40+25}{500+500}}}$

Wenn vom A/B-Test segmentierte Ergebnisse erwartet werden, sollte der Test von vornherein so konzipiert sein, dass er gleichmäßig auf die wichtigsten Kundenattribute wie das Geschlecht verteilt wird. Das heißt, der Test sollte sowohl (a) eine repräsentative Stichprobe von Männern vs. Frauen enthalten als auch (b) Männer und Frauen zufällig jeder „Variante“ (Variante A vs. Variante B) zuordnen. Andernfalls kann es zu einer Verzerrung des Experiments und zu ungenauen Schlussfolgerungen aus dem Test kommen.

Dieser Segmentierungs- und Targeting-Ansatz kann weiter verallgemeinert werden, um mehrere Kundenattribute anstelle eines einzelnen Kundenattributs – beispielsweise Alter und Geschlecht der Kunden – einzubeziehen, um nuanciertere Muster zu erkennen, die in den Testergebnissen vorhanden sein können.

Siehe auch

Verweise

Languages

In other projects