A/B-Tests sind wertlos…
wenn sie ohne Nutzerbefragung durchgeführt werden!

Gleich vorab: A/B-Tests sollten zur Toolbox von Shop-Betreibern und Usability-Consultants genauso dazugehören wie z.B. Labtests – keine Frage.

Ich möchte an dieser Stelle die Grundproblematik jeder Art von Erhebung aufzeigen, bei der keine Segementierung und differenzierte Gruppenanalyse in Bezug auf gemessene Daten vorgenommen wird (und einfach „über alle Untersuchungsteilnehmer“ Daten ausgewiesen werden).

Nehmen wir an Sie führen einen Test zur Gestaltung des Warenkorb-Teasers durch. Dabei setzen Sie zwei Varianten um und führen einen A/B-Test durch:

  • Variante 1 – „der Klassiker“ (Status Quo)
    Der Teaser wird mit Warenkorb bezeichnet. Zudem ist ein Warenkorb bzw. Einkaufswagen im Teaser abgebildet.
  • Variante 2 – „die Unkonventionelle“
    Bei dieser Variante wird eine Einkaufstasche im Teaser abgebildet, und ein entsprechendes Wording verwendet.

In dem A/B-Test werden verschiedene Zielgrößen gemessen. Unter anderem die Anzahl an Klicks auf den Button „zur Kasse“, welcher in beiden Teaservarianten vorhanden, identisch gestaltet und positioniert ist.

Ergebnis des A/B-Tests:
Variante 1 – der Klassiker gewinnt. Und zwar auf fast allen Zielgrößen.

Sollte und kann das Unternehmen nun die Ableitung vornehmen: „Wir belassen alles so wie es ist, der Status Quo (Warenkorb) kann beibehalten werden.“?

Das kommt drauf an! – und zwar auf das im Test gezeigte Verhalten verschiedener Nutzer-/Kundengruppen!

Der für den A/B-Test verantwortliche Mitarbeiter sollte sich unbedingt die Frage stellen, wie unterschiedliche Zielgruppen oder Nutzer-/Kundensegmente auf die beiden Varianten „reagiert“ haben.
Erst mit Hilfe solcher Gruppenbetrachtungen bzw. –analysen können entscheidungsrelevante Erkenntnisse aus den Daten abgeleitet werden.

Beispielsweise erkennt der für den Test verantwortliche Mitarbeiter, dass Frauen deutlich vorteilhafter auf die Variante 2 (Einkaufstasche) reagiert haben, d.h. ausgehend von diesem Teaser häufiger auf den Button „zur Kasse“ geklickt und in der Folge auch mehr eingekauft haben.

Weitere Gruppenanalysen führen zu der Erkenntnis, dass ältere Nutzerinnen und auch Kundinnen (50plus), im Vergleich zu jüngeren Shop-Besucherinnen (30-45 Jahre), signifikant öfter auf den Button „zur Kasse“ geklickt haben, wenn die Variante 1 (klassischer Warenkorbteaser) im Testzeitraum zur Auslieferung gekommen ist.

Mit Hilfe dieser zusätzlichen Informationen – die über das Testergebnis „Variante 1 schlägt Variante 2“ hinausgehen – kann die Geschäftsleitung in Absprache mit dem Testleiter eine Entscheidung treffen, die auf zuverlässiger und ausreichender Datenbasis beruht.

Hat die Geschäftsleitung z. B. die strategische Zielvorgabe vorgegeben (bekommen), dass in den kommenden 4 Jahren vor allem Frauen im Alter von 30-45 Jahren als Kundinnen gewonnen und gehalten werden müssen, dann sollte die

Variante 2 – „die Unkonventionelle“

eingeführt werden – die Gruppenanalysen lassen keine andere Entscheidung zu.

Eine ausschließliche Betrachung der Verhaltensdaten aus dem A/B-Test reicht also nicht aus, will man die „richtige Entscheidung“ herbeiführen. Der Testleiter und die Geschäftsleitung brauchen auch Informationen über die Nutzer/-innen, welche am A/B-Test teilgenommen haben.

Solche „nutzerbezogenen“ Daten lassen sich über klassische Verfahren einer Online-Befragung erheben.
Verbindet der Testleister die Nutzerdaten aus einer Befragung mit den (Klick-/Verhaltens-) Daten des A/B-Tests, dann können die oben aufgezeigten Gruppenanalysen durchgeführt, und somit die richtigen Maßnahmen abgeleitet werden.

Klingt einfach – wie immer steckt der Teufel im Detail, aber es geht. Es gibt bereits Content-Sites, Reiseportale und Online-Shops die derart vorgehen, und somit die richtigen Entscheidungen aus A/B-Tests ableiten.

Sie auch? Freue mich auf Ihre Diskussionsbeiträge und Erfahrungen mit A/B-Tests, kombiniert mit Nutzerbefragungen.

12 Gedanken zu „A/B-Tests sind wertlos…
wenn sie ohne Nutzerbefragung durchgeführt werden!

  1. Pingback: Twitter Trackbacks for A/B-Tests sind wertlos…wenn sie ohne Nutzerbefragung durchgeführt werden! | usabilityblog.de [usabilityblog.de] on Topsy.com

  2. Moritz

    Hallo Thorsten,

    im Großen und Ganzen stimme ich Deinem Post voll und ganz zu.

    Dennoch möchte ich zwei Anmerkungen geben:

    1) Grenzt man die Masse in einem A/B oder MVT ein (z.B. wenn man neben der aggregierten Gesamtmasse auch Teilsegmente wie Frauen von 20-30 betrachet), so muss man auch die statistische Aussagekraft berücksichtigen. Die Eingrenzung senkt nämlich auch die Datengrundlage, auf welcher businessrelevante Entscheidungen getroffen werden.

    2) VOR einem Test sollte man solche Segmente festlegen und sich die Frage stellen ob man mit der Segmentierung einen Mehrwert erzielen kann. In dem von Dir o.g. Beispiel kann ich mir vorstellen dass es evtl nicht möglich sein wird die aus der Segmentierung gewonnenen Erkenntnisse auch umzusetzen – denn oftmals sind Nutzer noch nicht gemäß der definierten Segmente identifizierbar, wenn Sie im Shop surfen. Oft wird erst im Bestellprozesse selbst erkannt um welchen „Nutzertyp“ es sich handelt – somit ist eine segmentierte Content-Auslieferung im Livebetrieb ggfs. nicht möglich (sondern erst wenn der Nutzer im Bestellprozess ist). Daher ist es wichtig das Test-Design eines A/B oder MVTs zu durchdenken und solche Tücken zu beachten.

    Verknüpft man das wie von Dir beschrieben mit Marktforschungsinstrumenten, so kann ggfs. entgegengewirkt werden – aber das haben wir beide ja schon oft gepredigt 🙂

    Viele Grüße,
    Moritz

    Antworten
  3. Pingback: E-Commerce-News des Tages: xt:commerce, K&L, A/B-Testing… » Von Olaf Groß » shopbetreiber-blog.de

  4. Markus Baersch

    … vielleicht liegt es an der Provokation im Titel, aber bei mir bleibt der Eindruck hängen, dass das Problem (wie von Moritz in Punkt 2 schon angedeutet) vielmehr die Tatsache ist, dass der exemplarische A/B-Test _technisch_ vielleicht einwandfrei sein mag, aber eigentlich keine brauchbare Hypothese dahinter steckt. Wer aber „ins Blaue“ drauflostestet, kann nachher natürlich auch alle nacheliegenden Schlüsse aus den Ergebnissen ziehen, wie es gerade gewünscht ist.

    Nicht, dass ich den meisten Aussagen im Beitrag nicht zustimmen kann, aber die Behauptung, die der Titel daraus ableitet, steht m. E. auf sehr wackeligen Füßen und ist auch nicht mit meinen eigenen Beobachtungen zu vereinbaren. Sicherlich ist auch Segmentierung oft bei der Auswertung und / oder Ergebung von Daten ebenso relevant wie bei entsprechenden Tests… aber daraus abzuleiten, dass Tests ohne Segmentierung generell wertlos sind, erscheint mir doch zu allgemein, denn es gilt vielleicht für dieses Beispiel, aber nicht für alle.

    Ob ein Problem aus Nutzerbefragungen, der Webanalyse, einer Expertenmeinung oder auch nur der Vermutung stammt, ist auch eher unerheblich… wenn anschließend eine möglichst durchdachte Analyse erfolgt und ein konkreter Versuch unternommen wird, mit 1..n sinnvoll definierten Varianten eine Lösung herbeizuführen. Ob diese dann nur einem bestimmten Segment eingesetzt werden sollten oder „die Masse“ komplett (oder zufällig ausgewählt anteilig) am Test teilnehmen kann oder nicht, liegt vielmehr an der Natur des Problems. Und solange man auf der eigenen Website nicht in der Lage ist, verschiedenen Besuchersegmenten ggf. auch unterschiedlich gestaltete Inhalte anzubieten, muss ohnehin eine Lösung gefunden werden, die über alle Segmente zu einer Verbesserung der entsprechenden Kennzahl(en) führt. Den Luxus leistet sich aber noch lange nicht jede Website…

    Abschließend: Gelingt eine Verbesserung im (ersten) Test nicht, erhält man dennoch i. d. R. eine Menge an Antworten und hilfreichen Fakten, die bei der Optimierung oder Hypothese dienlich sind. Das „Warum“ sollte man aber eben nicht am Ende des Tests ins Spiel bringen, sondern direkt in seiner Hypothese verankern, nachdem ein mehr oder weniger beliebiges „Was“ Auslöser für den Test gewesen ist. Unabhängig von Segmentierung 😉

    Viele Grüße
    Markus

    Antworten
  5. Hajö Allstädt

    Hi Thorsten,

    klingt prinzipiell sinnvoll, seine A/B Tests mit Befragungsergebnissen zu untermauern. Wir wissen alle, dass die reine Erhebung von Daten noch keinerlei Erkenntnisgewinn darstellt. Allerdings muss ich mich Moritz Kritik anschließen: Richtig sauber korreliert kriegt man Test und Befragung wohl eher nicht.

    Solange man sich dieser Unschärfe bewusst ist und weder die Befragung, noch den Test als die eine, einzige Wahrheit ansieht: Ja, die Kombi macht das Bild runder. Mein Tipp wäre allerdings, das Setup noch über einen längeren Zeitraum weiter zu tracken. Wer die Möglichkeit hat, sollte dann mit (anonymisierten) Userprofilen aus dem Backend nochmal validieren, ob die getroffen Annahmen sich auch tatsächlich erhärten lassen.
    Viele Grüße aus Düsseldorf,
    Hajö

    Antworten
  6. Horst Wigger

    Für mich ist eine wichtige Erkenntnis aus dem Beitrag, dass Untersuchungsergebnisse bzw. die abgeleiteten Handlungsempfehlungen immer in Relation zu den Unternehmenszielen stehen müssen.

    Antworten
  7. Gabriel Beck

    Hi Thorsten,

    interessanter und kontroverser Artikel! Top!
    Tatsächlich ist es in der Realität etwas schwieriger, die Daten und Erkenntnisse aus einer Befragung zu verknüpfen. Aber das wurde ja schon diskutiert.
    Welcher Aspekt noch nicht beleuchtet wurde:
    Wenn eine Variante besser konvertiert, dann „ernennt“ man diese auch als Testsieger. Der Website-Betreiber ist für den Moment daran interessiert, die Performance – sprich Sales – zu steigern. Das schafft er mit dem Testsieger.
    Wenn die Wunschzielgruppe allerdings auf eine andere Version besser anspricht, dann ist das vielen leider auch völlig „wurscht“, denn es zählt das Gesamt-Ergebnis. Erst wenn sich zeigt, dass die Performance nicht wünschenswert ist, fangen Website Betreiber an, zu optimieren.
    Das ist nicht unbedingt die Sichtweise, die ich für gut halte, allerdings ist es Realität.

    Auf den Punkt gebracht: Das Feedback von Usern einzuholen, ist auf jeden Fall hilfreich, um das Verhalten verstehen zu können. Eine Verknüpfung mit den Testdaten und Ergebnissen ist allerdings schwierig.Dennoch zählt immer noch der Performance Ansatz, weshalb die Frage nach dem Warum leider allzuoft nicht gestellt wird.

    Viele Grüße aus Augsburg
    Gabriel

    Antworten
  8. Thorsten Wilhelm

    Vielen Dank für die spannenden Kommentare auf meinen Beitrag zu AB-Tests und Nutzerumfragen. Alle Kommentare sind super interessant und gehaltvoll. Sie ergänzen und veredeln den Inhalt meines zugegeben provokanten Beitrags (Titels). Nochmals vielen Dank dafür.

    An dieser Stelle (im Usabilityblog) werde ich in folgenden Beiträgen dieses Thema vertiefen und auch Lösungsansätze aufzeigen (z. B. für die Fragestellung der technischen Verknüpfung von Tracking und Befragungsdaten, Lösungen für die Signifikanztestfrage (Welches Testverfahren geht auch bei kleinen Fallzahlen?) und auf die Sinnhaftigkeit von AB-/MVT an sich usw.). Ich freuen mich bereits jetzt über Ihre / eure Kommentare und Beiträge dazu.

    Abschließend noch einen Linktipp zum Thema:
    Titel: A/B Case Study: How MEC Found a 404 Page Winner
    –// http://www.getelastic.com/mec-ab-test/
    Autorin: Linda Bustos
    Alleine die Idee so was mal zu testen finde ich klasse.
    Viel Spass beim Lesen und mit dem Thema.

    Antworten
  9. Pingback: Themen im Mai 2010: AB-Tests, Guidelines zur Formulargestaltung und Augmented Reality | usabilityblog.de

  10. Pingback: A/B-Test sind niemals wertlos… und mit der richtigen Segmentierung doppelt soviel wert! | Conversion Boosting

  11. Pingback: Blogschau: Die eCommerce-Artikel der Woche (KW 20)

  12. Pingback: Blogschau: Die eCommerce-Artikel der Woche (KW 20) » eCommerce Lounge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.