Stichprobengröße bei Nutzertests im Labor: Wie viele Testpersonen sind wirklich nötig?

Mann mit Taschenrechner

Die Größe der Stichprobe zu bestimmen ist immer wieder ein wichtiges Thema. Schließlich hängen die Kosten für einen Usability-Test in hohem Maße von der Anzahl der Teilnehmer ab. Diese müssen rekrutiert und incentiviert werden und dann müssen die Tests schließlich durchgeführt werden. Umso mehr Testpersonen man einlädt, desto länger dauer die Erhebung. Grund genug also, sich vorab genau zu überlegen, wie viele Testpersonen man wirklich braucht.

Bei diesem Thema landet man zwangsläufig zuerst bei Herrn Nielsen. Sein Artikel in der „Alertbox“ aus dem Jahr 2000 wurde unzählige Male zitiert und verwendet. Doch ist er auch heute noch aktuell? Kann man einen Usability-Test mit 5 Testpersonen durchführen?

Jakob Nielsen veröffentlichte eine Formel, auf deren Grundlage sich die Voraussagung treffen ließ, dass man bei einer Stichprobe mit 5 Testpersonen bereits 85% aller Usability-Probleme identifiziert. Diese Formel lautete N(1-(1-L)n). Dabei ist N die Anzahl aller vorhandenen Usability-Probleme und L der Anteil der Probleme, der sich durch eine einzige Testperson identifizieren lässt. Dieser Anteil ist 31%, wie es sich laut Autor in einer Vielzahl von Usability-Tests herausgestellt hatte. Da jede weitere Testperson zwar auch neue Probleme ans Tageslicht bringt, sich der Anteil an „Überlappungen“, also der Probleme, die mehrere Testpersonen aufdecken, aber stetig erhöht, ergibt sich letztendlich folgende Kurve:

Zusammenhang: Anzahl von Testpersonen und Anteil identifizierter Usability-Probleme

Abb. 1: Zusammenhang von der Anzahl von Testpersonen und dem Anteil identifizierter Usability-Probleme (www.useit.com)

Die Formel und das altbekannte Diagramm wurden übrigens schon einige Jahre zuvor entdeckt. So stellte Virzi bereits 1992 den gesättigt asymptotischen Verlauf der Kurve fest. Unterschieden wurde dazu nach Usability-Problemen mit unterschiedlicher Aufdeckungswahrscheinlichkeit. So lassen sich bereits 80% der Probleme mit einer Aufdeckungswahrscheinlichkeit von 65% von 2 Testpersonen identifizieren. Haben die Probleme eine Aufdeckungswahrscheinlichkeit von nur 20%, so braucht man 8 Testpersonen um 80% der Probleme zu identifizieren.

Im Mittel ergibt sich auch hier eine Stichprobengröße von 4-5 Testpersonen. Das klingt erstmal nicht viel – 5 Personen im Usability-Test. Sind unsere Usability-Tests also immer viel umfangreicher als nötig? Könnten wir uns die restlichen 5 oder 10 Personen sparen?

Die „Gretchen-Frage“: Kenne Sie Ihre Zielgruppen?

Die Stichprobengröße hängt neben dem angestrebten Anteil an aufzudeckenden Usability-Problemen von einer weiteren wichtigen Größe ab: Wie viele verschiedene Zielgruppen (Subgruppen) gibt es denn? Caulton wies im Jahr 2001 darauf hin, dass die Wahrscheinlichkeit, dass ein Teilnehmer ein Usability-Problem aufdeckt, für die gesamte Subgruppe gleich sein muss, wenn man diese als „homogen“ bezeichnen möchte. Merkmale, die diese Homogenität verletzen können, sind zum Beispiel die Internet-Erfahrung, Kenntnis oder Unkenntnis des Untersuchungsgegenstandes, die Online-Kaufhäufigkeit, das Alter, Nutzungsgewohnheiten, etc..

An dieser Stelle bestätigt sich wieder einmal die Bedeutung des Wissens um die Zielgruppe. Wenn man überhaupt nicht genau sagen kann, wer sich auf der Website bewegt oder an wen sich die Anwendung richtet, scheitert man schon an der zuverlässigen Bestimmung der richtigen Stichprobengröße. Setzt man diese dann zu niedrig an, werden zu wenige Usability-Probleme aufgedeckt. Lädt man vorsorglich mehr Testpersonen ein, kann die Ausgabe sinnlos sein. Wohlmöglich „vergisst“ man bestimmte Zielgruppe oder diese sind im Sample unterrepräsentiert. Denn es gibt zwar Probleme, für die die Wahrscheinlichkeit der Aufdeckung gleich hoch ist („Shared Problems“), aber eben auch solche, die je nach Subgruppe mit unterschiedlicher Wahrscheinlichkeit auftreten („Unique Problems“).

Ganz so streng kann man zwar in der Praxis oft nicht trennen, dennoch hilft diese Einteilung, die Stichprobengröße für Tests mit mehreren Subgruppen zu bestimmen. Die Teilnehmerzahl wird also im Wesentlichen durch zwei Komponenten beeinflusst:

  • Heterogenität der Stichprobe
  • Anteil zielgruppenspezifischer Probleme

Nachfolgende Graphik soll den Zusammenhang verdeutlichen:

Tabelle von Caulton

Abb. 2: Anzahl der benötigten Testpersonen in Abhängigkeit von der Anzahl der Subgruppen und dem Anteil gruppenspezifischer Probleme (Caulton 2001)

Alter Hut oder zeitlos wertvoll?

Auch wenn die beschriebenen Regeln und Erkenntnisse nun schon ca. 10 Jahre alt sind, haben sie aus meiner Sicht kaum an Gültigkeit verloren. In zahlreichen selbst durchgeführten Nutzertests haben sich diese Regeln bestätigt. Da sich die Erkenntnisse jedoch ausschließlich auf die Gewinnung von Usability-Problemen beziehen, muss man vorsichtig sein.

Denn die Anforderungen an Nutzertests steigen und die Anzahl an verfügbaren Methoden, die in einem Lab-Test kombiniert werden können, hat zugenommen. Auch haben sich die Methoden und technischen Möglichkeiten weiterentwickelt. Immer häufiger beziehen sich die Fragestellungen in Kundenprojekten nicht mehr rein auf die Bedienbarkeit, sondern zum Beispiel auch auf die Wahrnehmung von Seitenbereichen/Elementen oder auf den Inspirationscharakter einer Website/Anwendung. In diesen Fällen ist der Einsatz weiterer Instrumente und Methoden sinnvoll. So wird vielleicht noch eine Blickverlaufsmessung durchgeführt oder die emotionale Aktivierung während der Nutzung gemessen. Derartige Verfahren können die benötigte Anzahl an Testpersonen beeinflussen, um wirklich valide Erkenntnisse zu gewinnen (vgl.: Blickdatenmessung: Wie viele Untersuchungsteilnehmer sind nötig? ). Gleichzeitig liefern sie jedoch auch sehr wertvolle Erkenntnisse zur Weiterentwicklung einer Website, mobilen Anwendung oder Software.

Der klassische Usability-Test im Labor wurde also in der Zwischenzeit um viele andere Instrumente erweitert. Daher sollten sowohl die klassischen Regeln zur Bestimmung der Stichprobengröße herangezogen werden, als auch die Erfordernisse bzgl. weiterer eingesetzter Methoden beachtet werden.

Zentral ist und bleibt daher eine sorgfältige Vorbereitung. Vor Beginn des Projektes müssen sich alle Beteiligten auf die Ziele und zentralen Fragestellungen verständigen. Nur wenn diese eindeutig festgelegt sind, kann die geeignete Methode oder Methodenkombination gewählt und die optimale Stichprobengröße bestimmt werden. Fundamental sind daneben detaillierte Informationen zu den Zielgruppen. Erst wenn diese bestimmt und beschrieben wurde, sollten weitere Analysen folgen.

Quellen, weiterführende Literatur und Links:

Baty, S. (2008): Sample Size Oddities, UX Matters: http://www.uxmatters.com/mt/archives/2008/11/sample-size-oddities.php

Caulton, D.A. (2001): Relaxing the Homogeneity Assumption in Usability Testing, in: Behavior & Information Technology, Vol. 20, No. 1-2, pp. 107

Nielsen, J. (2000): Why You Only Need to Test with 5 Users, Jakob Nielsen’s Alertbox: http://www.useit.com/alertbox/20000319.html

Virzi, R.A. (1992): Refining the Test Phase of Usability Evaluation: How Many Subjects is Enough?, in: Human Factors, Vol. 34, No. 4, pp. 457-468

Yom, M. (2003): Web Usability von Online Shops, better solutions Verlag Axel Gierspeck

Portraitfoto: Elske Ludewig

Elske Ludewig

Principal UX-Consultant & Managing Partner

eresult GmbH

Bisher veröffentlichte Beiträge: 111

5 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.