Stichprobengröße bei Nutzertests im Labor: Wie viele Testpersonen sind wirklich nötig?
Die Größe der Stichprobe zu bestimmen ist immer wieder ein wichtiges Thema. Schließlich hängen die Kosten für einen Usability-Test in hohem Maße von der Anzahl der Teilnehmer ab. Diese müssen rekrutiert und incentiviert werden und dann müssen die Tests schließlich durchgeführt werden. Umso mehr Testpersonen man einlädt, desto länger dauer die Erhebung. Grund genug also, sich vorab genau zu überlegen, wie viele Testpersonen man wirklich braucht.
Bei diesem Thema landet man zwangsläufig zuerst bei Herrn Nielsen. Sein Artikel in der „Alertbox“ aus dem Jahr 2000 wurde unzählige Male zitiert und verwendet. Doch ist er auch heute noch aktuell? Kann man einen Usability-Test mit 5 Testpersonen durchführen?
Jakob Nielsen veröffentlichte eine Formel, auf deren Grundlage sich die Voraussagung treffen ließ, dass man bei einer Stichprobe mit 5 Testpersonen bereits 85% aller Usability-Probleme identifiziert. Diese Formel lautete N(1-(1-L)n). Dabei ist N die Anzahl aller vorhandenen Usability-Probleme und L der Anteil der Probleme, der sich durch eine einzige Testperson identifizieren lässt. Dieser Anteil ist 31%, wie es sich laut Autor in einer Vielzahl von Usability-Tests herausgestellt hatte. Da jede weitere Testperson zwar auch neue Probleme ans Tageslicht bringt, sich der Anteil an „Überlappungen“, also der Probleme, die mehrere Testpersonen aufdecken, aber stetig erhöht, ergibt sich letztendlich folgende Kurve:
Die Formel und das altbekannte Diagramm wurden übrigens schon einige Jahre zuvor entdeckt. So stellte Virzi bereits 1992 den gesättigt asymptotischen Verlauf der Kurve fest. Unterschieden wurde dazu nach Usability-Problemen mit unterschiedlicher Aufdeckungswahrscheinlichkeit. So lassen sich bereits 80% der Probleme mit einer Aufdeckungswahrscheinlichkeit von 65% von 2 Testpersonen identifizieren. Haben die Probleme eine Aufdeckungswahrscheinlichkeit von nur 20%, so braucht man 8 Testpersonen um 80% der Probleme zu identifizieren.
Im Mittel ergibt sich auch hier eine Stichprobengröße von 4-5 Testpersonen. Das klingt erstmal nicht viel – 5 Personen im Usability-Test. Sind unsere Usability-Tests also immer viel umfangreicher als nötig? Könnten wir uns die restlichen 5 oder 10 Personen sparen?
Die „Gretchen-Frage“: Kenne Sie Ihre Zielgruppen?
Die Stichprobengröße hängt neben dem angestrebten Anteil an aufzudeckenden Usability-Problemen von einer weiteren wichtigen Größe ab: Wie viele verschiedene Zielgruppen (Subgruppen) gibt es denn? Caulton wies im Jahr 2001 darauf hin, dass die Wahrscheinlichkeit, dass ein Teilnehmer ein Usability-Problem aufdeckt, für die gesamte Subgruppe gleich sein muss, wenn man diese als „homogen“ bezeichnen möchte. Merkmale, die diese Homogenität verletzen können, sind zum Beispiel die Internet-Erfahrung, Kenntnis oder Unkenntnis des Untersuchungsgegenstandes, die Online-Kaufhäufigkeit, das Alter, Nutzungsgewohnheiten, etc..
An dieser Stelle bestätigt sich wieder einmal die Bedeutung des Wissens um die Zielgruppe. Wenn man überhaupt nicht genau sagen kann, wer sich auf der Website bewegt oder an wen sich die Anwendung richtet, scheitert man schon an der zuverlässigen Bestimmung der richtigen Stichprobengröße. Setzt man diese dann zu niedrig an, werden zu wenige Usability-Probleme aufgedeckt. Lädt man vorsorglich mehr Testpersonen ein, kann die Ausgabe sinnlos sein. Wohlmöglich „vergisst“ man bestimmte Zielgruppe oder diese sind im Sample unterrepräsentiert. Denn es gibt zwar Probleme, für die die Wahrscheinlichkeit der Aufdeckung gleich hoch ist („Shared Problems“), aber eben auch solche, die je nach Subgruppe mit unterschiedlicher Wahrscheinlichkeit auftreten („Unique Problems“).
Ganz so streng kann man zwar in der Praxis oft nicht trennen, dennoch hilft diese Einteilung, die Stichprobengröße für Tests mit mehreren Subgruppen zu bestimmen. Die Teilnehmerzahl wird also im Wesentlichen durch zwei Komponenten beeinflusst:
- Heterogenität der Stichprobe
- Anteil zielgruppenspezifischer Probleme
Nachfolgende Graphik soll den Zusammenhang verdeutlichen:
Alter Hut oder zeitlos wertvoll?
Auch wenn die beschriebenen Regeln und Erkenntnisse nun schon ca. 10 Jahre alt sind, haben sie aus meiner Sicht kaum an Gültigkeit verloren. In zahlreichen selbst durchgeführten Nutzertests haben sich diese Regeln bestätigt. Da sich die Erkenntnisse jedoch ausschließlich auf die Gewinnung von Usability-Problemen beziehen, muss man vorsichtig sein.
Denn die Anforderungen an Nutzertests steigen und die Anzahl an verfügbaren Methoden, die in einem Lab-Test kombiniert werden können, hat zugenommen. Auch haben sich die Methoden und technischen Möglichkeiten weiterentwickelt. Immer häufiger beziehen sich die Fragestellungen in Kundenprojekten nicht mehr rein auf die Bedienbarkeit, sondern zum Beispiel auch auf die Wahrnehmung von Seitenbereichen/Elementen oder auf den Inspirationscharakter einer Website/Anwendung. In diesen Fällen ist der Einsatz weiterer Instrumente und Methoden sinnvoll. So wird vielleicht noch eine Blickverlaufsmessung durchgeführt oder die emotionale Aktivierung während der Nutzung gemessen. Derartige Verfahren können die benötigte Anzahl an Testpersonen beeinflussen, um wirklich valide Erkenntnisse zu gewinnen (vgl.: Blickdatenmessung: Wie viele Untersuchungsteilnehmer sind nötig? ). Gleichzeitig liefern sie jedoch auch sehr wertvolle Erkenntnisse zur Weiterentwicklung einer Website, mobilen Anwendung oder Software.
Der klassische Usability-Test im Labor wurde also in der Zwischenzeit um viele andere Instrumente erweitert. Daher sollten sowohl die klassischen Regeln zur Bestimmung der Stichprobengröße herangezogen werden, als auch die Erfordernisse bzgl. weiterer eingesetzter Methoden beachtet werden.
Zentral ist und bleibt daher eine sorgfältige Vorbereitung. Vor Beginn des Projektes müssen sich alle Beteiligten auf die Ziele und zentralen Fragestellungen verständigen. Nur wenn diese eindeutig festgelegt sind, kann die geeignete Methode oder Methodenkombination gewählt und die optimale Stichprobengröße bestimmt werden. Fundamental sind daneben detaillierte Informationen zu den Zielgruppen. Erst wenn diese bestimmt und beschrieben wurde, sollten weitere Analysen folgen.
Quellen, weiterführende Literatur und Links:
Baty, S. (2008): Sample Size Oddities, UX Matters: http://www.uxmatters.com/mt/archives/2008/11/sample-size-oddities.php
Caulton, D.A. (2001): Relaxing the Homogeneity Assumption in Usability Testing, in: Behavior & Information Technology, Vol. 20, No. 1-2, pp. 107
Nielsen, J. (2000): Why You Only Need to Test with 5 Users, Jakob Nielsen’s Alertbox: http://www.useit.com/alertbox/20000319.html
Virzi, R.A. (1992): Refining the Test Phase of Usability Evaluation: How Many Subjects is Enough?, in: Human Factors, Vol. 34, No. 4, pp. 457-468
Yom, M. (2003): Web Usability von Online Shops, better solutions Verlag Axel Gierspeck
Hallo Frau Ludewik,
vielen Dank für den spannenden Artikel. Wir führen unsere Tests ebenfalls zielgruppenspezifisch durch. Nur ist hierbei immer wieder auffällig das bei jeder Zielgruppe fast immer die gleichen Usability-Fehler auftreten. So hat z.B. ein Proband mit hoher technischer Affinität (Proband A) die gleichen Probleme mit der Web-Anwendung wie ein Proband mit geringer technischer Affinität (Proband B). Der Unterschied liegt lediglich in der Schwere des Problems. Während man das Usability-Problem bei Proband A als Schönheitsfehler bezeichnen kann, stellt es für Proband B einen Blocker dar. Dies verhält sich auch ähnlich bei anderen Nutzermerkmalen wie Alter oder Internetnutzung. Wirkliche Abweichungen bei den Usability-Problemen zwischen den Zielgruppen stellen wir nur sehr selten fest.
Warum ist das so? Ist unsere Stichprobe zu klein? Unterscheiden sich unsere Zielgruppen nicht stark genug von einander?
Was wir sehr oft feststellen ist das die Zielgruppen sich in ihren Funktionsanforderungen sehr stark voneinander unterscheiden.
Viele Grüße
Manuel Panzirsch
Hallo Herr Panzirsch,
vielen Dank für Ihren Kommentar. Vielleicht liegt es wirklich an zu ähnlichen Zielgruppen. Interessant wäre, um was für eine Web-Anwendung es sich überhaupt handelt. Sicherlich spielt es eine Rolle, wie umfangreich der Testgegenstand ist und in welchem Kontext er genutzt wird. Können Sie dazu eine Aussage machen?
Hallo Frau Ludewik,
im Zuge meiner Bachelorarbeit bin ich auf diesen Artikel gestoßen.
In dieser will ich die Teilnehmergröße für einen Nutzertest mit mehreren Subgruppen bestimmen.
Allerdings kann nicht nachvollziehen, wie Sie auf die Werte in der Tabelle in Abb.2 gekommen sind.
Welche Formel haben Sie hierfür verwendet?
Viele Grüße
Rene Müller
Hallo Herr Müller,
Frau Ludewig befindet sich aktuell in Elternzeit. Der Beitrag ist allerdings auch von März 2011, sodass ich meine Hand nicht dafür ins Feuer halten kann, wie aktuell er noch ist.
Viele Grüße
Kirsten Bringmann
Redaktionsleitung