Qualitative und quantitative Usability-Studien: Wie viele Testpersonen wirklich notwendig sind

"Mensch Ärger Dich nicht"-Figuren stehen in einer Gruppe. Eine einzelne Figur steht abseits.

Eine angemessene Stichprobe für seine Zielgruppe festzulegen, ist gar nicht so einfach. Überall liest man unterschiedlichste Zahlen, sei es bei qualitativen oder bei quantitativen Erhebungen.
Doch schonmal vorweg: Die eine Zahl gibt es nicht. Die Stichprobe ist abhängig von den unterschiedlichsten Faktoren, wie dem Kontext, der Branche oder der Diversität der Zielgruppen. Bevor Sie entscheiden, wie viele Personen Sie in eine Usability-Studie einbeziehen wollen, sollten Sie zunächst überlegen, was die wesentlichen Ziele Ihrer Studie sein werden.

Wer dennoch einen schnellen Überblick möglicher Richtwerte zur Anzahl von Testpersonen bei den wichtigsten Methoden der Nutzerforschung möchte, dem bietet bspw. die Nielsen Norman Group einen ersten Anhaltspunkt. Aber lassen Sie sich gesagt sein: „Es kommt darauf an… “.

MethodeStichprobengröße
Qualitatives Testing (thinking aloud-Methode)5
Card Sorting15
Quantitatives Testing20
Eyetracking (zur Erstellung von Heatmaps)39
(Quelle: Nielsen Norman Group)

Qualitativ

Bei qualitativen Studien reicht meist eine Handvoll Testpersonen aus. Aus unserer Erfahrung empfehlen wir zwischen 5 und 20 Personen. Testet man mit fünf Personen einer Zielgruppe, lassen sich fast genauso viele Probleme identifizieren, wie wenn man mit mehr Testteilnehmenden arbeitet. Mit jeder weiteren Person erhöhen sich die Testkosten, während sich die Ergebnisse schnell dem Punkt nähern, an dem die Rendite des Tests abnimmt. Auch wenn Sie ein größeres Budget haben: Schmeißen Sie es nicht aus dem Fenster raus, indem Sie in mehr Teilnehmende investieren, sondern geben Sie es für weitere Studien aus. Iterativ zu testen ist langfristig gesehen wertvoller als large-scale Testing. Es spart Geld und liefert schnelle Ergebnisse. 

Ein legitimer Grund, eine größere Nutzergruppe zu testen, sind z. B. unterschiedliche Zielgruppen einer Branche. Die Sinnhaftigkeit erhöht sich, wenn sich die unterschiedlichen Nutzergruppen auch tatsächlich entsprechend ihrer „Aufgaben“ voneinander abgrenzen. Sind die Nutzenden und ihre Aufgaben unterschiedlich, führen Sie am besten einen Test für jede Nutzergruppe durch. Hier würden evtl. sogar auch drei bis vier Personen pro Gruppe (!) ausreichen, da sich das Nutzererlebnis ja dennoch teilweise deckt.

Elske Ludewig hat sich schon einmal mit dem Thema im Blogbeitrag „Stichprobengröße bei Nutzertests im Labor: Wie viele Testpersonen sind wirklich nötig?“ beschäftigt.

Eyetracking

Die Kombination von Eyetracking mit einem klassischen Usability-Test ist durchaus sinnvoll. Jedoch sollten Eyetracking-Untersuchungen erst durchgeführt werden, wenn grafische Designs vorliegen, da Bilder, Farben und visuelle Gestaltung einen großen Einfluss auf die menschliche Wahrnehmung haben. Eyetracking eignet sich als Ergänzung für das klassische Usability Testing, niemals aber als Ersatz dafür. Eyetracking kann Ihnen zeigen, welche Elemente Ihrer Webseite von den Benutzern wahrgenommen und welche komplett übersehen werden oder in welcher Reihenfolge die Elemente einer Benutzeroberfläche erfasst werden. Doch die Antwort auf die Frage nach dem Warum liefert Ihnen erst der Usability-Test.

Um aussagekräftige Daten zu erhalten, insbesondere bei Heatmaps, bedarf es zwischen 30 und 50 Testpersonen. Bei der Rekrutierung sollte berücksichtigt werden, dass erfahrungsgemäß nicht alle Messungen klappen und nicht alle Teilnehmenden geeignet sind, weshalb zusätzlich eine Überrekrutierung einkalkuliert werden sollte.

Card Sorting

Auch hier gilt: Das Wissen über Nutzende und ihre Bedürfnisse ist für die Bestimmung der Testpersonenanzahl unerlässlich. Es unterstützt Sie bei der Erarbeitung einer schlüssigen Struktur und bei der Auswahl der richtigen Card Sorting-Variante.

Da sich die Ergebnisse des Card Sortings zwischen den einzelnen Personen stark unterscheiden können, sollte die Anzahl an Testpersonen groß genug sein. Wir empfehlen in der Regel eine Anzahl von mindestens zehn Personen bei moderierten Card Sortings, besser jedoch fünfzehn. Bei einem unmoderierten Online-Tree-Test hingegen sollten ca. 50 Personen (gerne aber auch eher 70-100) pro getestete Variante teilnehmen, um valide Ergebnisse zu erhalten.

Wenn Sie tiefer in das Thema Card Sorting einsteigen möchten, empfehlen wir Ihnen unseren Blogbeitrag „Tipps und Tricks für erfolgreiche Informationsarchitektur-Projekte – Vorbereitung“.

Quantitativ

Gebrauchstauglichkeit kann natürlich auch anhand von Qualitätsmerkmalen wie Lernzeit, Effizienz der Nutzung, Einprägsamkeit, Benutzungsfehler und subjektive Zufriedenheit definiert werden. Wir empfehlen in der Regel zwischen 20 und 250 Testpersonen, um signifikante Ergebnisse zu erhalten.

Wenn man Menschen misst, wird es immer einige geben, die sehr schnell sind, und andere, die langsamer sind. Aus diesem Grund müssen Sie den Durchschnitt dieser Messungen über eine ziemlich große Anzahl von Beobachtungen ermitteln, um die Schwankungen auszugleichen.

Haben wir nun eine hypothetische Aufgabe, die im Durchschnitt 10 Minuten dauert, bedeutet das für sich genommen wenig. Sind 10 Minuten gut oder schlecht? Geht es darum, einen Newsletter zu abonnieren, wäre eine durchschnittliche Bearbeitungszeit von 10 Minuten extrem schlecht. Bei komplexeren Aufgaben wiederum, wie z. B. der Beantragung einer Hypothek, würden 10 Minuten eine sehr hohe Gebrauchstauglichkeit bedeuten. Ein Vorteil von Statistiken ist, dass Sie sie mit anderen Statistiken vergleichen können. Das heißt, dass Sie Nutzbarkeitskennzahlen erheben, um sie mit anderen Nutzbarkeitskennzahlen zu vergleichen, z. B. indem Sie Ihre Webseite mit den Webseiten Ihrer Konkurrenz oder Ihr neues Design mit Ihrem alten vergleichen. Quantitatives Testing kann natürlich noch viel mehr als „nur“ die Effizienz im Sinne der Time-on-Task. Es hilft, subjektive Rückmeldungen zur hedonischen Qualität quantifizierbar zu machen. Die quantitative Methode beantwortet Fragen, wie „Wie viele” oder „Wie lange”, sodass Ihr User Interface Design sich so mithilfe statistisch signifikanter Daten messbar machen lässt und eine rationale Argumentationsbasis für Entscheidungen bietet, die stichhaltiger ist als ein bloßes Bauchgefühl oder eine Hypothese.

Fazit

Eine sorgfältige Vorbereitung bleibt das A&O. Vor Beginn eines Projektes müssen grundlegende Ziele und zentrale Fragestellungen geklärt werden. Erst wenn diese festgelegt sind, kann eine geeignete Methode gewählt und eine optimale Stichprobengröße bestimmt werden. Um die „richtige“ Stichprobengröße zu ermitteln, sind detaillierte Informationen zu den Zielgruppen essentiell. Bestimmen und beschreiben Sie erst Ihre Zielgruppe, bevor Sie weitere Schritte planen. Denn wenn wir überhaupt nicht wissen, welche Personen und Zielgruppen sich auf einer Webseite oder in einer Anwendung bewegen, so scheitern wir bereits bei einer zuverlässigen Bestimmung der angemessenen Stichprobengröße.

Portraitfoto: Stefanie Peters

Stefanie Peters

User Experience Consultant

eresult GmbH

Bisher veröffentlichte Beiträge: 12

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.