Klassisch versus modern: Usability-Test im Labor und asynchroner Videotest auf dem Prüfstand – Teil 1: Problemanzahl und Involvement

Der klassische Usability-Test im Labor ist für die Meisten von Ihnen schon ein alter Bekannter. Sehr wahrscheinlich können Sie aus dem Stegreif einige Stärken und Grenzen dieser Methode aufzählen. Auch wir bei eResult können in dieser Hinsicht auf einen breiten Erfahrungsschatz mit etwa 80 jährlichen Tests im Lauf der letzten zwölf Jahre zurückgreifen. Jedoch sind wir stets daran interessiert, mehr über innovative Tools und Forschungsansätze herauszufinden, um das Potenzial unserer Methoden weiter auszuschöpfen. In meiner Masterarbeit verglich ich dafür drei Verfahren: den klassischen Labortest mit Lautem Denken, den asynchrone Remote-Usability-Test und das noch relativ neue Verfahren des Videotests, wie es u. a. unser Kooperationspartner RapidUsertests anbietet. Diese Ergebnisse möchte ich mit Ihnen teilen, und zwar in zwei Artikeln: In diesem Artikel geht es zunächst um die Anzahl an identifizierten Problemen und das Involvement der Probanden. Im zeitnah folgenden Artikel werden dann die Kosten und Aufwände gegenübergestellt.

Vorweg: Die Benennung „Videotest“ wurde als Kurzbenennung verwendet, da das Verfahren in der Forschung bislang nicht mit einem konkreten Namen betitelt wurde. Einen solchen Test führen die Teilnehmer am Computer zu Hause durch und zeichnen dabei ihren Bildschirm und ihre Kommentare (Lautes Denken) zur Website auf. Die Aufnahme der Gestik und Mimik des Probanden per Webcam erfolgt aus Gründen der Performance und wegen des erforderlichen technischen Equipments (noch) nicht.

Da der asynchrone Remote-Usability-Test bereits vor einiger Zeit von Ann Eckert detailliert betrachtet wurde, soll dessen Potenzial aus Platzgründen in diesem Artikel nicht näher betrachtet werden. Das Hauptaugenmerk liegt auf der Einstufung des Videotests im Vergleich zum Usability-Test im Labor.

Untersuchungsobjekt

Als Untersuchungsobjekt konnten wir den Onlineshop schnullireich.de gewinnen, der mit einem überschaubaren, aber sehr interessanten Sortiment an individualisierten Geschenkartikeln für Babys und Kleinkinder aufwartet. Hier war für uns v. a. interessant, wie die Nutzer mit dem Kauf individualisierter Produkte zurechtkommen und ob die Erwartungen von Nutzern mit unterschiedlichem Erfahrungshorizont im Hinblick auf Babyartikel sich ausreichend informiert fühlen.

Thesen

Vor den Erhebungen wurden Hypothesen gebildet, anhand derer die Auswertung erfolgen sollte. So nahmen wir u. a. an, dass der Labortest ergiebiger als der Videotest ist, da durch die Interaktivität zwischen Proband und Interviewer potenziell mehr Inhalte erfasst werden können. Im Videotest rechneten wir mit der gleichen Anzahl an identifizierten, schwerwiegenden Problemen wie im Labor. Den asynchronen Verfahren unterstellten wir ein natürlicheres Verhalten der Probanden, da die Probanden dort unbeeinflusst von sozialer Erwünschtheit handeln, wenn kein Testleiter den Test betreut. Erwartet wurde außerdem, dass die asynchronen Verfahren realistischere Abläufe ermöglichen, da die Probanden nur nach den Initial-Anweisungen handeln können, deren weiteres Verhalten innerhalb einer Teilaufgabe jedoch nicht beeinflusst werden kann.

Studiendesign

Es wurde für alle Tests ein vergleichbares Studienkonzept geschaffen. Dann wurde dieses u. a. in der Länge an die jeweilige Methode angepasst. Im Lab ist ein 30-minütiger Test problemlos durchzuführen, im Videotest setzten wir 20 und im asynchronen Test etwa 15 bis 20 Minuten an. Auch konnten die Aufgaben im Lab kleinschrittiger sein. Für die beiden anderen Verfahren umfasste eine Aufgabe meist mehrere Schritte, damit die Probanden nicht vom Weg abkommen. Bei der Anzahl an Testpersonen haben wir in Relation zum Aufwand und den Kosten, aber auch unseren Hypothesen, unterschiedliche Teilnehmerzahlen gewählt. Im Lab testeten wir mit 12, im Videotest mit 20 und im asynchronen Remote-Usability-Test mit 40 Probanden.

Ergebnisse

Zweifellos ist der Erfolg jeder Methode von den Probanden abhängig. Sind diese engagiert, werden die Tests deutlich ergiebiger sein als Tests mit eher lustlosen Probanden. Ein Umstand, den man im Labor durch gezieltes Nachfragen in Ansätzen ausgleichen kann. In dem asynchronen Verfahren hat man darauf ab der Rekrutierung keinen Einfluss mehr; außer der Möglichkeit nach Durchsicht der Datenmenge im Nachhinein noch einmal nachzurekrutieren.

Der Videotest lieferte respektable Ergebnisse. So wurden genauso viele schwerwiegende Usability-Probleme wie im Labtest und auch eine hohe Anzahl an weniger brisanten (mittelschwer bis leicht) Problemen erkannt.

Auswertungsansicht des Videotests

Abbildung 1: Auswertungsansicht des Videotests; Im Online-Tool können direkt Notizen zur Testperson vermerkt werden.

Der Labortest lieferte in bekannter Weise sehr gute Ergebnisse ab. Mögliche Unklarheiten zu Gedankengängen von Probanden konnten zusätzlich durch direktes Nachfragen behoben werden. Überhaupt spielte der Labortest bei der Interaktivität seine Stärken voll aus: Der Test bzw. die Aufgabenstellungen ließen sich individuell an die Testperson anpassen und können somit sehr gut auf deren individuelles Verhalten reagieren.

Art und Anzahl der identifizierten Probleme

Die nachfolgende Tabelle zeigt die im Labor und im Videotest aufgedeckten Probleme anhand der eigestuften Schweregrade. Die untere Tabelle zeigt, wie der Videotest bei gleicher Probandenanzahl abgeschnitten hätte, wenn man davon ausgeht, dass jede Testperson gleich wertvoll war.

Tabelle 1: Von den einzelnen Methoden identifizierte Probleme.

Tabelle 2: Auf n=12 umgerechnete Problemanzahl beim Videotest und ins Verhältnis gesetzte Problemfindungsquote der beiden Verfahren.

Anhand der Verhältnisse lässt sich die Stärke der Verfahren ablesen. Der Videotest förderte aufgrund der höheren Probandenzahl mehr kosmetische Probleme zutage als der Labortest, aber bedarf der höheren Probandenanzahl für das Auffinden aller schwerwiegenden Probleme. Berücksichtigt man, dass im Videotest ohne hohe Mehrkosten mehr Probanden als im Labor getestet werden können, kann diese Tatsache kompensiert werden.

Involvement der Probanden

Das Involvement ist wichtig, damit die Probanden möglichst ehrgeizig teilnehmen. Im Labor ist dies sehr hoch. Die Testpersonen werden nicht abgelenkt und der Testleiter kann sie stets wieder auf die Aufgabe zurückbringen. In den asynchronen Verfahren ist das Involvement dagegen aufgrund der Tatsache, dass die Probanden alleine vor dem PC sitzen, deutlich geringer. Was ist besser? Das Verhalten im asynchronen Test ist vielleicht näher am Alltagsverhalten. Das Laborverhalten trägt dagegen mehr zur ganzheitlichen Analyse einer Website bzw. interaktiven Anwendung bei. Im Labor kann der Testleiter im Zweifel seine Aktivität etwas zurückfahren und dadurch ein natürlicheres Nutzerverhalten erreichen. In Remote-Tests lässt sich darauf kaum Einfluss nehmen, sodass man das dokumentierte Nutzerverhalten als Datenbasis hinnehmen muss. Wenn dann Probanden Aufgaben nur teilweise ausführen, weil sie die Aufgabenstellung nicht aufmerksam gelesen haben, fehlen wichtige Daten, die im Nachhinein nicht mehr erzeugt werden können. Große Teile der Anwendungsbewertung können dann unter den Tisch fallen und einige Datensätze sind nur noch eingeschränkt auswertbar. Auch mit einem Pretest (Test des Studiendesigns auf Testdauer, Verständlichkeit der Aufgaben und technische Probleme) kann diesem Problem nur eingeschränkt vorgebeugt werden.

Kontrollierte Laborsituation

Abbildung 2: Kontrollierte Laborsituation – Wird das Involvement dadurch größer oder kleiner?

Fazit
Beide Verfahren haben spezielle Stärken und Grenzen und sollten daher in Anbetracht des angestrebten Erkenntnisgewinns bewusst gewählt werden.

Labortest: Der Labortest eignet sich bestmöglich zur ganzheitlichen Analyse einer Anwendung (z. B. Website), denn er identifiziert nicht nur eine große Anzahl an Usability-Problemen, sondern fördert einen interaktiven Austausch zwischen Proband und Interviewer zu konkreten Verbesserungsvorschlägen der Website. Dadurch werden aufbauend auf den identifizierten Problemen bereits elaborierte Vorschläge zur Aufwertung der Website generiert. Auch längere Tests können hier problemlos durchgeführt werden, da die Probanden i. d. R. länger bei der Sache sind.

Videotest: Man erhält in relativ kurzer Zeit mit relativ geringem Aufwand hilfreiche Kommentare zu einem Teil einer Website und identifiziert die schwerwiegendsten Usability-Probleme in jedem Fall, wenn man mehr Probanden als im Labortest heranzieht (etwa 1,6-mal so viele). Aufgrund der abfallenden Aufmerksamkeitsspanne sind jedoch nur Tests bis zu einer Dauer von 20 Minuten möglich.

Ausblick auf den 2. Teil der Artikelserie: die Kosten-Nutzen-Relation

Bei der Auswahl der richtigen Methodik ist eine Betrachtung der Aufwände in Relation zum Erkenntnisgewinn ebenfalls entscheidend. Diese Betrachtung erfolgt im zweiten Beitragsteil in der kommenden Woche. Sie dürfen also gespannt sein.

3 Gedanken zu „Klassisch versus modern: Usability-Test im Labor und asynchroner Videotest auf dem Prüfstand – Teil 1: Problemanzahl und Involvement

  1. Manuel Panzirsch

    Hallo Herr Kuechler,

    wir bei STRATO hatten vor einiger Zeit auch einen kleinen Versuch zum gleichen Thema durchgeführt. Ich hatte hierzu eine kleine Zusammenfassung (http://wp.me/p2zhQD-7) in meinem Blog geschrieben. Die Ergebnisse scheinen durchaus ähnlich zu sein. Ich bin auf Teil 2 sehr gespannt.

    Viele Grüße
    Manuel Panzirsch

    Antworten
  2. Pingback: Klassisch versus modern: Usability-Test im Labor und asynchroner Videotest auf dem Prüfstand – Teil 2: Kosten und Aufwände | Usabilityblog.de

  3. Pingback: RapidUsertest schlägt klassischen Labortest | RapidUsertests Blog

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *