Competitive Usability Testing im Gaming: Wenn das eigene Spiel gegen den Platzhirsch antritt

Abb. 1: Smartphone-Teaserbild

Competitive Usability Testing ist eine Sonderform des Comparative Testings, welches grundsätzlich das Testen mehrerer Prototypen in einer Testsession beinhaltet.
Competitive Usability Testing bedeutet, dass ein Prototyp oder Produkt im Vergleich zu seinen wichtigsten Konkurrenten im Setting eines Usability-Tests durch Probanden getestet und bewertet wird. Dabei kommen sowohl quantitative (Benchmark) als auch qualitative Erhebungsmethoden zum Einsatz. Ich möchte diese Methode am Beispiel der Spielentwicklung in der Free2Play-Branche vorstellen.

Wann ist Competitive Usability Testing sinnvoll? – Ein Anwendungsbeispiel aus der Free2Play-Branche

“Free2Play” bezeichnet eine Sparte des Videospielmarktes, in der sich Spiele durch prinzipiell kostenlose Spielbarkeit auszeichnen. In den Spielen selbst können hingegen virtuelle Güter wie in-Game-Währung, Premium-Abonnement, Leben oder spezifische Gegenstände erworben werden. Diese erleichtern das Spiel oder beschleunigen den Spielfortschritt. Ziel dieses Geschäftsmodells ist es, möglichst viele Nutzer durch die kostenlose Installation zum Ausprobieren des Spiels zu bewegen. Ein Bruchteil der Nutzer wird wiederum Echtgeld im Spiel ausgeben.

In den vergangenen fünf Jahren ist die Menge an Free2Play-Titeln gerade im Mobile-Bereich extrem stark angestiegen. Die Konkurrenz unter den Herstellern ist entsprechend groß; die Nutzer haben die Qual der Wahl und können sich eine sehr wählerische Haltung erlauben.

Eine typische Ausgangssituation für Competitive Usability Testing ist folgende: Ein neues Spiel ist (fast) fertigentwickelt und befindet sich wenige Wochen vor dem Full Launch. Das Spiel kann relative klar einem Genre zugeordnet werden: Ein Match-3-Puzzlegame, nennen wir es „Ultra Splash Puzzle Saga“ (USPS). Platzhirsch des Genres ist der Titel „Candy Crush Saga“ (CCS) der Firma King: Ein Spiel, das im Jahr 2016 ca. 450 Millionen Dollar an weltweitem Umsatz erzielte. Beide Spiele zeichnen sich durch ein sehr ähnliches Gameplay aus: auf einem Spielfeld mit Steinen unterschiedlicher Farben sollen durch Verschieben Kombinationen gleichfarbiger Steine hergestellt werden. Dies generiert Punkte und jedes Level hat ein bestimmtes Mindestziel an Punkten. Beide Spiele zeichnen sich weiterhin durch eine Weltkarte mit Leveln aus, die der Spieler mit einer Bewertung zwischen einem und drei Sternen abschließen kann. Als Alleinstellungsmerkmal besitzt USPS zusätzlich einen virtuellen Zoo. Dieser wird befüllt mit Kreaturen, die man durch das Abschließen von Levels „befreit“. Die Tiere können wiederum aufgezogen und mit speziellem Futter weiterentwickelt werden.

Es sollen nun zwei Forschungsfragen beantwortet werden:

      1. In welchen Bereichen wird das Spiel USPS als besser bzw. schlechter bewertet im Vergleich zu CCS? Welches Spiel macht mehr Spaß?
      2. Ist der virtuelle Zoo als Alleinstellungsmerkmal ausreichend, um Spieler aus diesem Genre dazu zu bewegen, es zu installieren, es einen längeren Zeitraum zu spielen und vielleicht sogar darin zu bezahlen?

Eine Hilfestellung zur Beantwortung dieser Fragen liefert die Methode des Competitive Usability Testings. Die erste Frage kann am ehesten mit quantitativen, die zweite mit qualitativen Erhebungsmethoden adressiert werden.

Studienablauf: Mit vielen Personen in großen Gruppen testen

Um einen Vergleich der Bewertungen der beiden Games zu ermöglichen und statistisch bedeutsame Unterschiede entdecken zu können, sind relativ große Stichproben erforderlich: mit 40 bis 50 Probanden ist der Forscher bereits in der Lage, auch kleinere Bewertungsunterschiede zuverlässig zu entdecken. Aus Gründen der Zeiteffizienz werden die Probanden in Gruppen einer Größe zwischen 8 und 10 Personen eingeteilt.

Idealerweise wird der Test in einem ausreichend großen Raum mit genügend Testplätzen durchgeführt. Jeder Proband erhält ein Smartphone, auf dem beide Spiele installiert sind. Die Probanden werden instruiert, zunächst eines der beiden Spiele zu starten und von Anfang an zu spielen. Es werden keine besonderen Vorgaben gemacht. Die Probanden haben die Aufgabe, sich durch den Spieleinstieg zu spielen und sich im Spiel so zu verhalten, wie sie es normalerweise in ihrem Privatleben auch tun würden. Dies erhöht die ökologische Validität der Spielerfahrung, auf der die anschließende Bewertung basiert. Eine Spielsession ist für 20 Minuten angesetzt. Danach füllen die Probanden einen kurzen Fragebogen aus. Dieselbe Prozedur wird für das jeweils andere Spiel durchgeführt. Die Reihenfolge der zu testenden Spiele sollte zwischen den einzelnen Probandengruppen variiert werden.

Der Fragebogen behandelt folgende Aspekte:

  • Sternerating (1-5 Sterne, wie im AppStore)
  • Kurzer Freitext zur Begründung der Wertung
  • 10er-Skalen:
    • Spielspaß
    • Lebendigkeit
    • Feedback durch das Spiel über eigene Aktionen
    • Originalität
    • Präzision der Steuerung
    • Unmittelbarkeit der Steuerung
    • Technische Flüssigkeit
    • Attraktivität des Grafikstils
    • Passung des Grafikstils zum Genre
    • Attraktivität des Sounds/der Musik
    • Passung des Sounds/der Musik zum Genre
  • Semantische Differenziale:
    • Schwierigkeitsgrad
    • Komplexität
    • Vorhersagbarkeit
    • Hektik vs. Langsamkeit
  • Frage, ob der Proband das Spiel zu Hause weiterspielen würde
  • Demographische Variablen

Abb. 2: Fiktives inferenzstatistisches Ergebnis eines kompetitiven Usability Tests (Sternchen markieren statistisch signifikante Unterschiede).


Gruppendiskussion am Ende

Nach den beiden Testsessions wird eine zehnminütige Gruppendiskussion durchgeführt. Zunächst fragt der Forscher in die Runde, welches Spiel insgesamt besser gefallen hat. Eine Auszählung per Handzeichen durch die Studienteilnehmer gibt Aufschluss über generelle Tendenzen in der Präferenz. Im Anschluss werden einzelne Personen gebeten, ihre Abstimmung zu begründen. Im Idealfall entsteht hier eine kleine Diskussion über die Vorzüge und Nachteile beider Spiele, zu denen möglicherweise der virtuelle Zoo von USPS gehört. Schlussendlich wird noch die Frage in den Raum gestellt, als wie attraktiv die Teilnehmer USPS‘ Zoo-Feature wahrgenommen haben und ob es ein Grund wäre, das Spiel herunterzuladen und ihm „eine Chance“ zu geben.

Abb. 3: Gruppendiskussionen helfen, die Beweggründe für die quantitativen Bewertungen genauer zu erörtern.


Die Auswertung

Neben einer deskriptiven Auswertung (Mittelwerte, Häufigkeiten) erlaubt eine Stichprobe dieser Größe auch eine inferenzstatistische Auswertung. Diese liefert Erkenntnisse darüber, in Bezug auf welche Aspekte USPS signifikant besser oder schlechter als sein Hauptkonkurrent CCS bewertet wurde. Außerdem kann ermittelt werden, ob sich der Anteil „Weiterspiel-Wollender“ Probanden zwischen den Spielen unterscheidet. Die Äußerungen der Probanden in der Gruppendiskussion werden kategorisiert und ggf. ausgezählt.

Wann ist Competitive Usability Testing nicht sinnvoll?

Die zu vergleichenden Prototypen/Produkte müssen ein ähnliches Entwicklungsstadium aufweisen, ansonsten ist keine Vergleichbarkeit gegeben. Dies bedeutet bei einem Benchmark wie dem oben ausgeführten, dass beide Produkte fertig entwickelt sein müssen. Leider dürfte sich die Situation selten ergeben, dass zwei miteinander konkurrierende Produkte im Prototypenstatus gegeneinander getestet warden können. Wenn sich das zu testende Produkt in einem früheren Entwicklungsstadium befindet und mehrere Ideen für unterschiedliche Prototypen existieren, ist Comparative Usability Testing angezeigt: Das vergleichende Usability Testing mit unterschiedlichen Prototypen ein und desselben Produktes. Competitive Usability Testing kommt dann ins Spiel, wenn die wesentlichsten Designentscheidungen bereits getroffen wurden und nur noch relativ detaillierte Anpassungen vorgenommen werden sollen. Ein Nachteil der oben beschriebenen Methode besteht eindeutig darin, dass die Probanden (zumindest in der Konstellation mit größeren Testgruppen) nicht laut denken. Der Forscher hat also nicht die Möglichkeit, ad hoc auf spezifische Usability/UX-Probleme einzugehen. Im Idealfall wurden gravierende Probleme aber bereits mit fokussierten Tests in früheren Entwicklungsphasen identifiziert und behoben.

Wie kann Competitive Usability Testing in anderen Branchen eingesetzt werden?

Die Methode des Competitive Usability Testings lässt sich problemlos auf andere Branchen übertragen: Beispielsweise könnte ein Betreiber eines Online-Shops eine Benchmarkstudie durchführen: Wie gut schneidet mein Shop in der Effizienz, Effektivität und Zufriedenheit im Vergleich zu den wichtigsten Konkurrenten ab? In einem kompetitiven Usability-Test führen die Testpersonen typische Use Cases aus (z. B. Produktsuche, kompletter Payment-Prozess) und bewerten anschließend jeden Shop in Bezug auf Verständlichkeit, Effizienz, Schönheit, Zufriedenheit etc. Ein großer Vorteil in diesem Fall liegt in der Möglichkeit, Aufgaben klar zu definieren: Die Leistung bei der Erfüllung kann mit objektiven Kennzahlen erfasst werden (benötigte Zeit, Anzahl notwendiger Schritte). Auf diese Weise erreicht der Online-Shop nicht nur einen weichen sondern auch einen harten Benchmark.

Welche Erfahrungen haben Sie mit Competitive Usability Testings gemacht? Ich freue mich auf Ihre Kommentare!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.