Usability Evaluation Methods—an interactive selection guide—developed by Luise Künnemann

The following list contains all UEMs that are part of this selection guide. The UEMs are classified into groups and, within these groups, displayed in alphabetical sorting. For each UEM, by clicking on the arrow key left to the UEM name and the wish list icon, further information can be obtained.

Inspection Methods
Task-based Inspection Methods
Cognitive Walkthrough
Die UEM Cognitive Walkthrough (CW) wurde Anfang der 1990er-Jahre entwickelt und gilt heute als meistverbreitetes Walkthrough-Verfahren. Im Rahmen eines CW führen Gutachter mit den spezifischen Interfaces Aufgaben aus, die der Durchschnittsnutzer mit dem System erledigen können soll. Dabei wird angenommen, dass Nutzer eine Systemerlernung durch Ausprobieren und Entdecken dem Lesen von Handbüchern vorziehen. Im Rahmen der theoriebasierten Durchführung der Methode wird es Untersuchenden ermöglicht, jeden einzelnen Schritt zu evaluieren, der für die Erfüllung einer szenariobasierten Aufgabe notwendig ist, und dabei Usability-Probleme zu identifizieren, die das Lernen durch Ausprobieren behindern würden.
  • früh im Entwicklungsprozess einsetzbar
  • Nachvollziehen von Nutzerhandlungen möglich, ohne Nutzer für Evaluation involvieren zu müssen
  • kostengünstig – Methode des Discount Usability Engineering
  • in vergleichweise geringer Zeit anwendbar, da keine Analyse oder vorbereitende Testläufe erforderlich sind
  • direkter Bezug zu spezifischen Aufgaben, sodass Usability-Probleme konkreter identifiziert werden können als bspw. mit Methoden, die eine Messung der Komplexität basierend nur auf der Anzahl der auszuführenden Schritte anstreben
  • methodische Überprüfung, warum und wo Designumsetzung bestimmte Arbeitsschritte einer Aufgabe verkompliziert oder Weiterarbeiten unmöglich macht – somit für Prüfung einer aufgabenorientierten Webapplikation geeignet, jedoch nicht für die Evaluation einer informationsorientierten Website
  • Aufwand steigt mit der Zahl der betrachteten Aufgaben, da für jede Aufgabe ein eigener Walkthrough ausgearbeitet werden muss
  • CW bietet keine umfassende, systematische Überprüfung eines Systems – wie bspw. HE –, denn es werden nur einzelne Aspekte dessen evaluiert
  • daher weniger effektiv bzgl. Problemaufdeckung als sowohl HE als auch Methoden des Usability Testing; Verbesserung der Effektivität erreichbar durch Evaluation in Gruppen
  • zeitaufwendig bspw. durch Notwendigkeit einer Schulung der Experten
  • Ergebnisqualität abhängig von Fähigkeit der Experten, sich in kognitive Fähigkeiten, Fachkenntnisse und Qualifikation der Nutzer hineinzuversetzen, die für die Aufgabenbewältigung notwendig sind
  • Mehrere Modifikationen verfügbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Heuristische Evaluation, Benutzertestmethoden
  • Total effort: Rather below average
  • Date of last research: 04/2017
Goals, Operators, Methods and Selection Rules
Goals, Operators, Methods and Selection Rules, kurz GOMS-Modell wurde 1983 entwickelt und weist eine Vielzahl an unterschiedlich komplexen Varianten auf. Im Rahmen einer modellbasierten Evaluation wird ein Vorhersagemodell entwickelt, indem davon ausgegangen wird, dass Nutzer Aufgaben erledigen, indem sie diese in Unteraufgaben teilen, die sie unabhängig voneinander abarbeiten können. Dabei werden die Ziele (Goals) mittels bestimmter Operationen (Operators) erreicht, denen wiederum Zeitwerte zugeordnet sind. Anhand dieser Zeitwerte können bestimmte Gestaltungsvorgänge optimiert werden, indem eine alternative, schnellere Möglichkeit zur Bearbeitung angestrebt wird. Daraus können Handlungsschemata (Methods) abgeleitet werden, also eine Folge von Operationen, die die Zielerreichung ermöglichen. Sofern mehr als ein Handlungsschema zur Erreichung eines Zieles zur Verfügung steht, helfen Auswahlregeln (Selection Rules) bei der Wahl eines Handlungsschemas basierend auf wenn-dann-Beziehungen.
  • verschiedene GOMS-Varianten können für quantitative Voraussagen mittels Beschreibung von Handlungsschemata eingesetzt werden und so zu effektiver Zielerreichung beitragen
  • geeignet für Betrachtung von prozeduraler Geschwindigkeit und Komplexität hinsichtlich der Aufgabenbearbeitung
  • erlaubt Vorhersagen zu Systemnutzung durch erfahrene Nutzer, bspw. Unternehmensangestellte, über langen Zeitraum – ohne dafür tatsächlich Nutzer schulen und/oder während der Arbeit beobachten zu müssen
  • durch Analyse der Aufgabenstruktur können Usability-Probleme, bspw. Inkonsistenzen, identifiziert werden, die andere Methoden oft nicht erfassen
  • besser als andere Methoden, die bspw. nicht genügend Anhaltspunkte über das Gesamtsystem liefern, ist GOMS durch den Fokus auf Aufgabenstruktur und nutzerseitiges Fachwissen besonders gut als Basis für Dokumentierungen und Tutorials geeignet
  • aufgrund der Wurzeln des GOMS-Modells in der kognitiven Psychologie gut geeignet für Prozessoptimierung und Konsistenzüberprüfung sowie Erkennen von Schwachstellen in Handlungsschemata
  • kostengünstig einsetzbar, da kaum Ressourcen erforderlich
  • nutzerseitige Systemakzeptanz und Verfassung, bspw. Ermüdung durch Systemnutzung, werden nicht berücksichtigt
  • generelle Eignung des Systems für bestimmte Zwecke nicht überprüfbar; dies betrifft insbesondere innovative Systeme, deren Aufgabenschritte nicht mit einer voraussichtlich benötigten Zeit angegeben werden können
  • Vielfältigkeit und Umfang menschlicher Arbeitsweise aufgrund der relativ simplen kognitiven Grundlage der GOMS-Modellvarianten nicht repräsentativ abbildbar
  • Benutzbarkeit des Systems sowie Spaß bei der Benutzung werden nicht berücksichtigt, einzig Geschwindigkeit bei der Aufgabenausführung ist relevant
  • Aufgaben werden als zielorientiert gesehen; dadurch werden bspw. problemlösende Aufgaben vernachlässigt
  • Aspekte wie sozialer oder organisatorischer Einfluss des Produkts werden durch GOMS-Modell nicht berücksichtigt
  • Vorhersagen gelten nur für expertenähnliche Nutzer, denen keine Fehler unterlaufen – somit wird nicht berücksichtigt, dass einerseits selbst Experten Fehler machen, und andererseits i. d. R. auch Neulinge oder durchschnittlich erfahrene Nutzer das evaluierte System nutzen
  • somit nicht geeignet, wenn bspw. nur oder überwiegend Neulinge das System nutzen, da in diesem Fall Vorhersagen geübten Nutzerverhaltens nicht zielführend erscheinen
  • Mehrere Modifikationen verfügbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Total effort: Low
  • Date of last research: 04/2017
Metaphors of Human Thinking
Die Methode Metaphors of Human Thinking (MOT) wurde in den Jahren 2002 bzw. 2003 als Inspektionsmethode vorgestellt, die auf verschiedenen Forschungsergebnissen zu menschlichem Denken basiert und deren Ablauf mit der Heuristischen Evaluation vergleichbar ist. Jedoch ist MOT aufgabenorientiert und es werden die namensgebenden Metaphern zugrunde gelegt, anhand derer eine Evaluation erfolgt. Mögliche Usability-Probleme werden identifiziert, indem Verstöße gegen die Aspekte des menschlichen Denkens erfasst werden, welche die Metaphern und ihre Implikationen abdecken. Mit MOT sollen andere Inspektionsmethoden um die Berücksichtigung nutzerseitiger Denkweisen ergänzt und die stark eingeschränkte Übertragbarkeit anderer Inspektionsmethoden auf verschiedene Kontexte und aktuell populäre Technologien – wie mobile Geräte oder kontextbasierte Anwendungen – erhöht werden.
  • Berücksichtigung theoretisch fundierter Aspekte des menschlichen Denkens
  • vergleichbare Ergebnisse wie mit Heuristischer Evaluation bei geringer Zeitersparnis zu erzielen, auch mehr als wichtig eingestufte Probleme als bei Heuristischer Evaluation identifizierbar
  • mehr Usability-Probleme identifizierbar als mit Cognitive Walkthrough, drei Viertel der Probanden bevorzugten nach der Evaluation zudem MOT gegenüber Cognitive Walkthrough
  • ermöglicht mehr Freiheit bei der Problemidentifizierung als Cognitive Walkthrough
  • bzgl. der Ergebnisqualität vergleichbar mit der benutzerorientierten Evaluationsmethode Thinking Aloud
  • schwerer zu erlernen als Heuristische Evaluation und auch als Cognitive Walkthrough, wird also von Gutachtern als komplexer wahrgenommen
  • Gutachter präferieren in Vergleichsstudie Thinking Aloud, obwohl die erzielten Ergebnisse mit MOT hinter Thinking Aloud nicht zurückstehen
  • im Vergleich wird Thinking Aloud aus dem Grund bevorzugt, da Ergebnisse leichter zu interpretieren erscheinen und Probanden das Gefühl haben, Probleme zu finden, die sie ohne Thinking Aloud nicht entdeckt hätten
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Heuristische Evaluation oder Thinking Aloud, auch andere UEMs möglich
  • Total effort: Small
  • Date of last research: 04/2017
Pluralistic Walkthrough
Der Pluralistic Walkthrough (PWT) aus dem im Jahr 1994 stellt eine Modifikation des Usability Walkthrough dar. Im Rahmen von PWT werden repräsentative Nutzer, Produktentwickler und Usability-Experten Bildschirmausdrucke eines zu evaluierenden Computerprogramms gezeigt. Probanden beschreiben zunächst individuell, welche Handlungen sie im Rahmen der Aufgabenerfüllung durchführen würden, daraufhin findet eine Gruppendiskussion statt. Dadurch, dass Teilnehmer erwartete Handlungen niederschreiben, werden quantitative Daten erhoben und es wird empirisch gearbeitet. Trotz der Nutzer als Probanden wird PWT den Inspektionsmethoden zugerechnet, da die auszuführenden Schritte zur Durchführung der gegebenen Aufgabe in der Theorie durchgeführt werden. Es handelt sich also nicht um eine tatsächliche praktische Ausführung von Systemaufgaben.
  • geringer monetärer und zeitlicher Aufwand
  • Profitieren von verschiedenen Fähigkeiten und Expertise durch Interaktion zwischen o. g. Personengruppen – Usability-Experten sind für Vermittlung zwischen Nutzern und Entwicklern sowie den Entwurf von Gestaltungshinweisen im Evaluationsprozess zuständig, Nutzer zeigen auf, wo Mängel des Systems bestehen und machen dies aus realer Nutzersicht begreiflich, Entwickler bringen ihr Wissen zum System als lebendige Handbücher ein und diskutieren Umgestaltungsvorschläge mit den Nutzern
  • durch hohe Anzahl beteiligter Personen und unterschiedliche Fertigkeiten und Präferenzen dieser hohe Wahrscheinlichkeit dafür, dass zahlreiche Usability-Probleme aufgedeckt und Verbesserungsmöglichkeiten erarbeitet werden können
  • Motivieren der Entwickler durch direkte Interaktion mit Nutzern
  • Nutzerfragen können verwendet werden, um die spätere Entwicklung von (Online-)Hilfen zum System vorzubereiten
  • höhere Effizienz und mehr Erkenntnisse im Vergleich zu Walkthrough-Verfahren ohne partizipativen Ansatz – vor allem aufgrund der Entstehung synergetischer Effekte
  • mit Diskussion muss abgewartet werden, bis auch der letzte Gesprächsteilnehmer das gegebene Szenario durchgearbeitet hat – so kein Gefühl für tatsächliche Abläufe des Systems und ggf. Entstehung eines Druckgefühls bzgl. des zu vermeidenden Aufgabenabschlusses als letzte Person
  • alternative Lösungswege, die Nutzer präferieren könnten, werden ggf. nicht erkannt bzw. ausprobiert, da Szenario und schrittweise Bearbeitung vorgegeben sind
  • Probleme, die nicht die untersuchten Aufgaben betreffen, werden vrstl. nicht beachtet
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Nicht spezifiziert
  • Total effort: Below average
  • Date of last research: 04/2017
Sociotechnical Walkthrough
Der Sociotechnical Walkthrough (STWT) wurde im Jahr 2002 beschrieben. Im Rahmen des STWT werden grafische Modelle eines soziotechnischen Systems in diagrammatischer Form zusammen mit verbal-sprachlichen Erklärungen schrittweise diskutiert und weiterentwickelt. In Gruppensitzungen von Evaluatoren erzeugen diese grafische Modelle und modifizieren sie. Ziel ist, dass sich auf eine einzige Darstellung der Strukturen und Prozesse sowie ihre technische Unterstützung und verbleibende Entscheidungsspielräume, die künftig entwickelt werden sollen, geeinigt wird. STWT ist gekennzeichnet durch die soziotechnischen Diagramme zur durchgängigen Dokumentation sowie die moderierten Gruppensitzungen. Mit der Methode können bspw. unternehmensintern soziotechnische Prozesse oder Verwaltungsabläufe verbessert werden. Das Besondere an STWT ist die Einbeziehung unterschiedlicher Sichtweisen verschiedener Beteiligter in die Erneuerung der Prozesse.
  • Vermeidung von unüberlegten und überhastet getroffenen Entscheidungen bzgl. essenzieller Aspekte des soziotechnischen Systems, da das Ergebnis der Methodenanwendung als eine Art Lastenheft gesehen werden kann, welches für die weitere Entwicklung bindend ist
  • Ausräumen von Unklarheiten durch die Visualisierung und Diskussion geplanter Abläufe und Strukturen
  • hilfreich auch für künftige Schulungen, Anpassungsprozessen und Modelle, die das System betreffen
  • Anwendung ggf. empfehlenswert, wenn CW bekannt ist, da starke Ähnlichkeit zu STWT besteht – abgesehen davon, dass sich CW der individuellen Evaluation interaktiver Systeme widmet, während STWT für soziotechnische Systeme, die durch Personengruppen evaluiert werden, eingesetzt wird
  • aus dem ersten o. g. Vorteil ergibt sich, dass die Ausgangsbasis, die das erste für die Methodenanwendung zugrunde liegende Modell darstellt, spätere Ergebnisse bereits früh determiniert
  • es ist also sehr wichtig – bleibt aber in der Methodenbeschreibung offen –, wer wie das erste Modell erstellt
  • Annahme, dass beteiligte Personen befähigt und dazu bereit sind, rational und objektiv mit beauftragendem Unternehmen zusammenarbeiten, auch wenn eigene Vorteile dabei nicht berücksichtigt werden können – es können aber Konflikte während der Durchführung auftreten, sodass die Rationalität in der Entscheidungsfindung möglicherweise beeinträchtigt sein wird
  • aus diesem Grund sorgfältige Auswahl von Testteilnehmern besonders wichtig; dann aber Möglichkeit, dass aufgrund der hohen Anzahl Interessensgruppen nicht alle dieser angemessen vertreten sein können
  • vergleichsweise zeitaufwendig
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Rather above average
  • Date of last research: 04/2017
Use Case Evaluation
Use Case Evaluation (UCE) baut auf Use Cases, die auch Nutzungs- oder Interaktionszenario genannt werden, auf. Use Cases wurden im Bereich Software Engineering formal erstmals 1992 beschrieben. Bei Use Cases handelt es sich um eine detaillierte, durch Usability-Experten durchgeführte schriftliche Beschreibung der benutzerseitigen Aufgabenausführung bei Nutzung einer Website. Im Rahmen von UCE werden Use Cases evaluiert, um mögliche Usability-Probleme des zugrunde liegenden Systems identifizieren zu können. Es können entweder bestehende Use Cases evaluiert oder Szenarien für die Evaluation entwickelt werden. UCE wurde speziell für frühe Entwicklungsphasen entwickelt.
  • unkompliziert und mit beliebiger Anzahl Gutachter einsetzbar
  • Qualitätsverbesserung von Use Cases durch Anwendung von UCE möglich
  • Bewusstsein von Usability kann möglicherweise durch UCE früh im Entwicklungsprozess erreicht bzw. optimiert werden
  • hoher Anteil – in der Studie von Hornbæk et al. rund drei Viertel – der gefundenen Probleme wurden als hilfreich erachtet; ca. ein Viertel davon stimmte mit der Vergleichsevaluation mittels Thinking Aloud überein
  • nicht alle Probleme, die mit einer Evaluation mittels Thinking Aloud gefunden wurden, konnten auch mit UCE identifiziert werden – dafür wurden jedoch andere Usability-Probleme nur mittels UCE erkannt
  • theoretische Fundierung von UCE wurde durch andere Autoren nicht validiert bzw. weiterentwickelt, sodass Validierung mit Probanden, die keine Experten darstellen, erforderlich erscheint
  • Vorstellungskraft aufseiten der Gutachter erforderlich
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Small
  • Date of last research: 04/2017
Guideline-based Inspection Methods
Consistency Inspection
Bei der Consistency Inspection (CI) vertreten Entwickler verschiedene Projekte und begutachten das Interface dahingehend, ob es zu erledigende Dinge auf die gleiche Weise wie ihre eigenen Entwicklungen ermöglicht. Es handelt sich dabei um eine Gruppenevaluation, demnach begutachten mehrere Experten das Interface gleichzeitig. Ziel ist es, verschiedene Komponenten der Benutzeroberfläche einander anzugleichen. Ergebnisse einer CI sollten daher zunächst die Komponenten und deren Namen, spezifische Namen für die jeweilige Funktion, Bilder oder Beschreibungen von verschiedenen Implementierungen der gleichen Funktion, Notizen bzgl. der Konsistenz und Usability-Probleme hinsichtlich dieser Funktion sowie eine Zusammenfassung der identifizierten Inkonsistenzen umfassen.
  • geringer Zeitaufwand
  • Orientierungshilfe bzgl. der notwendigen Vergleiche zum Herstellen von Konsistenz
  • Möglichkeit der Sensibilisierung von Entwicklern und/oder Produktmanagern hinsichtlich Belangen der Konsistenz, auf die fortan mehr Wert gelegt wird
  • nutzerseitig vereinfachtes Lernen und Transfer bestehenden Wissens auf neue Systeme, daher positive Einstellung zu diesem
  • hoher Kosten- und Zeitaufwand für Erreichung der indentifizierten Konsistenzaspekte
  • Einschränkung der Flexibilität und somit von Innovationsmöglichkeiten
  • Konsistenz muss langfristig implementiert werden; das Anwenden von CI allein ist nicht dauerhaft erfolgreich; bspw. im Falle der Veröffentlichung weiterer Produkte, die noch nicht in Planung sind
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Below average
  • Date of last research: 04/2017
Design Pattern
Design Patterns (DP) wurden, aus der Architektur stammend, ab den 1980er-Jahren für den Bereich HCI angepasst. Alternative Bezeichnungen sind Interface Design Patterns, User Interface Patterns, UX Design Patterns, Interaction Design Patterns oder Usability Patterns. Im Bereich HCI werden DPs dazu verwendet, bestehende Designlösungen zu betrachten, um auf Problemlösungen zurückzugreifen und bereits bekannte Probleme nicht erneut lösen zu müssen, sondern auf kontextbezogene Lösungsmöglichkeiten zurückzugreifen. Zwar besteht für die Beschreibung der Patterns kein verbindlicher Standard, jedoch weisen diese häufig folgende Elemente auf: Name, also Pattern-Bezeichnung; Kontext, also Problemumfeld; Abbildungen wie Screenshots oder Videosequenzen, die eine typische Pattern-Anwendung darstellen; Beschreibung des Designproblems und Beschreibung der Lösung, die bestimmte Methoden oder Elemente zur Verwendung empfiehlt, sowie ein Beispiel, das die Lösung veranschaulicht.
  • im Vergleich etwa zu allgemein gehaltenen Richtlinien für nutzerfreundliche Anwendungsgestaltung beziehen sich DPs stets auf einen spezifischen Nutzungskontext auf – dadurch ist bspw. nicht erst eine Interpretation der Hinweise erforderlich
  • stellen umfassende Lösungen für Designprobleme dar
  • auch bzw. besonders für potenzielle Anwender mit wenig Erfahrung im Bereich Softwareentwicklung und Usability-Evaluation geeignet
  • bei wiederholter Nutzung gleicher Patterns Zeitersparnis durch direkte Umsetzung einer Lösung zu einem gegebenen Problem ohne Notwendigket von Recherche
  • schnelle und verständliche Kommunikationsmöglichkeit wiederkehrender Probleme und möglicher Lösungen
  • Funktion und Intention werden klar kommuniziert
  • ermöglichen Standardisierung bspw. auch über mehrere Hersteller hinweg
  • Patterns können beeinflusst sein, bspw. hinsichtlich der Facetten, die der Pattern-Ersteller für wichtig hält
  • einzelne Patterns bzw. ganze Bibliotheken wurden ggf. nicht empirisch überprüft, sodass nicht mit Sicherheit gesagt werden kann, ob sie optimale Lösungen darstellen
  • bei der Nutzung immer gleicher Patterns können Produkte langweilig und eintönig erscheinen
  • In der Literatur häufige Erwähnung und Anwendung beschrieben, besonders seit Jahrtausendwende
  • Recommended combination(s):
    Nicht spezifiziert
  • Total effort: Low
  • Date of last research: 04/2017
Heuristic Evaluation
Die Heuristische Evaluation (HE), teils auch Usability Audit genannt, ist seit den 1990er-Jahren eine extrem populäre Usability-Evaluationsmethode. Eine kleine Gruppe von Usability-Experten beurteilt qualitativ und auf der Basis von Heuristiken das zu evaluierende System, indem sich zunächst individuell in Nutzer hineinversetzt wird und daraufhin die identifizierten Probleme in der Gruppe diskutiert und gewichtet werden. Heute gibt es zahlreiche verschiedene Heuristiken, die jeweils aus einer überschaubaren Anzahl an Richtlinien bestehen und als hilfreich für eine Usability-Bewertung gesehen werden, wenn sie die Aufdeckung und Kategorisierung von Usability-Problemen ermöglichen – anhand der Kategorisierung in die vorgegebenen Heuristiken können größere Problembereiche herausgearbeitet werden. Die Einschätzung erfolgt entweder über eine Ja-/Nein-Entscheidung oder mittels einer Bewertungsskala, die angibt, in welchem Ausmaß den Fragen bzw. Anweisungen einer Heuristik entsprochen wird.
  • geringer zeitlicher und finanzieller Aufwand
  • Effektivitätsmaximierung aufgrund der Bewertung durch mehrere Gutachter
  • schnelle Erlernbarkeit erforderlicher Details, unkomplizierte Durchführung
  • geringe Anzahl Experten und keine echten Nutzer notwendig
  • eingeschränkte Aussagekraft der Ergebnisse, da keine echten Nutzer beteiligt sind, sondern auf Experten, die versuchen, sich wie Benutzer des Systems zu verhalten
  • Experten können nicht unbedingt alle oder diejenigen Probleme finden, die in der Praxis für Nutzer relevant sind
  • Ergebnisqualität auch abhängig von Sorgfalt und Erfahrung der Experten
  • mehr Anleitung notwendig als bspw. im Rahmen von Heuristic Walkthrough, da Evaluatoren durch Fehlen von Szenarien Handlungsempfehlungen bedürfen
  • viele falsch positive Ergebnisse
  • Problembeschreibung eher produkt- als aufgabenbezogen, da kein Bezug zu Aufgaben besteht, somit ggf. erschwerte Problembehebung
  • Heuristiken haben oft keinen Bezug zum Kontext der Systemnutzung – dadurch erschwerte Einschätzbarkeit der tatsächlichen Schwere erkannter Probleme in der Praxis
  • aus den genannten Gründen eingeschränkte Überzeugungskraft der Ergebnisse – Methode kann als subjektive Meinung der Gutachter gewertet werden
  • Mehrere Modifikationen verfügbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Cognitive Walkthrough oder Benutzertestmethode(n) wie Simplified Thinking Aloud möglich
  • Total effort: Below average
  • Date of last research: 04/2017
Keevil Usability Index
Der Keevil Usability Index (KUI) ist ein Kriterienkatalog, der im Jahr 1998 von dem kanadischen Beratungsunternehmen Keevil & Associates entwickelt wurde. Dabei handelt es sich um eine Checkliste bestehend aus 203 Fragen, die jeweils mit Ja, Nein oder Nicht zutreffend beantwortet werden können. Mit der Beantwortung der Fragen wird der Usability-Index gemessen werden, wobei der KUI spezifisch für Webangebote entwickelt wurde. Die online komplett und kostenfrei zugänglichen Fragen sind in fünf Kategorien. Eine Prozentzahl für die Gesamt-Usability des Webangebotes wird durch eine Division aus positiven Antworten und der Gesamtzahl aller Ja- und Nein-Antworten errechnet. Diese Prozentzahl erlaubt einen Vergleich des Ergebnisses mit anderen Webangeboten. Zudem können die Werte, die in den einzelnen Kategorien erzielt wurden sowie der Wert für die Gesamt-Usability als Grundlage für die Erstellung des Berichts zum Schluss der Anwendung verwendet werden.
  • effektiver Vergleich von verschiedenen Webangeboten
  • strukturierte, einfache und kostengünstige Methode zur Überprüfung der Usability
  • sowohl für bestehende als auch neue Webangebote anwendbar
  • Checkliste ist leicht an eigene Projekte anzupassen und kann unkompliziert auf dem neuesten Stand gehalten werden
  • Identifizierung von Usability-Problemen und Ausarbeitung von Lösungsvorschlägen sind nicht Teil des Verfahrens
  • daher nur eingeschränkt einsetzbar für die Evaluation eines einzelnen Webangebotes
  • Einweisung der Gutachter hinsichtlich des Aufbaus und der Antwortmöglichkeiten des KUI erforderlich
  • Verzerrungseffekte möglich durch Interpretationsspielraum bei der Beantwortung der Fragen
  • Modifikation verfügbar, in der Literatur häufige Erwähnung – jedoch seltene praktische Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Low
  • Date of last research: 04/2017
Standards Inspection
Die Standards Inspection (SI) wird von einem Experten durchgeführt, der die Benutzerschnittstelle im Hinblick auf bestimmte Interface-Standards auf Regelkonformität überprüft. Bei diesen kann es sich um breit gefasste Industriestandards, Unternehmensstandards oder produktspezifische Designstandards handeln, etwas die Konformität mit Gestaltungsrichtlinien. Die Standards können bspw. Bildschirmaufteilung und -konfiguration, benötigte Reaktionszeiten, Schreibweisen und Zugänglichkeit für unterschiedliche Nutzergruppen betreffen. Der Gutachter sollte auf diesem Gebiet Experte sein, um die Analyse durchführen zu können – bspw. sollte die Konformität mit nationalen Sicherheits- und Gesundheitsbestimmungen von einem Mitglied der Standardisierungsorganisation des entsprechenden Landes geprüft werden.
  • mit wenig Kosten und geringem Aufwand verbunden
  • Sicherstellung der Konformität mit anerkannten Standards in bestimmten Fachgebieten möglich
  • Verlassen auf eine bzw. wenige Expertenmeinung(en)
  • Anwendbarkeit eingeschränkt, da nur für Systeme geeignet, die bestimmte Konformitätsstandards erfüllen müssen
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Minimal
  • Date of last research: 04/2017
Style Guide
Mit von Styleguides (SG) werden Anwendungen, insbesondere Applikationen oder Websites, ein einheitliches Aussehen und eine konsistente Handhabung gegeben. Ihr Ursprung im Bereich HCI ist nicht dokumentiert, sie haben jedoch besonders seit den 1990er-Jahren an Relevanz gewonnen. Ein Styleguide umfasst diverse Gestaltungsrichtlinien, die einerseits für die Entwicklung, aber auch spezifisch für das Design relevant sind. Eine Usability-Verbesserung wird durch die Einhaltung der Regelungen in dem SG gewährleistet. Prädestiniert für Styleguides sind Produktfamilien, die konsistent in ihrer Erscheinung sein sollen. In diesem Sinne fungiert SG nicht direkt als Evaluationsmethode, sondern wird zu Dokumentationszwecken eingesetzt. Eine Evaluierung wird jedoch, auch im Rahmen der Erstellung eines SG, dennoch erzielt – durch die detaillierte Auseinandersetzung mit Anforderungen und Regelungen können Fehler identifiziert und behoben werden.
  • erlaubt einheitliche Gestaltung über mehrere Produkte hinweg
  • dadurch kann auf Nutzerseite die Notwendigkeit vermieden werden, Bedienwissen zu einem anderen Produkt neu erlernen zu müssen; auf Entwicklerseite können Zeit und Aufwand für den Neuentwurf einzelner Elemente der Benutzungsschnittstelle eingespart werden
  • fungiert als Kommunikationsinstrument zwischen den Teams in Entwicklung und Design
  • erleichtert Erweiterungen und Veränderungen am Produkt, die bspw. mehrere Wochen oder Monate nach Abschluss der Entwicklung umgesetzt werden sollen – Dokumentationscharakter
  • relativ geringer Aufwand bei Erstellung, da quasi überwiegend Dokumentation erfolgt
  • stark eingeschränkte Kreativität insbesondere im Design
  • Auftreten von Konflikten, Inkonsistenzen und Mehrdeutigkeiten wahrscheinlich
  • begrenzt auf eine bestimmte Anwendung oder Plattform, daher weite Verbreitung bzw. Einsetzbarkeit unwahrscheinlich
  • die Anweisungen in Styleguides müssen interpretiert werden, was besonders bei vergleichsweise unerfahrenen Anwendern zu Irreführung oder Missverständnissen führen kann
  • Nicht als eigenständige UEM einsetzbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Rather below average
  • Date of last research: 04/2017
Web Usability Index
Bei dem im Jahr 2002 vorgestellten Web Usability Index (WUI) handelt es sich um eine Überarbeitung des Keevil Usability Index, die sich vor allem dem Bewertungsverfahren und der Konzeption der Checkliste widmet. Die Kategorien wurden an den aktuellen Forschungsstand angepasst und Berechnung und Bewertung verbessert. Neben Ja, Nein und Nicht zutreffend als Antwortmöglichkeiten wird mit einer fünfstufigen Skala von Sehr gut bis Mangelhaft gearbeitet. Der breitere Bewertungsspielraum soll dafür sorgen, dass sich Gutachter nicht in ihrem Entscheidungsspielraum eingeschränkt fühlen. Neben der Ähnlichkeit zum Keevil Usability Index orientiert sich WUI auch an Methoden wie Heuristics for Web Communication. Ein Index zeigt das Maß an Usability-Problemen an, die die Website aufweist. Insbesondere eignet sich WUI für einen Vergleich mit konkurrierenden Webangeboten. Der Kriterienkatalog wurde jedoch seit 2002 nicht weiterentwickelt bzw. aktualisiert.
  • schnelle, einfache, kostengünstige Anwendung
  • stellt Orientierungshilfe bzgl. der Usability einer Website dar
  • sowohl hinsichtlich der Kategorien als auch hinsichtlich der Merkmale erweiterbar
  • kein Vorschlagen von Problemlösungen, lediglich Feststellung, dass grobe Mängel vorhanden sind oder nicht
  • seit 2002 nicht weiterentwickelt
  • Weiterentwicklung der UEM KUI, in der Literatur häufige Erwähnung und Anwendung beschrieben, Aktualität nicht gegeben (seit 2002 nicht aktualisiert)
  • Recommended combination(s):
    Nicht spezifiziert; durchzuführen im Anschluss an WUI
  • Total effort: Small
  • Date of last research: 04/2017
Guideline-based Inspection Methods, Special Forms of Heuristic Evaluation
Collaborative Heuristic Evaluation
Die Collaborative Heuristic Evaluation (CHE), auch Group Heuristic Evaluation, ist im Jahr 2010 unter anderem aufgrund des Erfolgs partizipativer Methoden wie Participatory Heuristic Evaluation entwickelt worden. CHE begegnet den Problematiken der HE, dass Gutachter sich infolge individueller Sitzungen uneinig bzgl. Usability-Problemen sein können, dass viele falsch positive Ergebnisse gefunden und gleichzeitig andere Probleme übersehen werden können. Im Rahmen von CHE arbeiten Evaluatoren als Gruppe zusammen, sodass einerseits die Ergebnisse von HE optimiert und andererseits auch die Motivation der Gutachter gesteigert werden soll. Die Gutachter erarbeiten eine gemeinsame Problemdefinition, ohne darauf einzugehen, ob es sich bei dem Problem tatsächlich um eine Beeinträchtigung bei der Systemnutzungs handelt. Daraufhin wird die Schwere des Problems von jedem Gutachter separat bewertet; optional können die Severity Ratings abschließend diskutiert und ein gemeinsames Rating festgelegt werden.
  • signifikant höhere Anzahl identifizierter Usability-Probleme als mit Heuristischer Evaluation – bis zu dreimal höhere Effektivität
  • höhere Verlässlichkeit der Ergebnisse als bei Heuristischer Evaluation
  • es werden (etwas) mehr als schwerwiegend und wichtig eingeschätzte Probleme gefunden als mit Heuristischer Evaluation
  • Interesse und Motivation der Gutachter sind höher als mit Heuristischer Evaluation
  • ggf. Konzentrationsprobleme, falls Sitzung sehr lang
  • zeitliche Probleme aufgrund Notwendigkeit von Gruppensitzung möglich
  • Sonderform der UEM Heuristische Evaluation, mehrere Modifikationen verfügbar, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Small
  • Date of last research: 04/2017
Cooperative Heuristic Evaluation
Im Rahmen der Kooperativen Heuristischen Evaluation (KHE), die im Jahr 1993 vorgestellt wurde, wird die Grenze zwischen Benutzertest und Expertenevaluation aufgehoben: Bei dieser Form der Heuristischen Evaluation werden Paare gebildet, etwa aus je einem Experten und einem repräsentativen Nutzer. Anstatt eines Experten können auch Entwickler mit repräsentativen Nutzern zusammenarbeiten, in diesem Fall kann auf Usability-Experten verzichtet werden. Aufgrund des kooperativen Vorgehens können insbesondere komplexe Systeme, die in spezialisierten Domänen eingebettet sind, untersucht werden. Der Nutzer kann zusätzlich entlastet werden, indem der Kooperationspartner im Hinblick auf die Systemnutzung geschult wird, der Nutzer ihm bei der Abarbeitung der entwickelten Szenarien lediglich zusieht und zu den realen Arbeitshandlungen befragt wird.
  • kosteneffektive Methode
  • schnell und unkompliziert durchführbar, da auf Usability-Experten verzichtet werden kann
  • auch für bzgl. Usability unerfahrene Anwender nutzbar
  • schnelle Identifikation der wichtigsten Probleme
  • kombiniert Vorteile des Evaluierens mit Benutzern und Experten, sofern Experten eingesetzt werden
  • verstärkte Kommunikation zwischen Entwicklern und Benutzern, dadurch Erhöhung des Bewusstseins für die Zielgruppe vonseiten der Entwickler
  • Sensibilisierung von Entwicklern für Usability-Probleme ihrer eigenen Software, die sie ohne die Evaluation aufgrund eines Tunnelblicks infolge der Entwicklung nicht erkannt hätten
  • Ziel ist keine ausführliche Liste mit allen vorhandenen Problemen, sondern ein grober Überblick großer Problemfelder
  • trotz des Ziels, möglichst schwerwiegende Probleme aufdecken zu können, zeigt sich in Studien, dass die Möglichkeit besteht, vor allem kleine Probleme zu identifizieren
  • Effektivität der Methode ist abhängig von der Angemessenheit der Aufgaben, sodass sehr früh im Entwicklungsprozess nicht getestet werden kann, solange der Aufgabenbereich nicht klar definiert ist
  • für Zielstellungen wie Qualitätskontrolle nicht geeignet, da Entwickler stark im Evaluationsprozess involviert und somit die Objektivität gefährdet sein kann
  • Analyse der aufgezeicheten Daten kann zeitaufwendig sein und somit die insgesamt benötigte Zeit stark erhöhen
  • Ergebnisse sind qualitativer Natur, somit liegen keine messbaren Resultate vor
  • Sonderform der UEM Heuristische Evaluation, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Below average
  • Date of last research: 04/2017
HE-Plus
HE-Plus (HE+) wurde 2002 entwickelt, um spezifischen Schwächen der Heuristischen Evaluation zu begegnen. Diese betreffen vor allem die schwer einschätzbare und teils geringe Reliabilität der Ergebnisse einer Heuristischen Evaluation, die unter anderem von dem betrachteten Szenario, den Evaluatoren und deren Fachkenntnis abhängt. Die mögliche hohe Zahl falsch positiver Ergebnisse sowie die festgestellte geringe Identifikationsrate von Usability-Problemen der Heuristischen Evaluation sollen durch HE+ verbessert werden. Dabei soll die Reliabilität dadurch optimiert werden, dass eine zusätzliche kontextualisierte Ebene hinzugefügt wird, die häufige Problembereiche des zu evaluierenden Systems enthält. Abgesehen davon wird auf die Heuristiken Nielsens zurückgegriffen, die dieser im Zusammenhang mit der Heuristischen Evaluation beschrieben hat. Für eine zusätzliche Modifikation der HE+ unter dem Namen HE++ werden zudem leicht modifizierte Heuristiken und eine leicht abgewandelte Kontextebene eingesetzt.
  • im Vergleich zu Heuristischer Evaluation fanden Evaluatoren fast doppelt so viel Usability-Probleme
  • mehr übereinstimmende und somit reliablere Ergebnisse zwischen den Gutachtern als bei Heuristischer Evaluation
  • es passen ggf. nicht alle gefundenen Probleme in die Problembereiche der zusätzlichen kontextualisierten Ebene, bei vergleichsweise unerfahrenen Anwendern ist daher ggf. mit Verwirrung zu rechnen
  • Gutachter fanden Heuristische Evaluation leichter anzuwenden und hatten mehr Vertrauen in ihre eigene Evaluation als bei HE+
  • kaum Anleitung für die Durchführung und Auswertung, vermutlich aufgrund starker Ähnlichkeit zu Heuristischer Evaluation
  • Sonderform der UEM Heuristische Evaluation, Vorwissen zu HE notwendig, Modifikation verfügbar, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Low
  • Date of last research: 04/2017
Heuristics for Web Communication
Die sog. Heuristics for Web Communication (HWC) wurden spezifisch für Webanwendungen entwickelt und bestehen aus fünf Heuristiken, von denen vier inhaltsorientiert sind und eine der Analyse von Server-Logdaten dient. Die Heuristiken lauten: Darstellung von Informationen im Web (Displaying Information on the Web), Navigation im Web (Heuristic for Web Navigation), Rollenspiele im Web (Role Playing Heuristic), Textverständlichkeit (Text Comprehension Heuristic), Sammeln und Analysieren von Webdaten (Web Data Collection for Analyzing and Interacting with Your Users). Oftmals werden jedoch nur die vier inhaltsorientierten Heuristiken verwendet.
  • durch den hohen Detailgrad der Heuristiken werden i. d. R. nicht nur Probleme aufgezeigt, sondern auch Anregungen für mögliche Lösungen gegeben
  • Objektivierung der Fehlerbewertung durch Abstimmung in der Gruppe
  • nur für informationsorientierte Webangebote geeignet
  • Gutachter müssen hinsichtlich HWC geschult sein
  • durch den hohen Detailgrad teils sehr kompliziert verglichen mit allgemeiner gehaltenen Heuristiken
  • fünfte Heuristik ggf. nicht anwendbar aufgrund von Zugriffsproblemen auf das Logfile
  • Sonderform der UEM Heuristische Evaluation, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Rather below average
  • Date of last research: 04/2017
Participatory Heuristic Evaluation
Die Participatory Heuristic Evaluation (PHE) wurde 1998 als Abwandlung der HE entwickelt. Die Originalheuristiken von Nielsen liegen PHE in modifizierter Form zugrunde, zudem werden prozessorientierte Heuristiken in der neuen Kategorie Task and Work Support eingeführt. In PHE werden Nutzer, Usability-Experten und Fachexperten einbezogen. Nutzer fungieren als Ergänzung zum Expertenwissen, das bei der Heuristischen Evaluation eingesetzt wird. Somit trägt die neue Formulierung der Heuristiken primär dazu bei, dass auch Beteiligte wie etwa Endnutzer diese verstehen und somit nutzen können. Die ergänzten Heuristiken dienen dazu, die weitgehende Produktorientierung der zuvor bestehenden Heuristiken, die also bestimmte Probleme in Isolation betrachtet, anzupassen in Richtung einer Prozessorientierung, die auch die nutzerseitigen Arbeitsabläufe und Ziele berücksichtigt.
  • Abwandlung der Heuristischen Evaluation, die unter Konsultation von Usability- und HE-Experte Jakob Nielsen entworfen wurde
  • kombiniert die Vorteile der Heuristischen Evaluation mit einem Vorgehen, das für weitere Anwendergruppen anwendet wurde und eine isolierte Betrachtungsweise vermeidet
  • Verständlichkeit des Vorgehens auch für Endnutzer
  • kann wie Heuristische Evaluation als Discount-Usability-Methode eingesetzt werden, sofern Nutzer mit nur geringen Zusatzkosten und wenig Aufwand einbezogen werden können – somit fast so kosteneffektiv und unkompliziert wie Heuristische Evaluation
  • es erfolgte keine formale Prüfung der Umformulierung, um deren Wert für die Evaluation zu testen
  • Aufwand steigt, wenn Nutzer nicht leicht zu rekrutieren sind
  • zwar ähnlich effektiv wie Heuristische Evaluation, jedoch können beide Methoden in praktischer Anwendung insgesamt nur wenig effektiv sein
  • Sonderform der UEM Heuristische Evaluation, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Rather below average
  • Date of last research: 04/2017
Perspective-based Inspection
Bei der im Jahr 1999 vorgestellten Perspective-based Inspection (PBI) wird von der Annahme ausgegangen, dass das Identifizieren von Usability-Problemen wahrscheinlicher ist, wenn verschiedene Perspektiven bei der Evaluation eingenommen werden. PBI bedient sich der Grundideen des sog. Perspective-based Reading (PBR), einer Form des Validierens und Verifizierens von Dokumenten, die mit der Softwareentwicklung verknüpft sind. Im Vergleich zu der Heuristischen Evaluation erfolgt ein Perspektivwechsel, der es auch einem einzelnen Gutachter ermöglichen soll, besonders viele Usability-Probleme in mehreren Durchläufen zu identifizieren. Jede Perspektive weist dabei bestimmte Fragen für die Evaluation sowie Ziele auf, die für diese Perspektive charakteristisch sind. In einer Gruppe von Gutachtern nimmt jeder Gutachter eine eigene Rolle ein, wobei unterschiedliche, individuell passend erscheinend Rollen definiert werden können.
  • Stärken vergleichbar mit Heuristischer Evaluation sowie zusätzlich weitere Stärken
  • Auffinden zahlreicher Arten von Problemen sowie Bestreben, sämtliche vorhandenen Usability-Probleme durch Einnehmen verschiedener Perspektiven aufzudecken
  • Identifizierbarkeit besonders praxisrelevanter Usability-Probleme durch Berücksichtigung von Perspektiven, die für die tatsächliche Nutzungssituation wesentlich sind
  • Perspektiven je nach System passend wählbar
  • Sensibilisierung der Gutachter für Probleme spezifischer Zielgruppen, bspw. kleine Schriftgrößen bei älteren Benutzern
  • kostengünstig und unkompliziert in der Anwendung
  • Verbesserung der Ergebnisqualität von HE – in Abhängigkeit vom evaluierten System mehr oder weniger ausgeprägt – um bis zu 30 % bei drei Gutachtern erreichbar
  • zielführende Alternative zu Benutzertests, wenn keine repräsentativen Nutzer verfügbar oder zeitlich einzubinden sind
  • auch anwendbar, wenn Gutachter nicht vor Ort, sondern bspw. über verschiedene Regionen verteilt sind
  • auch geeignet für Usability-unerfahrene Personen, da durch Perspektivwechsel eine Steigerung der Problemfindungsfähigkeit erreicht werden kann
  • wie auch Stärken ebenfalls vergleichbar mit Heuristischer Evaluation, zusätzlich weitere Schwächen
  • Methode unzureichend dokumentiert: kaum Literatur zu Auswahl von Perspektiven und Einweisung der Gutachter bzgl. des tatsächlichen Gebrauchs der Perspektiven in der Evaluation vorhanden
  • Perspektivwechsel kann Gutachtern schwer fallen, diese müssen dem Rollenspiel zudem offen gegenüberstehen, um sich darauf einlassen zu können
  • Sonderform der UEM Heuristische Evaluation, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Rather below average
  • Date of last research: 04/2017
Combination of Task-based and Guideline-based Approach
Collaborative Usability Inspection
Die Collaborative Usability Inspection (CUI) wurde erstmals 1994 erwähnt. In der systematischen Untersuchung arbeiten Endnutzer, Fachexperten, Entwickler und Usability-Experten zusammen. Ähnlich wie bei Thinking Aloud beginnen die Nutzer, ihre Gedanken bzgl. des Systems zu äußern, ohne dass Entwickler dies zunächst kommentieren. Es werden einzelne Bildschirmanzeigen der Software, die Navigation zwischen diesen, ihre Relevanz für die Aufgabenerfüllung und die Fehlertoleranz der Benutzerschnittstelle untersucht. Dabei beinhaltet die CUI Elemente von Heuristischer Evaluation, Pluralistic Walkthrough und Cognitive Walkthrough. Für die Durchführung wird auf beliebige Heuristiken zurückgegriffen. Während der Evaluation nehmen die Beteiligten verschiedene Rollen ein, um die Effizienz und Effektivität der Methode zu gewährleisten. Die einzelnen Rollen weisen dabei unterschiedliche Befugnisse auf.
  • kostengünstiger bei weniger Zeitaufwand als für Benutzertestmethoden
  • Einbeziehen von Personen mit verschiedenen Perspektiven und Kenntnissen
  • Entwickler können während der Evaluation gesammeltes Wissen für die Usability-Verbesserung von Software nutzen, auch über das aktuelle Projekt hinausgehend
  • Betrachtung auch von Aspekten, die nicht mit dem untersuchten Szenario in Zusammenhang stehen
  • Kombination der Vorteile vieler anderer Evaluationsmethoden
  • unkomplizierte und gut dokumentierte Durchführung
  • positive Rezeption bei Nutzern infolge von deren Einbeziehen
  • keine Beschreibung, wie mit auftauchenden Unstimmigkeiten zwischen Gutachtern umgegangen werden soll
  • keine genauen Angaben bzw. Maße zu der Effektivitätssteigerung verglichen mit verwandten Methoden, bspw. Heuristische Evaluation
  • zahlreiche Personen beteiligt, sodass für deren Verfügbarkeit und Motivation gesorgt werden muss – bspw. kann die Methode nicht angewendet werden, wenn nicht mindestens fünf Personen verfügbar sind
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Rather below average
  • Date of last research: 04/2017
Contextual Walkthrough
Der Contextual Walkthrough (CWT) wurde erstmals im Jahr 2000 erwähnt und ist bzgl. der Durchführung der Methode Heuristic Walkthrough ähnlich, wird jedoch im Kontext der tatsächlichen Produktnutzung angewendet. Einige Autoren beschreiben CWT auch als Abwandlung der Contextual Inquiry oder als Weiterentwicklung der Empirie des Usability Testing, wobei die Durchführung der Methode jedoch stets ähnlich beschrieben wird. Durch die Einbindung des Kontextes in die Evaluation soll ein Mehrwert im Vergleich zu einem vergleichbaren Vorgehen unter laborähnlichen Bedingungen erzielt werden.
  • verbindet Vorteile des Heuristic Walkthrough mit den Vorzügen kontextbezogener Evaluation
  • Erkennen von Problemen, die erst aus der Nutzung im Kontext entstehen – bspw. erschwertes Tippen auf einem mobilen Endgerät während des Fahrstuhlfahrens
  • Erkennen von mehr und schwerwiegenderen Probleme im Vergleich zu Heuristischer Evaluation und auch zu Heuristic Walkthrough, da mehr Wert auf Schwierigkeiten bei zielbezogenem Handeln gelegt wird
  • realistischere Problemeinschätzung als bspw. durch Heuristische Evaluation, da Gegebenheiten des Umfeldes einbezogen werden
  • leichteres Arbeiten durch bessere Vorstellungsmöglichkeiten hinsichtlich der Systemnutzung
  • bedarf mehr Zeit als Heuristische Evaluation oder Heuristic Walkthrough
  • zusätzlicher Aufwand durch Training, benötigte Zeit und Erlangen von Zugang zu den entsprechenden Orten überwiegt i. d. R. Vorteile der Evaluation an Ort und Stelle
  • eingeschränkter Handlungsrahmen bei der Suche nach Usability-Problemen, bspw. im Vergleich zu Metaphors of Human Thinking
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Rather below average
  • Date of last research: 04/2017
Formal Usability Inspection
Die Formal Usability Inspection (FUI) entwickelte sich aus ersten Ansätzen für Beobachtungsverfahren in den 1970er- und 1980er-Jahren. Es handelt sich um eine formelle Überprüfung der Aufgaben, die Benutzer bei der Anwendung eines Systems ausführen werden. Dabei kommen durch diese Aufgabenorientierung Aspekte des Cognitive Walkthrough zum Tragen; kombiniert werden diese mit der Anwendung von Heuristiken. Gruppen- und Individualevaluationen können durch formelle Inspektionen kombiniert werden. Dabei können sowohl reguläre Entwickler des Systems als auch Experten zum Einsatz kommen, wobei auf mögliche Vorteile bzgl. der zu erzielenden Ergebnisse bei Zurückgreifen auf Spezialisten hingewiesen wird. Die Charakteristiken dieser formellen Evaluation sind ein Problemfindungs- und Beschreibungsprozess, ein Untersuchungsteam und eine sechsstufige Ablaufstruktur.
  • klar definiertes Vorgehen, sodass effizientes und effektives Arbeiten der Teammitglieder gewährleistet wird
  • Identifikation verschiedener Probleme aufgrund der Zusammenarbeit verschiedener Fachexperten
  • nachfolgende Benutzertests sind effektiver und effizienter, weil weniger Usability-Probleme zu identifizieren sind
  • Nutzerprofile und Aufgabenszenarien können in späteren Evaluationen wiederverwendet werden
  • Entwickler können basierend auf der Konfrontation mit fremden Designumsetzungen künftig auf eine größere Vielfalt möglicher Problemlösungen zurückgreifen
  • nicht geeignet für agile Softwareentwicklung
  • relativ hoher Zeitaufwand für mindestens vier Leute, daher möglicherweise komplexe Rekrutierung der Gutachter und Organisation der Durchführung
  • Diskussion in der Gruppe erfordert gründliche Vorbereitung von Gutachtern auf individuelle Ebene, sodass Gutachter evtl. unzureichend vorbereitet für Gruppendiskussionen sind und bspw. aufgrund von Schuldgefühlen nicht oder kaum an der Diskussion beteiligen – daraus kann Effizienz- und Effektivitätsverlust der Evaluation resultieren
  • Entscheidung, welche Aspekte des noch nicht fertigen Systems evaluiert werden, kann je nach Situation komplex sein und möglicherweise zu Fehlern führen
  • In der Literatur relativ selten Erwähnung und Anwendung beschrieben, Aktualität nicht gegeben (seit 1994 nicht aktualisiert)
  • Total effort: Above average
  • Date of last research: 04/2017
Heuristic Walkthrough
Der Heuristic Walkthrough (HWT) kombiniert die Vorteile von Heuristischer Evaluation, Cognitive Walkthrough und Usability Walkthrough. HWT ist strukturierter als die Heuristische Evaluation, aber weniger strukturiert als der Cognitive Walkthrough. HWT wird beschrieben als effektive aufgabenorientierte Evaluationsmethode, die schnell und unkompliziert zu erlernen und anzuwenden ist. Durch diese Aufgabenorientierung soll die erste Auseinandersetzung der Gutachter mit dem System jener der Nutzer, die ebenfalls zunächst aufgrund einer intendierten Aufgabenerfüllung mit dem System arbeiten werden, ähneln. Aus der Anlehnung an bestehende UEMs ergibt sich ein zweistufiger Ablauf. In beiden Durchgängen notieren die Gutachter Probleme, die sie zunächst individuell und später nach einer Diskussion in der Gruppe noch einmal gemeinsam wichten.
  • effektiver bzgl. der entdeckten Usability-Probleme als andere Inspektionsmethoden wie HE oder CW, wenn nur ein oder zwei Evaluatoren zur Verfügung stehen
  • stärkere Anleitung als durch andere Inspektionsmethoden, daher weniger falsch positive Ergebnisse (gefundene Usability-Probleme, die jedoch nicht für den Nutzer relevant) als mit anderen heuristischen Methoden
  • Kombination von freier und durch Heuristiken angeleitete Begutachtung erlaubt Identifizierung zahlreicher kleiner Probleme ohne falsch positive Ergebnisse
  • Problembeschreibung näher an den einzelnen Aufgaben, im Gegensatz zu HE, im Rahmen derer die Problembeschreibung eher auf das Produkt bezogen ist
  • keine genaue Vorgabe, wie viel Zeit jeweils für den freien bzw. aufgabenorientierten Teil der Methode verwendet werden soll – abhängig von System, Evaluatoren und Reifegrad des Produkts
  • Modifikation verfügbar, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Low
  • Date of last research: 04/2017
Usability Walkthrough
Der Usability Walkthrough (UWT) wurde Anfang der 1990er-Jahre beschrieben und ermöglicht es, nachzuvollziehen, ob einzelne Bildschirmsequenzen einer logischen Reihenfolge folgen und benutzbar sowie konsistent sind. Hierfür erfolgt eine systematische Betrachtung eines papierbasierten Prototypen. UWT wird bereits seit vielen Jahren von Usability-Experten eingesetzt, wenn eine Evaluation angestrebt wird, ohne dass eine Simulation oder ein ausgearbeiteter Prototyp vorhanden wäre. Dabei wird zunächst das Interface frei erforscht, ähnlich einer Heuristischen Evaluation, bevor szenariobasiert gearbeitet wird, also aufgabenbasiert bestimmte Aspekte des Systems untersucht werden. Die beiden Evaluationsteile finden in umgekehrter Reihenfolge zu dem Ablauf eines Pluralistic Walkthrough statt, der dem UWT ähnelt, jedoch nach diesem konzipiert wurde und mit verschiedenen Nutzergruppen durchgeführt wird. Das individuelle Vorgehen von Nutzern beim UWT ähnelt regulären Benutzertests, im Rahmen welcher ebenfalls mehrere Personen individuell arbeiten.
  • schnell, einfach, kostengünstig und vergleichsweise effektiv
  • Erhebung zahlreicher Daten, die hilfreich für eine Usability-Verbesserung sind und teils ggf. nicht durch Benutzertestmethoden gefunden werden
  • nicht alle Handlungen lassen sich in einem Walkthrough simulieren
  • durch das schrittweise Durchgehen kein authentisches Gefühl des Arbeitens mit dem System
  • beschränkte Anzahl und Schwere gefundener Probleme
  • In der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Below average
  • Date of last research: 04/2017
Usability Testing
Competitive Usability Testing
Competitive Usability Testing (CUT), auch Comparative Usability Testing oder Benchmark Usability Testing genannt, bezeichnet den Vergleich des eigenen Systems mit einem oder mehreren konkurrierenden Systemen der gleichen Branche. Während einige Autoren ausschließlich Websites als Evaluationsgegenstand von CUT anführen, wird andernorts in der Literatur der Bewertungsgegenstand neutral gehalten. Im Rahmen von CUT Testnutzer einen Vergleich mindestens zweier konkurrierender Produkte durch. Denkbar ist auch ein Vergleich verschiedener Designalternativen. Entweder können ganzheitlich bestimmte allgemein gehaltene Messgrößen oder bestimmte Features, Designelemente oder Inhalte geprüft werden. Gemessen werden kann eine Prozentzahl, die angibt, wie viel besser oder schlechter das eigene System im Vergleich abschneidet.
  • Risikominimierung durch Evaluierung von Konkurrenten, die als Early Adopters gelten und dadurch Einschätzbarkeit der Sinnhaftigkeit neuer Features vor eigenständiger Implementierung
  • Schaffung von Mehrwert durch Erkennen von Features, die von Nutzern gewünscht werden, und Implementierung dieser auf der eigenen Website
  • Profitieren von der Arbeit von Konkurrenten zu Usability, indem deren Stärken übernommen werden und zweifelhafte Features nicht implementiert werden
  • realitätsnahe Evaluation, da Websitebesucher in der Realität – bspw. im Vorhinein eines Kaufs – ebenfalls verschiedene Angebote vergleichen, bspw. hinsichtlich Inhalt, Funktionalität und allgemeinem Eindruck
  • schnelle Identifizierbarkeit von bestimmten Prozessschritten, die Konkurrenten in ähnlichen Prozessen besser implementiert haben
  • benötigt mehr Zeit und Ressourcen als die Prüfung nur einer Benutzerschnittstelle
  • wenn Konzepte und Ideen von der Konkurrenz ungeprüft übernommen werden, ist es möglich, dass auch Fehler und suboptimale Implementierungslösungen übernommen werden
  • Vergleichbarkeit der Ergebnisse ist beeinträchtigt, wenn bspw. Websites nicht anhand identischer Aufgaben verglichen werden, sondern der Ablauf differiert
  • Einsatz möglichst über längeren Zeitraum, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Total effort: Increased
  • Date of last research: 04/2017
Eye-Tracking
Bei Eye-Tracking (ET) handelt es sich um eine Blickbewegungsmessung, die primär im Zusammenhang mit Websiteevaluation durchgeführt wird. Dabei werden die Blickbewegungen realer Nutzer aufgezeichnet, um so Rückschlüsse auf die Wahrnehmung und Zusammenhänge mit Nutzerhandlungen zu ziehen. Aufgrund der erforderlichen Technik konnte ET vor allem ab den 1980er-Jahren zielführend im Rahmen von Usability-Evaluationen eingesetzt werden konnte. In den letzten Jahrzehnten hat sich die für ET genutzte Technologie stark weiterentwickelt. So kann heute mit dezent am stationären Gerät montierter Infrarottechnik anstelle dominanter Helmkameras gearbeitet werden, was die Übertragbarkeit der Ergebnisse auf reale Anwendungssituationen steigert. ET ist eine quantitative Methode, die ihren Ursprung in der frühen Forschung zu Blickverläufen von Personen beim Lesen hat, im Rahmen derer Javel im Jahr 1879 die sogenannten Fixationen und Sakkaden beobachtete und erstmals dokumentierte. ET bezieht sich direkt auf diese Erkenntnisse.
  • vermittelt einen guten Überblick über den (vor allem visuellen) Eindruck des Systems vonseiten beteiligter Nutzer
  • im Gegensatz zu anderen Methoden können auch Angaben über Zeiten gemacht werden, in denen Nutzer keine Aktion ausführen, da ihre Blickbewegungen dennoch interpretiert werden können
  • Fixationsdauer und -pfade können zur Identifizierung von Ablenkungen oder auftretenden Problemen genutzt werden
  • Möglichkeit zum Vergleich verschiedener Designvarianten
  • (inzwischen) Möglichkeit der kostengünstigen Miete erforderlicher Geräte für die Evaluation
  • über höhere Ebenen von Verstehen und Aufmerksamkeit kann aufgrund der alleinigen Berücksichtigung von Blickbewegungen und Fixationen keine Aussage getroffen werden – längeres Fixieren kann bspw. auf hohes oder auch gar kein Verständnis des Nutzers hindeuten
  • Erfassung der Daten nur bei relativ starrem Verharren vonseiten der Nutzer möglich, sonst möglicherweise Bewegung aus dem erfassten Bereich heraus – erzeugt ein unnatürliches Gefühl bei dem Nutzer; wenn dieser zusätzlich darauf hingewiesen werden muss, so unterbricht dies seine natürliche Augenbewegung
  • wenn Dinge nicht direkt mit dem Blick fixiert werden bzw. sich in der Peripherie des Sehfeldes befinden, jedoch dennoch wahrgenommen und verarbeitet werden, kann dies mithilfe von ET nicht erfasst werden
  • bis zu 50 Probanden notwendig, um verlässliche Ergebnisse erzielen zu können
  • ausschließlich quantitativ, da bspw. qualitative Rückschlüsse bzgl. des Grundes der Betrachtung einzelner Elemente nicht allein durch ET möglich sind
  • Erforderliche Technik kann gemietet werden, mehrere Modifikationen verfügbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Weitere Benutzertestmethode(n), bspw. Thinking Aloud, oder Befragungen
  • Total effort: High
  • Date of last research: 04/2017
Rapid Iterative Testing and Evaluation
Die Methode Rapid Iterative Testing and Evaluation (RITE) wurde im Jahr 2002 vorgestellt, wobei RITE trotz fehlender formaler Definition in der Praxis bereits zuvor verwendet wurde. RITE ist ein formativer Benutzertest, der die Frage nach der idealen Anzahl Testnutzer um die Frage erweitert, wie wahrscheinlich es ist, gefundene Probleme auch schnell und kostengünstig lösen zu können: Die Durchführung ist einem Usability-Test ähnlich, aber zusätzlich erfolgen bei RITE schnelle Veränderungen der Benutzerschnittstelle. Die Problembehebung wird nach der Implementierung verifiziert, um sofort einschtätzen zu können, ob die Überarbeitung das Problem löst oder weitere Schritte zu dessen Behebung erforderlich sind. Bei RITE werden somit mehrere aufeinanderfolge Tests in kleinerem Rahmen durchgeführt, anstatt einen umfangreicheren Test über den gesamten verfügbaren Zeitraum für die Evaluation zu erstrecken.
  • Discount-Usability-Methode, also niedrige Kosten
  • hohe Effektivität, also im Vergleich zu anderen Benutzertestmethoden hohe Zahl identifizierter Usability-Probleme in vertretbarem Zeitaufwand
  • viele Autoren beschreiben, dass keine weiteren UEMs notwendig sind
  • durch sofortiges Beheben von Problemen können im nächsten Durchlauf neue Probleme gefunden werden
  • durch frühe Behebung von Problemen und folgendes Testen mit weiteren Probanden kann verifiziert werden, dass die implementierten Lösungen die entsprechenden Probleme tatsächlich behoben haben
  • beugt Problematik vor, dass bei herkömmlichen Usability-Tests oft keine Zeit bleibt, um die Effektivität empfohlener Lösungsvarianten zu prüfen
  • Zusammenarbeit und gemeinsame Problemfindung von Stakeholdern und Entwicklerteam, dadurch stärkeres Engagement im Team
  • kann der Notwendigkeit umfassender Veränderungen spät im Entwicklungsprozess vorbeugen, wenn früh im Prozess und gründlich mit RITE evaluiert wurde – dennoch sollten später im Prozess hinzugefügte Elemente ebenfalls – durch weitere Methoden – evaluiert werden
  • für Vorgehensweisen wie Agile Development und Rapid Development geeignet
  • wenn Problem bzw. Lösung nicht klar ist, kann eine unsaubere Modifikation andere Teile des Systems beeinträchtigen oder sogar unbenutzbar machen
  • zu viele Problembehebungen auf einmal, von denen auch nur eine die Benutzererfahrung schmälert, können dazu führen, dass lange nach der nicht funktionierenden Veränderung gesucht werden muss
  • wenn nach der Implementierung von Lösungen nicht verifiziert wird, dass diese zielführend ist, kann für die Verbesserung im Vergleich zur vorherigen Systemversion nicht garantiert werden
  • eingeschränkte Reliabilität und Validität
  • mit wenigen Probanden können nicht alle Usability-Probleme aufgedeckt werden; problematisch ist dies besonders dann, wenn für das Funktionieren der Software kein Problem unentdeckt bleiben darf
  • nicht geeignet für ein komplettes Redesign
  • nicht geeignet zur Erfassung quantitativer Daten – aufgrund der Willkür bzgl. Änderungsentscheidungen können statistische Daten kaum erhoben werden
  • erfordert viel Zeit und das Einbeziehen des Kernteams der Entwicklung
  • nicht für vergleichsweise unerfahrene potenzielle Anwender oder Laien zu empfehlen
  • risikoreiche Methode, denn es müssen früh im Entwicklungsprozess viele Ressourcen investiert werden, um RITE zielführend durchführen zu können
  • Besondere viele Bedingungen müssen für Anwendung erfüllt sein, Einsatz möglichst über längeren Zeitraum, mehrere Modifikationen verfügbar, formatives Vorgehen, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Von einigen Autoren empfohlen, jedoch nicht spezifiziert; teilweise wird Kombination mit weiteren UEMs als nicht notwendig beschrieben
  • Total effort: High
  • Date of last research: 04/2017
Thinking Aloud
Die Methode Thinking Aloud (TA) wurde 1982 im Rahmen eines technischen Berichtes beschrieben. Viele Autoren sehen TA als eine der wichtigsten Usability-Evalutionsmethoden überhaupt an, was auf die zahlreichen Vorteile bei sehr kostengünstiger und einfacher Anwendbarkeit im Rahmen von Discount Usability Engineering zurückgeführt wird. TA hält Nutzer im Rahmen einer formativen Evaluation dazu an, während der Systemnutzung ihre Gedanken dazu ständig laut zu äußern. Mit TA können auf qualitativer Ebene viele Informationen mit einer geringen Anzahl an Testnutzern gewonnen werden. Üblicherweise wird TA in laborbasierten Umgebungen eingesetzt, kann jedoch in seltenen Fällen auch direkt am Arbeitsplatz des Nutzers durchgeführt werden. Üblicherweise wird jedoch auf ein laborbasiertes Setting zurückgegriffen.
  • kostengünstige und flexible Methode
  • vergleichsweise geringe Anzahl an Testnutzern erforderlich
  • Gedanken der Nutzer werden unmittelbar erfasst
  • neben dem Feststellen von Problemen können auch Gründe dafür sowie Verbesserungspotenzial identifiziert werden
  • auch bei nicht exakt vorschriftsmäßiger Verwendung sind zielführende Ergebnisse erreichbar, da keine quantitativen Daten erhoben werden, also keine statistischen Auswertungen folgen
  • auch geeignet für agile Softwareentwicklung
  • hohe Überzeugungskraft gegenüber Stakeholdern
  • leicht zu erlernen sowohl für die Probanden als auch für eher unerfahrene Anwender der Methode
  • aufgrund der geringen Kosten für die Durchführung wiederholt durchführbar, bspw. wöchentlich
  • keine komplexe technische Ausrüstung benötigt, wie etwa bei Eye-Tracking
  • im Vergleich bspw. zu Metaphors of Human Thinking werden vielfältigere Probleme identifiziert
  • wird von Gutachtern gegenüber Inspektionsmethoden bevorzugt
  • ununterbrochener Monolog kann Probanden schwer fallen und ihnen unnatürlich vorkommen
  • Nutzer sprechen ggf. nicht ihre tatsächlichen initialen Gedanken aus, sondern reflektieren – also filtern – sie zunächst, bevor sie sie laut aussprechen
  • einige Gedanken sprechen Nutzer möglicherweise gar nicht aus, etwa wenn Handlungen intuitiv erfolgen und dem Nutzer keine Äußerung notwendig erscheint
  • da Nutzer ggf. ermutigt werden müssen, weiter zu sprechen, kann es durch die Ermunterung zu einer Veränderung des Nutzerverhaltens kommen, sodass aufgrund der Beeinflussung keine tatsächliche Nutzungserfahrung mehr wiedergegeben wird, was die Ergebnisqualität beeinträchtigt
  • als alleinstehende Evaluationsmethode nicht ausreichend
  • Cognitive Walkthrough als passender empfohlen, wenn schwerwiegende Probleme zu erheben sind
  • nicht mit Performance-Messungen kompatibel
  • Doppelbelastung durch Bearbeiten der Aufgaben und lautes Denken, dadurch Zeitverzögerung möglich
  • Ergebnisse können von der Nutzerleistung unter realen Bedingungen abweichen
  • Nutzer kommentieren auch Aspekte des Systems, die ihnen (nicht) gefallen, was für die Usability irrelevant sein kann
  • Formatives Vorgehen, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Empfohlen, jedoch nicht spezifiziert
  • Total effort: Rather below average
  • Date of last research: 04/2017
Usability Test
Der Ursprung der Methode Usability-Test (UT) lässt sich nicht genau nachvollziehen, sodass zu vermuten ist, dass sich die Methode durch Verwendung in der Praxis etablierte und erst später durch verschiedene Autoren formal beschrieben wurde. Bei UT handelt es sich um eine sehr leistungsfähige Methode, die eine hohe Anpassbarkeit dahingehend aufweist, dass bspw. unter Berücksichtigung verschiedener Zielstellungen Parameter abweichend definiert werden können. So liefern UTs quantitative sowie auch qualitative Daten zurück. Zusätzlich können subjektive Daten, die mittels ggf. eingesetzter Fragebögen ermittelt wurden, dokumentiert werden. Auch können sowohl formative als auch summative Evaluationen mit einem UT abgedeckt werden. Oftmals ist Thinking Aloud elementarer Bestandteil der Durchführung. Auch vordefinierte Szenarien und repräsentative Aufgaben, die während der Durchführung bearbeitet werden sollen, sind kennzeichnend für UTs. Die Methode eignet sich auch für agile Softwareentwicklung.
  • Ergebnisqualität aufgrund der vielfältigen Erhebung und hohen Aussagekraft als sehr gut zu werten
  • hohe Überzeugungskraft
  • Konzeption der Methode, welche Nutzerbeobachtung und Nutzerbefragung in Kombination umfasst, lässt konkrete Handlungsempfehlungen zur Problembehebung zu
  • für Benutzertest auch vergleichsweise spartanisch durchführbar, etwa mit lediglich einem Computer und ohne Aufzeichnungsmaterial, Leitfäden etc., jedoch durch Reduzierung der Komplexität ggf. Erschweren der späteren Datenauswertung
  • besonders bei der Evaluation von Websites vorteilhaft, vor allem durch Möglichkeit der onlinebasierten Durchführung
  • hoher finanzieller und zeitlicher Aufwand aufgrund der Vielfalt in der Datenerhebung, der Involvierung echter Testnutzer und der Tatsache, dass möglichst in einem Usability-Labor gearbeitet werden sollte
  • Kosten erhöhen sich, je mehr Wert auf professionelle technische Ausrüstung und entsprechende Räumlichkeiten gelegt wird
  • Kosten und Aufwand schwer einschätzbar, da die Methode in äußerst unterschiedlichen Ausprägungen eingesetzt werden kann
  • Mehrere Modifikationen verfügbar, formativ oder summativ einsetzbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Oftmals als Teil der Durchführung, zum Beispiel Thinking Aloud, Eye-Tracking, auch Nachbefragungen
  • Total effort: Very high
  • Date of last research: 04/2017
User Edit
Die Methode User Edit (UE) wurde im Jahr 1981 vorgestellt – zwar wird auch für die Jahre zuvor eine ausgiebige Verwendung der Methode beschreiben, etwa in den 1970er-Jahren, die jedoch nicht gut dokumentiert wurde. Im Rahmen von UE arbeiten Nutzer mit einem bestehenden System, und zwar nur mithilfe von dessen Handbuch: Die Methode basiert darauf, dass Nutzer, die sich mit dem zu untersuchenden System nicht auskennen, ausschließlich dessen Handbuch auf Benutzbarkeit überprüfen. Es ist zu vermuten, dass die System-Usability zumindest indirekt von den Verbesserungsmaßnahmen profitiert, wenn Nutzer durch die Optimierung des Handbuches besser damit arbeiten können.
  • schnelle, kostengünstige, simple und leistungsfähige Methode
  • Aufwand kann je nach verfügbaren Ressourcen reduziert werden
  • es können unerwartete Probleme identifiziert werden, da die zugrunde liegenden Texte ggf. schon mehrfach technisch geprüft worden sind, jedoch nicht aus Nutzersicht
  • neben der Verbesserung des evaluierten Systemhandbuchs kann eine langfristige Verbesserung hinsichtlich Verständnis von Texten und zugrunde liegenden Technologien erzielt werden
  • relativ niedrige Anzahl benötigter Probanden
  • für Online- und auch papierbasierte Handbücher anwendbar
  • kaum Aufwand für Vorbereitung, da bspw. benötigte Utensilien wie Aufnahmegeräte vorhanden sind und Evaluation ohne spezielles Usability-Labor etc. durchführbar ist
  • es wird nur das Handbuch geprüft, nicht das System selbst – somit keine direkte Aussage über die System-Usability
  • bei informellem Testen wird aufgrund der linearen Abarbeitung der im Handbuch enthaltenen Seiten nicht geprüft, ob der Nutzer in der Lage wäre, bestimmte Anweisungen selbstständig zu finden, wenn diese benötigt werden
  • ggf. hoher Zeitaufwand, wenn zum Beispiel zahlreiche Aufgaben auszuführen sind oder das Handbuch sehr umfangreich ist
  • Methode fand keine weite Verbreitung
  • Nur mit Systemhandbuch durchführbar, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Thinking Aloud
  • Total effort: Below average
  • Date of last research: 04/2017
Web Analytics
Die Methode Web Analytics (WA), im Englischen auch Web Metrics oder Site Stats, hat inbesondere seit der Jahrtausendwende an Popularität gewonnen und seit dem Jahr 2008 noch einmal an Relevanz zugenommen. Dabei ist kein konkreter Ursprung der Methode im Bereich HCI festzustellen. WA ist ein Aspekt der Search Engine Optimization (SEO). Zwar wird die Methode in der Regel für die Verbesserung von online erfolgenden Marketingmaßnahmen genutzt, jedoch kann damit auch die Usability von Websites untersucht werden. Im Rahmen von WA werden Websitedaten gesammelt, gespeichert und bzgl. spezifischer Unternehmensziele analysiert. Die Art der erhobenen Daten ist somit von den zuvor identifizierten unternehmens- und nutzerseitigen Zielen abhängig, die durch die Nutzung von WA erreicht bzw. deren Erreichung geprüft werden sollen. Es können verschiedene Informationen ausgewertet werden, etwa Nutzerstandort, genutzte Browser und Betriebssysteme, Nutzerinteraktion mit der Website, auf einer Seite verbrachte Zeit und bei der Suche eingegebene Stichworte.
  • Erkenntnisse, die durch andere Evaluationsmethoden erzielt wurden, können durch WA bestätigt bzw. untermauert werden
  • kostengünstig einsetzbar
  • Daten werden rund um die Uhr erhoben
  • ökologische Validität gesammelter Informationen gegeben, da Nutzer Datenerhebung nicht bemerken
  • es stehen echte Ziele und echte Aufgaben im Fokus, Nutzerbeobachtung erfolgt während der tatsächlichen Websitenutzung
  • repräsentative und große Stichprobe unkompliziert erfassbar
  • sehr unkompliziert, da kein Moderator oder Experte notwendig und Datensammlung sowie Datenauswertung weitgehend automatisierbar
  • Ergebnisse leicht visualisierbar und verständlich
  • langfristige Erfolgsüberprüfung möglich
  • Gründe für Nutzerverhalten und Klicks können nicht identifiziert werden
  • große zu analysierende Datenmenge, die ggf. nicht vollumfänglich Aussagekraft hinsichtlich Usability und deren Evaluation aufweist
  • kaum bzw. keine Informationen über Nutzungskontext und Nutzerintentionen bei der Websitenutzung
  • es können nur Informationen über den aktuellen Zustand der Website gesammelt; bspw. keine Änderungen simuliert werden
  • falsche Interpretationen möglich, auch aufgrund der hohen generierten Datenmenge
  • Probanden der Evaluation sind völlig unbekannt, somit kaum Kontextinformationen
  • Datenschutzprobleme möglich, bspw. bei internationaler Datenerhebung sowie bei Zurückgreifen auf externe Dienstleister
  • Einsatz möglichst über längeren Zeitraum, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Beliebig – Inspektionsmethode(n), weitere Benutzertestmethode(n), Befragung(en)
  • Total effort: Below average
  • Date of last research: 04/2017
Wizard of Oz
Wizard of Oz (WOZ) wurde 1983 vorgestellt und hieß erst Calendar Access Language (CAL). Wesentlicher Bestandteil von WOZ ist eine experimentelle Simulation, die als sogenanntes OZ-Paradigma bezeichnet wird und Probanden den Eindruck gibt, dass sie mit einem System arbeiten, das ihre Sprache versteht und mit ihnen interagiert: So erlaubt WOZ das Simulieren eines vollumfänglichen Systems in frühen Entwicklungsphasen, indem menschliche Personen die Erkennung und Interpretation von Nutzereingaben anstelle des Systems übernehmen, da das System dies noch nicht zu leisten vermag. Anstelle des Systems interagiert also ein Usability-Experte mit den Probanden, dieser fungiert als Wizard, also Zauberer. Die Rolle des Wizards kann jedoch auch von einem Mitglied des Entwicklerteams übernommen werden. Der Benutzer soll nicht merken, dass er mit einer menschlichen Person anstatt eines echten Sprachsystems interagiert. Bei WOZ handelt es sich um einen formativen Evaluationsansatz, der überwiegend für Webapplikationen sowie sprachbasierte Dialogsysteme zum Einsatz kommt.
  • früh im Entwicklungsprozess und kostengünstig einsetzbar
  • hohe Flexibilität durch menschliches Eingreifen
  • unkompliziertes Testen durch weitgehende Simulation noch nicht implementierter Features
  • Probleme, die durch noch nicht hinreichend implementierte Spracherkennung während der Evaluation auftreten könnten, entfallen, da mit menschenbasierter Interpretation gearbeitet wird
  • schnelle und kleine Anpassungen können sofort überprüft werden, indem der Wizard diese einbezieht
  • auch iteratives Testen problemlos möglich, dadurch Validierung vorheriger Ergebnisse und Weiterentwicklung des Systems über die Zeit
  • geeignet für die Evaluation von Spracherkennungs- und Abbildungssystemen sowie von Kommandosprache
  • einsetzbar auch für komplexe Funktionalitäten, die schwer umzusetzen sind
  • Wizard erlangt wertvolle Einblicke in die Aktivitäten des Nutzers
  • mögliche Spracherkennungsfehler werden nicht erkannt, da mit menschlicher Interpretation gearbeitet wird
  • Möglichkeiten und Darstellung der Interaktion eingeschränkt
  • Reaktionszeiten des Systems nicht messbar
  • Wizard muss sehr gut mit dem System vertraut sein, um valide Wörter bzw. Phrasen zu erkennen und festzustellen, wann das System wie auf bestimmte Fehleingaben etc. reagiert
  • je nach Komplexität des simulierten Systems können erhebliche Vorbereitung und Training des Wizards notwendig sein, um nur jene Antworten auf Nutzereingaben zu geben, die das System tatsächlich unterstützt
  • Ergebnisqualität abhängig von Handeln des Wizards – steht dieser bspw. nicht hinter dem System, ist es möglich, dass seine Repräsentation dessen nicht überzeugend wirkt oder Nutzer in ihren Antworten beeinflusst werden
  • durch Notwendigkeit von zwei Computern (je einer für Probanden und Wizard) und zwei Beteiligten an der Evaluation (einem Wizard und einer Person, die den Probanden anleitet und die Sitzung aufzeichnet) höherer Aufwand als bspw. bei Evaluationen mit rein papierbasierten Prototypen
  • Reliabilität und Validität zweifelhaft
  • Formatives Vorgehen, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Total effort: Rather below average
  • Date of last research: 04/2017
Survey Methods and Questionnaires
Expert Guidelines
DATech Standard Usability Test
Das sog. Verfahren zur Konformitätsprüfung von Software auf der Grundlage von DIN EN ISO 9241 Teile 10 und 11, verkürzt auch als ErgoNorm-Prüfverfahren (ENP) bezeichnet, wurde im Jahr 2001 vorgestellt. Die Deutsche Akkreditierungsstelle Technik e.V. (DATech) hat ENP als Prüfverfahren für die Konformitätsprüfung interaktiver Produkte übernommen. ENP ist ein aufwendiges Verfahren, das eine Benutzerbefragung, die eine subjektive Einschätzung der Effektivität und Effizienz des evaluierten Systems ermöglicht, und eine Expertenbewertung zum Erheben ojektiverer Maße beinhaltet. Der Fragebogenteil namens ErgoNorm umfasst 28 Fragen auf Basis der Grundsätze der DIN-EN ISO 9241-110. In der Expertenevaluation wird ein Falsifikationsansatz verfolgt, die Normkonformität des zu prüfenden Systems wird also zunächst als gegeben angenommen und im Prüfverfahren werden bestimmte Aspekte der Konformität ggf. widerlegt. Wenn Normabweichungen festgestellt wurden, wird im Rahmen einer Erhärtungsprüfung auch bewertet, inwieweit diese tatsächlich signifikante Auswirkungen auf die Systemnutzung haben.
  • systematische Abfrage der Gütekriterien der international anerkannten DIN EN ISO 9241-110
  • sehr detaillierte Vorgehensanleitung
  • Objektivierung durch zweistufiges Verfahren, im Rahmen dessen die Benutzerbeobachtungen im zweiten Teil expertenbasiert validiert werden
  • Berücksichtigung von qualitativen und quantitativen Aspekten sowie der allgemein anerkannten Standards der DIN EN ISO 9241-110
  • da im tatsächlichen Nutzungskontext evaluiert wird, ist keine Laborumgebung erforderlich
  • trägt zu Verbesserung der Systemqualität bei, da durch Optimierung des Systems basierend auf den Ergebnissen des Prüfverfahrens Nutzungskosten gespart werden können, die weitaus höher wären als Anschaffungskosten für ein Softwaresystem
  • Fragebogen (primär qualitativ) und expertenbasiertes Verfahren (primär quantitativ) unabhängig voneinander einsetzbar
  • periodische Weiterentwicklung des Prüfverfahrens durch DATech
  • geeignet bzw. eigens entwickelt für Normkonformitätsprüfungen, wofür sich bspw. andere Evaluierungsverfahren, die sich nach der DIN EN ISO 9241-110 richten, aufgrund der fehlenden Prüfkriterien nicht eignen
  • aufwendig und kostenintensiv
  • es werden lediglich mögliche Normverstöße gegen ausgewählte untersuchte Anforderungen geprüft und somit werden möglicherweise nicht alle vorhandenen Probleme aufgedeckt
  • Kostenfrei online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Increased
  • Date of last research: 04/2017
EVADIS II
EVADIS II (EII) ist die Weiterentwicklung des 1988 vorgestellten Evaluationsleitfadens EVADIS. EII basiert auf der DIN EN ISO 9241-110, jedoch werden die Kriterien der Norm im Rahmen von EII anders aufgeteilt und interpretiert, zudem gibt es Ergänzungen, die für eine höhere Genauigkeit sorgen sollen. Der Bezugsrahmen von EII setzt sich zusammen aus dem sog. IFIP-Modell für Benutzerschnittstellen sowie zahlreichen aufgaben- und organisationsergonomischen und softwareergonomischen Kriterien. Bei der Evaluation mittels EII kommt eine Methodenkombination zum Einsatz, die sowohl Experten als auch repräsentative Nutzer einbezieht. Die Methodenkombination besteht aus einer Benutzerbefragung mittels eines standardisierten Fragebogens, einer vereinfachten Arbeitsanalyse mithilfe eines Leitfadens zur Prüfaufgabenerstellung sowie einer Prüffragensammlung in Form eines Leitfadens, die von Experten bewertet wird.
  • Methode wird sehr genau beschrieben und erklärt
  • ganzheitliche Evaluation
  • Kombination verschiedener UEMs innerhalb des EII-Verfahrens, somit Ergänzung um weitere Evaluationsmethoden nicht zwingend erforderlich
  • Berücksichtigung von Nutzer- und Expertenmeinung
  • Abweichungen zwischen Gutachtern durch detaillierte Anleitung relativiert, dennoch können durch Einzelmeinungen der Experten die Ergebnisse verzerrt sein – Interpretation der Erkenntnisse von verschiedenen Evaluatoren können somit variieren
  • nicht geeignet für bezüglich Softwareergonomie vergleichsweise unerfahrene Anwender
  • vordefinierte Prüffragen entstammen Literaturrecherchen sowie eigenen Erfahrungen der Autoren; Teile der Evaluation erscheinen daher nicht mehr zeitgemäß, da EII seit Beginn der 1990er-Jahre nicht aktualisiert wurde, somit kaum relevant für moderne Anwendungsfelder
  • Beantwortung der Prüffragen basiert auf subjektivem Empfinden; keine Vergaberegeln für die Noten der Fragen vorhanden – Evaluationsergebnisse daher kaum vergleichbar, außer sie wurden vom gleichen Evaluator in einem engen Zeitfenster durchgeführt
  • benötigt viel Zeit
  • Standardkonformität, die anhand der Prüffragen untersucht wird, führt nicht unbedingt zu einer Verbesserung der Usability eines Systems
  • Beantwortung der detaillierten Prüffragen nur mit nahezu fertiggestelltem Produkt möglich, somit ggf. nur noch eingeschränkte Änderungsmöglichkeiten
  • keine Berücksichtigung der Erlernbarkeit trotz Anlehnen an DIN EN ISO 9241-110
  • Kostenfrei, in der Literatur relativ selten Erwähnung und Anwendung beschrieben, Aktualität nicht gegeben (seit 1992 nicht aktualisiert)
  • Total effort: Increased
  • Date of last research: 04/2017
Operationalisation of ISO Standards
DATech Standard Usability Test (questionnaire part)
Der Benutzerfragebogen ErgoNorm (EN) ist Teil eines Prüfverfahrens, das für die Normkonformitätsprüfung interaktiver Software entwickelt wurde. Der Fragebogen EN kann jedoch auch alleinstehend verwendet werden kann – damit kann etwa abgeschätzt werden, ob das zu evaluierende System überhaupt Unzufriedenheit beim Benutzer hervorruft, sodass Experten zu einer detaillierteren Evaluation im Rahmen des kompletten Prüfverfahrens herangezogen werden müssten. Der Fragebogen EN operationalisiert die sieben Dialogprinzipien der DIN EN ISO 9241-110 – dabei wird mit neun von 28 Items die Aufgabenangemessenheit in den Fokus der Betrachtungen gestellt. EN eignet sich für formative Evaluationen.
  • mit wenig Aufwand und in geringer Zeit durchführbar
  • für technische Arbeitssysteme besonders geeignet, da mit neun von 28 Items zum Dialogprinzip Aufgabenangemessenheit starke Ausrichtung in diesem Sinne
  • umfassende Erkenntnisse dank zusätzlicher Freitext-Begründung zu bestimmten gegebenen Antworten
  • mit neun von 28 Items starke Fokussierung auf das Dialogprinzip Aufgabenangemessenheit, während bspw. Lernförderlichkeit und Individualisierbarkeit nur mit einem Item berücksichtigt werden
  • somit nur begrenzte Eignung von EN für Produkte, die für Endkonsumenten gedacht sind
  • Formatives Vorgehen, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    ErgoNorm-Prüfverfahren
  • Total effort: Small
  • Date of last research: 04/2017
EU-conform Evaluation and Engineering of VDU Work
Das Verfahren EU-conform Evaluation and Engineering of VDU Work (EU-CON) wurde im Jahr 1997 vorgestellt. Der Name bezieht sich auf die EU-Bildschirmrichtlinie 90/270/EWG aus dem Jahr 1990, die durch EU-CON operationalisiert wird. In Deutschland erfolgt somit ein Bezug auf das Arbeitsschutzgesetz sowie die Bildschirmarbeitsverordnung, in denen diese Richtlinie verankert wurde. Ein direkter Bezug zu der DIN EN ISO 9241-10 besteht nicht. Jedoch wird durch die Bundesanstalt für Arbeitsschutz und Arbeitsmedizin (BAuA) eine theoretische Fundierung von EU-CON durch die EN-ISO 9241-Faktorenanalyse beschrieben. Im Jahr 1999 wurde die EU-CON unter dem Namen EU-CON II weiterentwickelt. Es wurde basierend auf Erkenntnissen der bis dahin erfolgten Anwendung von EU-CON in der Praxis aufgebaut, um für einen betrieblichen Einsatz der Methode bestimmte Hilfestellungen hinsichtlich Inhalt und Methodik bereitstellen zu können. Neben einem Vorgehensmodell umfasst EU-CON II daher auch einen Leitfaden zur Verwendung sowie ein Handbuch, das Handlungsanleitungen für die Behebung festgestellter Mängel enthält.
  • Verfahren basiert auf EU-weit gültiger Richtlinie, die vielfach in nationale Gesetze übertragen wurde
  • Verfahren wird in einer Form beschrieben, die eine direkte Einsetzbarkeit in der Praxis erlaubt, somit keine Vorbereitung bzw. Einarbeitung erforderlich
  • Einbeziehen der subjektiven Wahrnehmung der Aufgaben durch die Benutzer des Systems, da nicht eine Aufgabendefinition der Evaluation zugrunde gelegt wird, sondern Benutzer zu ihren individuellen Arbeitsabläufen befragt werden
  • Autoren stellen zahlreiche Hinweise und Erläuterungen für Anwender der Methode bereit; zudem Anleitung der Anwender hinsichtlich Auswertung der Fragebögen und Mängelbehebung
  • intern durchführbar, wobei Unternehmensangehörige wie Vertretung der Geschäftsleitung und der EDV-Abteilung sowie Betriebs- oder Personalrat etc. als Anwender der Methode fungieren
  • durch Sensibilisierung der Befragten für Usability-Mängel können mehr Daten erfasst werden als durch einfacher gehaltene Zufriedenheitsratings, und es können Normabweichungen identifiziert werden
  • ganzheitlicher, verständlicher Ansatz: EU-CON II informiert über wünschenswerte Zustände, nimmt Beurteilungen aufgabenspezifisch vor und stellt Ergebnisse in nachvollziehbarem Überblick dar
  • durch explizite Berücksichtigung deutscher Gesetzmäßigkeiten keine Übertragbarkeit in anderen Sprachräume möglich bzw. sinnvoll
  • trotz festgestellten Optimierungspotenzials keine Aktualisierung bzw. Weiterentwicklung von EU-CON II auffindbar
  • es ist nicht nachvollziehbar, inwieweit sich die Befragten mit den erläuternden Informationen zu den einzelnen Fragen vertraut machen oder die in einem separaten Dokument verfügbaren Hilfestellungen bei der Beantwortung der Fragen außer Acht lassen
  • Kostenfrei, in der Literatur relativ selten Erwähnung und Anwendung beschriebe
  • Total effort: Above average
  • Date of last research: 04/2017
IsoMetrics
IsoMetrics (IM) wurde im Jahr 1999 vorgestellt und operationalisiert die ISO-Norm 9241-10 durch 90 Items; in einer späteren Anpassung wurde die Anzahl der Items auf 75 reduziert. Je sieben bis zwölf Items bestehen je Gestaltungsgrundsatz der Norm; die Antworten werden auf Basis einer fünfstufigen Ratingskala gegeben. Dabei gibt es sowohl eine kurze als auch eine lange Version von IsoMetrics. In der Langform IsoMetrics(L) werden zusätzlich zu der fünfstufigen Ratingskala Erläuterungen der Antworten von den Befragten sowie eine Gewichtung der Wichtigkeit jedes Items ermöglicht. Die Langfassung des Fragebogens beinhaltet also dieselben Items und Antwortoptionen wie die Kurzform, bietet jedoch zusätzlich zu jedem Item den Evaluatoren die Möglichkeit, dessen Bedeutung und Nutzereindruck zu bewerten. Während IsoMetrics(S) für eine numerische Einschätzung konzipiert ist, ermöglicht IsoMetricsL eine numerische und eine qualitative und gestaltungsunterstützende Bewertung des evaluierten Systems. IsoMetrics(L) wurde für formative Evaluationen entwickelt, die Kurzversion IsoMetrics(S) für summative Evaluationen.
  • deutlich kostengünstiger als Benutzertests
  • kosteneffizienter verglichen bspw. mit HE oder TA
  • Experten oder komplexe technische Ausrüstung nicht notwendig
  • direkt an dem Ort der Nutzung einer Software einsetzbar, sodass Bezug zu Kontext des Einsatzes hergestellt wird
  • basiert auf DIN EN ISO 9241-110
  • unterstützt aktive Partizipationsformen
  • Studie zufolge effektiver als Heuristische Evaluation und Thinking Aloud bezüglich erhobener Usability-Probleme und Anmerkungen, die keinen Problemgehalt aufweisen – mindestens doppelt so viele wie Vergleichsmethoden
  • formativ und auch summativ ausführbar
  • kann als alleinstehende Evaluationsmethode eingesetzt werden
  • wenn zehn Probanden beteiligt werden, ist mit etwa 100 erhobenen Anmerkungen bezüglich Schwachstellen der Software zu rechnen
  • insbesondere IsoMetrics(S) kann problemlos auch mit großen Stichproben, zum Beispiel mehr als 100 Befragten, durchgeführt werden
  • Kürzen des Fragebogens je nach Anwendungsfall und insbesondere für formative Evaluationen möglich
  • Bestimmung des Problemgehalts von erhobenen Anmerkungen sowie deren Zuordnung zu Problemklassen kompliziert, daher sind die Ergebnisse mit Vorsicht zu interpretieren
  • bei der Evaluation besteht kein direkter Verhaltensbezug
  • Langform relativ zeitaufwendig
  • teils mehr Systemkenntnis erforderlich als etwa für ISONORM 9241/10
  • Mehrere Modifikationen verfügbar, kostenfrei oder kostenpflichtig, formativ oder summativ einsetzbar, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Ergänzung um Techniken wie Videokonfrontation
  • Total effort: Rather below average
  • Date of last research: 04/2017
ISONORM 9241/10
Der Fragebogen ISONORM 9241/10 (IN) wurde im Jahr 1993 entwickelt. Es handelt sich dabei um eine Operationalisierung der sieben Grundsätze der international anerkannten ISO-Norm, die heute in Teil 110 der Normenreihe zu finden sind. Die Operationalisierung, die die Grundsätze der Norm in Form von einzelnen Fragen abbildet, wurde mit fünf Fragen je Normengrundsatz umgesetzt, sodass IN also 35 Items umfasst. Das Verfahren soll erste Hinweise auf Schwachstellen und ein daraus resultierendes Verbesserungspotenzial der Benutzerfreundlichkeit von Softwaresystemen geben. Im Jahr 2006 folgte auf Basis von IN der Kurzfragebogen ISONORM 9241/10-S (INS), der auch als ISONORM 9241/110-S bezeichnet wird. Mit insgesamt 21 Fragen ordnet INS den Normgrundsätzen je drei Items zu. INS kann als Weiterentwicklung von IN gesehen werden und ist für summative sowie auch formative Evaluationen geeignet. Dementgegen ist IN primär für summative Usability-Einschätzungen einsetzbar.
  • siebenstufiges Antwortschema soll Befragten eine differenzierte Beantwortung der Fragen ermöglichen
  • liegt in mehreren Sprachen vor – deutsch, englisch, niederländisch, französisch
  • hohe Relevanz der bereits über 20 Jahre alten Fragen auch für heutige Usability-Evaluationen
  • IN wurde wissenschaftlicher Prüfung unterzogen und bestand diese
  • Ergebnisse von IN können als Basis bspw. für FG genutzt werden
  • sehr geringer Zeitaufwand
  • keine vorbereitende Schulung notwendig
  • keine Ergonomiespezialisten oder ähnliche Experten notwendig
  • wird für die Umsetzung von Redesigns empfohlen; zudem durchführbar in Form unkomplizierter Onlinebefragungen, die via URL leicht verbreitet werden können
  • für viele verschiedene Arten von Software und Softwaresysteme einsetzbar, auch geeignet für Evaluation von Anwendungen in Internet und Intranet
  • benötigt aufgrund von nur 35 bzw. 21 Items – bspw. im Vergleich zu IsoMetrics mit 75 Items – weniger Zeit
  • Verfahren ersetzt keine Tiefenanalyse, welche bspw. durch einen detaillierten Leitfaden ermöglicht würde
  • konkrete vorliegende Probleme und Möglichkeiten für deren Behebung werden aufgrund der allgemeinen Formulierung der Fragen nicht erhoben
  • in Studie widersprüchliche Ergebnisse durch starke Varianz des Antwortverhaltens in fünf der sieben untersuchten Skalen
  • dadurch, dass die in IN enthaltenen Fragen eher allgemein gehalten sind, werden bei Anwendung des Fragebogens auch eher allgemeinere Probleme identifiziert
  • Modifikation verfügbar, kostenfrei online zugänglich, formativ oder summativ einsetzbar, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Moderierte Gruppendiskussion, also Fokusgruppe
  • Total effort: Small
  • Date of last research: 04/2017
User Satisfaction Questionnaires
After-Scenario Questionnaire
Mit dem After-Scenario Questionnaire (ASQ) wurde Anfang der 1990er-Jahre ein bemerkenswert kurzer Fragebogen vorgestellt, der mit nur drei Items die Zufriedenheit von Benutzern eines Systems einzuschätzen vermag. Er wurde – anders als etwa das Computer User Satisfaction Inventory und der Questionnaire for User Interaction Satisfaction – speziell für den Gebrauch infolge einer szenariobasierten Usability-Evaluation entwickelt. Der Fragebogen soll nach jedem mit einem System absolvierten Szenario angewendet werden, wobei ein Szenario eine Zusammenstellung ähnlicher Aufgaben darstellt. Die Auswahl der drei Items basiert auf der Annahme, dass die Kriterien Einfachheit der Aufgabenerfüllung, benötigte Zeit für die Aufgabenbeendigung und Zufriedenheit mit (Online-)Hilfen, Systemmeldungen und dem Systemhandbuch den nutzerseitigen Eindruck von der System-Usability beeinflussen (vgl. ebd.).
  • mit nur drei Items in extrem kurzer Zeit durchführbar
  • schnell, unkompliziert und effektiv einsetzbar
  • trotz der wenigen Items fundierte Ergebnisse zu erzielen
  • nicht als gesonderte UEM zu benutzen, da sich die Fragen des ASQ nur an vorangegangene Systemnutzung bzw. Systemevaluation anschließen können
  • aufgrund der geringen Anzahl an Items nur sehr oberflächliche, allgemeine Erhebung
  • nicht uneingeschränkt für Websiteevaluation einsetzbar, da sich das dritte Item auf Handbücher oder Dokumentationen bezieht, die für Websites nicht vorgesehen sind
  • Vorangegangene Usability-Evaluation erforderlich, kostenfrei online zugänglich, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Vorangegangene Usability-Evaluation
  • Total effort: Low
  • Date of last research: 04/2017
American Customer Satisfaction Index
Der American Customer Satisfaction Index (ACSI) zählt zu den bekanntesten Nationalen Kundenbarometern. Diese dienen, in verschiedenen Ländern der Welt entwickelt, zur Messung der Kundenzufriedenheit. In Deutschland heißt das Nationale Kundenbarometer derzeit Kundenmonitor Deutschland (KD). Die internationale Bedeutung des ACSI übersteigt die der anderen Kundenbarometer – so basieren etwa jene anderer Länder direkt auf dem ACSI. Ziel der ACSI-Entwicklung war es, langfristig ein Messinstrument für die Qualität von Produkten und Dienstleistungen aus Kundensicht zu schaffen. Die traditionelle Messung der Quantität der Wirtschaftsleistung wird durch den ACSI um eine qualitative Komponente ergänzt. Der ACSI wird mindestens quartalsweise aktualisiert und berücksichtigt inzwischen zehn Wirtschaftszweige und 43 Branchen. Für Usability-Evaluationen können der dem ACSI zugrunde liegende Fragebogen und die theoretische Fundierung, die neben Kundenerwartungen auch wahrgenommene Qualität und Kundenzufriedenheit berücksichtigt, eingesetzt werden.
  • in der Wirtschaft etablierter und staatlich anerkannter Fragebogen
  • zahlreiche regelmäßig aktualisierte Vergleichsdaten zur Kundenzufriedenheit verfügbar, bspw. zu evaluierten Webauftritten von Amazon oder NetFlix – auch Vergleiche in Privatwirtschaft sowie Staatssektor möglich
  • detaillierte Auswertungsmöglichkeiten
  • ACSI-Daten korrelieren mit makro- und mikroökonomischen Unternehmensdaten – höhere Kundenzufriedenheit ist etwa mit höheren Gewinnen und verbesserten Börsenkursen sowie höheren Kundenausgaben in Verbindung zu bringen
  • nicht frei verfügbar
  • durch Vielzahl verfügbarer Produkte Einschätzen einzelner Parameter wie Anzahl benötigter Probanden, Durchführung, Zeitaufwand etc. kaum möglich
  • International diverse weitere Kundenbarometer verfügbar, mehrere Modifikationen verfügbar, kostenpflichtig, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Total effort: Rather below average
  • Date of last research: 04/2017
AttrakDiff
Das semantische Differential AttrakDiff (AD) wurde 2004 entwickelt. Dabei führten diverse Betrachtungen der hedonischen und ergonomischen – später pragmatischen – Qualität zu der Entwicklung des AttrakDiff-1. Im Rahmen einer Weiterentwicklung dessen wurde unter anderem eine Aufspaltung der hedonischen Qualität in die Aspekte Identität und Stimulation vorgenommen. Die neue Version des Fragebogens wurde AttrakDiff-2 betitelt. Es können sowohl formative als auch summative Evaluationen durchgeführt werden; AD wird für die Erhebung quantitativer Daten eingesetzt. AD ist ein standardisiertes Werkzeug zur Bewertung verschiedener Aspekte der nutzerseitigen Zufriedenheit mit einem System. Dabei werden vier Konstrukte untersucht: pragmatische Qualität (PQ); Identität (HQ-I) und Stimulation (HQ-S) als Teile der hedonischen Qualität; Attraktivität (ATT). Der Skalenwert für die vier Konstrukte ergibt sich jeweils aus dem Mittelwert der entsprechenden Gruppe an Items, die auf das Konstrukt entfallen. Ziel ist es, dass Produkte eine hohe hedonische und pragmatische Qualität haben.
  • kann als Teil von laufenden Evaluationen eingesetzt werden, bspw. anschließend an einen Benutzertest
  • für interaktive Produkte im Allgemeinen entwickelt und somit für viele verschieedne Evaluationsgegenstände einsetzbar
  • geeignet für Produktvergleiche und Vorher-Nachher-Evaluationen
  • anonyme Bewertung mithilfe von durch UID zur Verfügung gestelltem Onlinetool möglich
  • Ergebnisse in leicht nachvollziehbarem Konfidenzrechteck darstellbar, für das zudem eine Interpretationshilfe bereitsteht
  • wie auch After-Scenario Questionnaire nicht als eigenständige Methode anzusehen, sondern nur in Kombination mit vor- oder nachgeschalteten Evaluationen einsetzbar
  • aufgrund der spontanen und globalen Einschätzung eines Systems, die der AD ermöglicht, können die Ergebnisse nur stark eingeschränkt gestaltungsorientiert genutzt werden
  • mit nur neun von 28 Items für die pragmatische Qualität kann der Fokus auf Usability als zu gering gesehen werden
  • nur eingeschränkt geeignet für Websiteevaluation, etwa da zu einigen Adjektivpaaren kaum eine Aussage zu treffen ist und die Fragen insgesamt zu ungenau sind
  • zudem nicht geeignet für die Evaluation sprachbasierter Software
  • Vorangegangene und/oder nachgeschaltete Usability-Evaluation erforderlich, Modifikation verfügbar, kostenfrei online zugänglich, formativ oder summativ einsetzbar, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Vorangegangener und/oder nachgeschalteter Benutzertest
  • Total effort: Below average
  • Date of last research: 04/2017
Computer System Usability Questionnaire
Der Computer System Usability Questionnaire (CSUQ) wurde im Jahr 1992 vorgestellt. Es handelt sich dabei um einen Nachfolger des Post-Study System Usability Questionnaire, der im Vergleich zu diesem nur minimale Änderungen in der Formulierung aufweist. Der Unterschied zwischen den Fragebögen ist, dass sich die Items des CSUQ nicht auf eine Usability-Evaluationssituation beziehen, es wird also nicht spezifisch auf Aufgaben und Szenarien Bezug genommen. Stattdessen wird schlicht zu erledigende Arbeit angeführt. Der Post-Study System Usability Questionnaire ist darauf ausgelegt, in persönlicher Administration angewendet zu werden, während der CSUQ online oder postalisch genutzt werden kann.
  • Verallgemeinerbarkeit der Ergebnisse und vielseitige Anwendbarkeit von CSUQ durch Konsistenz der psychometrischen Daten bestätigt
  • aufgrund der vergleichsweise geringen Anzahl an Items kaum zeitaufwendig
  • nicht ohne vorherige Usability-Evaluation einsetzbar
  • durchgehend positive Formulierung der Items kann zu Verzerrung der Ergebnisse hin zu positiver Beantwortung führen
  • Vorangegangene Usability-Evaluation erforderlich, Modifikation verfügbar, kostenfrei online zugänglich, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Vorangegangener Feldtest
  • Total effort: Small
  • Date of last research: 04/2017
Computer User Satisfaction Inventory
Das Computer User Satisfaction Inventory (CUSI) wurde Ende der 1980er-Jahre vorgestellt. Die enthaltenen Fragen wurden mithilfe von Literaturrecherche und der Befragung von Endnutzern zu ihrer gewöhnlichen Systemnutzung entwickelt. Die Auswertung erfolgt in standardisierter Form, das Ergebnis stellen numerische, quantitative Daten dar.
  • benötigt wenig Zeit und Aufwand
  • Vergleich der Nutzerzufriedenheit mit anderen Systemen möglich
  • Unklarheit bzgl. der genauen Aussage und der Effizienz der Subskala Competence trotz guter Reliabilitätswerte
  • In der Literatur häufige Erwähnung – jedoch seltene praktische Anwendung beschrieben, Aktualität nicht gegeben (SUMI und WAMMI sind ggf. vorzugswürdig)
  • Recommended combination(s):
    Empfohlen, jedoch nicht spezifiziert
  • Total effort: Low
  • Date of last research: 04/2017
Measuring the Usability of Multi-Media Systems
Der Fragebogen Measuring the Usability of Multi-Media Systems (MUMMS) wurde – wie Software Usability Measurement Inventory und Website Analysis and Measurement Inventory – von der Human Factors Research Group entwickelt und besteht aktuell (Stand: April 2017) in Version 4.0. MUMMS entstand aufgrund der bestehenden Notwendigkeit eines Fragebogens, der sich speziell multimedialer Software widmet.
  • Auswertungssoftware MUMMSCO basiert auf der etablierten Auswertungssoftware SUMISCO des Fragebogens Software Usability Measurement Inventory
  • seit 2004 keine Weiterentwicklung von MUMMS
  • Kostenpflichtig, in der Literatur relativ selten Erwähnung und Anwendung beschrieben, Aktualität nicht gegeben (seit 2004 nicht aktualisiert, SUMI und WAMMI sind ggf. vorzugswürdig)
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Low
  • Date of last research: 04/2017
Post-Study System Usability Questionnaire
Der Post-Study System Usability Questionnaire (PSSUQ) wurde zur gleichen Zeit wie After-Scenario Questionnaire und Computer System Usability Questionnaire entwickelt. Der PSSUQ erfasst die Nutzerzufriedenheit infolge einer szenariobasierten Usability-Evaluation. Es handelt sich um eine summative Evaluation.
  • Verallgemeinerbarkeit der Ergebnisse sowie vielseitige Anwendbarkeit von PSSUQ – wie auch bei Computer System Usability Questionnaire – durch Konsistenz der psychometrischen Daten bestätigt
  • wenig zeitaufwendig
  • Ergebnisse sind auch dann verlässlich, wenn bei der Beantwortung einige Items ausgelassen werden
  • nicht ohne vorherige Usability-Evaluation einsetzbar
  • nicht geeignet für Feldtests und ähnliche Vorgehensweisen
  • durchgehend positive Formulierung der Items kann zu Verzerrung der Ergebnisse hin zu positiver Beantwortung führen
  • Vorangegangene Usability-Evaluation erforderlich, kostenfrei, summatives Vorgehen, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Vorangegangene Usability-Evaluation, für Benutzertests entwickelt
  • Total effort: Small
  • Date of last research: 04/2017
Purdue Usability Testing Questionnaire
Der Purdue Usability Testing Questionnaire (PUTQ) wurde 1997 an der Purdue University entwickelt. PUTQ begegnet den Schwierigkeiten, dass andere UEMs kompliziert in der Anwendung und/oder nur mit hoher vorhandener Expertise einsetzbar sind. Basierend auf bestehenden Fragebögen wie Questionnaire for User Interaction Satisfaction oder Software Usability Measurement Inventory wurde ein Framework erarbeitet, das der Entwicklung von PUTQ zugrunde liegt. Die untersuchten Kriterien Compatibility, Consistency, Flexibility, Learnability, Minimal action, Minimal memory load, Perceptual limitation und User guidance können in das Deutsche mit Kompatibilität, Konsistenz, Flexibilität, Erlernbarkeit, Minimierung der einzelnen zielführenden Handlungen und Minimierung der kognitiven Belastung sowie Berücksichtigung der Grenzen der Wahrnehmung durch das Design und einfache Benutzerführung übersetzt werden.
  • kosteneffektiv und schnell; Vergleiche zwischen Systemen möglich
  • theoretische und empirische Fundierung durch Aufbauen auf früheren Studien
  • zusätzlich Einschätzung der Wichtigkeit der Items für das zu evaluierende System durch die Evaluatoren
  • nicht greifbare Aspekte, wie Freude oder Spaß bei der Benutzung, werden durch PUTQ nicht erfasst
  • Reliabilität in Vergleichsstudie geringer als die des Questionnaire for User Interaction Satisfaction
  • aufgrund der allgemein gehaltenen Fragen, die nur eine globale Systembewertung erlauben, lässt sich allenfalls eine allgemeine Einschätzung erzielen
  • Kostenfrei online zugänglich, in der Literatur häufige Erwähnung – jedoch seltene praktische Anwendung beschrieben
  • Total effort: Below average
  • Date of last research: 04/2017
Questionnaire for User Interaction Satisfaction
Der Questionnaire for User Interaction Satisfaction (QUIS) wurde als einer der ersten zufriedenheitstangierenden Fragebogen bereits 1987 vorgestellt. QUIS widmet sich aus-schließlich der subjektiven Zufriedenheit, die Nutzer einer Systemschnittstelle gegenüber empfinden. Dabei ist zu bemerken, dass QUIS vor der Veröffentlichung nicht empirisch validiert wurde; dies wurde jedoch ein Jahr nach der Veröffentlichung von QUIS nachgeholt. QUIS wurde zudem in mehreren Versionen weiterentwickelt; die aktuelle Version ist QUIS 7.0 (Stand: April 2017). Die stetige Weiterentwicklung führte zu vielen Erweiterungen und Variationen der Methode.
  • erlaubt eine grobe Einschätzung des Gesamtsystems hinsichtlich der nutzerseitigen Zufriedenheit damit
  • Modifikationen und Auslassen einzelner Abschnitte ausdrücklich erlaubt
  • schnell und einfach anzuwenden
  • auch mit kleiner Anzahl Probanden erfolgreich einsetzbar
  • kein Bezug zur DIN EN ISO 9241-110
  • keine Möglichkeit zur statistischen Auswertung, bspw. über eine vergleichende Onlinedatenbank
  • in der aktuellen Version nicht vollumfänglich kostenfrei verfügbar
  • Mehrere Modifikationen verfügbar, kostenpflichtig online zugänglich, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Total effort: Rather below average
  • Date of last research: 04/2017
Software Usability Measurement Inventory
Das Software Usability Measurement Inventory (SUMI) wurde in der ursprünglichen Fassung im Jahr 1993 veröffentlicht. SUMI basiert auf den Erfahrungen bei der Entwicklung von CUSI. SUMI wurde nach psychometrischen und statistischen Maßgaben entwickelt und erfasst Gefühle und Eindrücke, die ein Proband im Umgang mit einer Software hat. Dabei gelten diese subjektiven Wahrnehmungen als maßgeblich relevant für die Systemevaluation. SUMI ist auf Basis zahlreicher Systeme aus diversen Domänen standardisiert worden – inzwischen besteht die Standardisierungsdatenbank aus weit über 1.000 Einträgen mit ausgefüllten SUMI-Fragebögen. SUMI orientiert sich an den Grundsätzen der DIN EN ISO 9241-110, weist jedoch andere Skalen auf. Diese lauten Affect, Control, Efficiency, Helpfulness und Learnability. Bis auf die Skala Affect stimmen alle Dimensionen mit der DIN EN ISO 9241-110 überein. Mit SUMI erfolgt eine Evaluation des Gesamtsystems, deren Erkenntnisse im Anschluss an die Durchführung hinsichtlich des Nutzungskontextes interpretiert werden können. SUMI besteht aktuell (Stand: April 2017) in Version 4.0.
  • in kurzer Zeit durchführbar
  • als Online- sowie papierbasierte Version verfügbar
  • eignet sich auch für Produktvergleiche und die Identifikation zukünftig sinnvoller Entwicklungen
  • mehr als zehn validierte Übersetzungen, die jeweils von Muttersprachlern durchgeführt wurden
  • detaillierte Anweisungen zu Bestellverfahren, Ablauf und Auswertung von SUMI
  • aufgrund des geringen Zeitaufwandes und der geringen Anzahl benötigter Probanden geeignet für Rapid Prototyping
  • Interpretation erfolgt unter Berücksichtigung einer standardisierten Datenbank mit rund 2.000 Einträgen
  • nicht vollumfänglich kostenfrei erhältlich
  • Kostenpflichtig online zugänglich, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Benutzertestmethode(n)
  • Total effort: Small
  • Date of last research: 04/2017
Standardized User Experience Percentile Rank Questionnaire
Der Standardized User Experience Percentile Rank Questionnaire (SUPR-Q) wurde im Jahr 2015 entwickelt. Der standardisierte Fragebogen misst die Aspekte Usability, Trust & Credibility, Appearance sowie Loyalty, die sich dem Entwickler zufolge im Rahmen intensiver Recherche als maßgeblich für die Einschätzung speziell von Websites herausgestellt haben. Das Ziel bei der Entwicklung war es, ein vielseitig anwendbares, vieldimensionales, vergleichsweise kurzes und durch eine Datenbank normiertes Werkzeug für die Evaluation von Websites zu schaffen – laut dem SUPR-Q-Erfinder ist die Berücksichtigung aller dieser Aspekte in nur einem Fragebogen ein Novum.
  • Referenzdatenbank ähnlich wie bei Software Usability Measurement Inventory für die Auswertung vorhanden
  • gegenüber Software Usability Measurement Inventory jedoch schneller anzuwenden aufgrund der geringeren Anzahl an Items
  • berücksichtigt wesentliche Aspekte der Webseitennutzung wie Vertrauen und visuelle Erscheinung
  • nicht vollumfänglich kostenfrei verfügbar
  • Kostenpflichtig online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Low
  • Date of last research: 04/2017
System Usability Scale
Die System Usability Scale (SUS) wurde im Jahr 1986 entwickelt. Mit der Methode lassen sich zahlreiche Produkte und Dienstleistungen evaluieren, unter anderem Hard- und Software, mobile Geräte, Websites und Applikationen – aufgrund der allgemein gehaltenen Fragen und der daraus resultierenden breiten Anwendbarkeit kann die SUS für praktisch jede Technologie angewendet werden.
  • sehr leicht anzuwendende, verlässliche Methode
  • Erlangen zielführender Ergebnisse in sehr kurzer Zeit und auch mit einer vergleichsweise geringen Anzahl an Testteilnehmern
  • wird vielfach als Industriestandard bezeichnet, kann also als etabliert und weithin anerkannt gesehen werden
  • kostenfrei einsetzbar
  • für die Methode kann ein einfaches Template genutzt werden
  • Technologie-neutral, sodass der Fragebogen auch für neueste Technologien einsetzbar ist
  • vergleichbar mit anderen standardisierten Usability-Fragebögen – trotz bei SUS nicht durchgeführten Standardisierungsverfahrens
  • für Systemvergleich auch zwischen unterschiedlichen technologischen Herangehensweisen geeignet
  • keine formale Standardisierung vorhanden
  • kein diagnostisches Verfahren, somit können keine Gründe für einen erzielten Usability-Wert identifiziert werden
  • Vorangegangene Usability-Evaluation erforderlich, kostenfrei online zugänglich, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Vorangegangene Usability-Evaluation
  • Total effort: Very low
  • Date of last research: 04/2017
Usefulness, Satisfaction, and Ease of use Questionnaire
Der Usefulness, Satisfaction, and Ease of use Questionnaire (USE) wurde im Jahr 2001 vorgestellt. Der Fragebogen soll es Anwendern ermöglichen, eine Standardisierung für die Usability eines Systems und entsprechende Anforderungen an dieses Produkt zu schaffen. Es soll ermöglicht werden, Maße anzulegen, die eine Einschätzung und Bewertung der System-Usability erlauben. Hierzu misst der USE die drei Aspekte, die sich hinter dem Akronym verbergen, also Usefulness, Satisfaction (Nutzerzufriedenheit) und Ease of use (Bedienkomfort). Dabei stehen Bedienkomfort und Usefulness miteinander in Verbindung, jeder Aspekt für sich bedingt zudem die Nutzerzufriedenheit. Anders als viele andere Fragebögen wie Purdue Usability Testing Questionnaire, Questionnaire for User Interaction Satisfaction oder Software Usability Measurement Inventory entstand USE nicht in einem universitären Kontext, sondern während der Beschäftigung des Entwicklers der Methode in verschiedenen Unternehmen.
  • in kurzer Zeit durchführbar
  • als Online- sowie papierbasierte Version verfügbar
  • eignet sich auch für Produktvergleiche und die Identifikation zukünftig sinnvoller Entwicklungen
  • mehr als zehn validierte Übersetzungen, die jeweils von Muttersprachlern durchgeführt wurden
  • detaillierte Anweisungen zu Bestellverfahren, Ablauf und Auswertung von SUMI
  • aufgrund des geringen Zeitaufwandes und der geringen Anzahl benötigter Probanden geeignet für Rapid Prototyping
  • Interpretation erfolgt unter Berücksichtigung einer standardisierten Datenbank mit rund 2.000 Einträgen
  • nicht vollumfänglich kostenfrei erhältlich
  • Kostenfrei online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Empfohlen, jedoch nicht spezifiziert
  • Total effort: Below average
  • Date of last research: 04/2017
User Experience Questionnaire
Der User Experience Questionnaire (UEQ) wurde im Jahr 2006 vorgestellt. Mit dem Fragebogen wird das Gebrauchstauglichkeitskriterium der Benutzerzufriedenstellung quantifiziert. Dabei wurde die im Fragebogen ursprünglich enthaltene Zahl an Items, die durch Experten zusammengestellt worden war, durch eine ebenfalls expertenbasierte Auswahl sowie eine anschließende Faktorenanalyse auf rund ein Zehntel reduziert.
  • es wurden positive Rückmeldungen zu der geringen Bearbeitungszeit und den prägnant formulierten Items festgestellt
  • Berücksichtigung von Usability-Kriterien und auch User-Experience-Kriterien, die auf unterschiedlichen Ebenen ausgewertet werden können
  • effiziente automatisierte Auswertung mithilfe von Excel
  • Autoren stellen zusätzlich Auswertungshinweise bereit
  • sehr vielseitig anwendbar, bspw. sowohl im Labor als auch im Feld; auch nach Usability-Tests, als online durchgeführte Evaluation von Websites usw.
  • User Experience wurde bei der Erstellung von UEQ nicht im Sinne der ISO-Normen der Reihe 9241 definiert, sodass keine normgerechte Beurteilung der untersuchten Aspekte möglich ist
  • Kostenfrei online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Erforderlich, jedoch nicht spezifiziert
  • Total effort: Below average
  • Date of last research: 04/2017
Website Analysis and Measurement Inventory
Der Fragebogen Software Usability Measurement Inventory wurde Ende der 1990er-Jahre unter dem Namen Website Analysis and Measurement Inventory (WAMMI) weiterentwickelt. WAMMI erhebt qualitative und quantitative Daten durch die Kombination aus einer Ratingskala und Freitextkommentaren. Die enthaltenen Skalen ähneln denen von Software Usability Measurement Inventory, sind jedoch nicht identisch, wobei zu berücksichtigen ist, dass WAMMI explizit für Websiteevaluationen entwickelt wurde.
  • im Rahmen der Untersuchung in die zu evaluierende Website eingliederbar, also direkt aus dieser zu starten
  • komparative Analyse aufgrund zahlreicher Datenbankeinträge möglich, die zum Vergleich vorliegender Erkenntnisse und somit zur Erleichterung der Interpretation erzielter Ergebnisse herangezogen werden können – umfangreiche Datenbank vorhanden, die eine Gegenprüfung mit mehreren 100 Websites erlaubt
  • Umfrage ist personalisierbar, indem vorgefertigte Items WAMMI hinzugefügt werden
  • Bericht zu WAMMI umfasst eine detaillierte und gleichzeitig übersichtliche Auswertung und ist kundenfreundlich formuliert
  • WAMMI-Einsatz ist kostenpflichtig
  • kein direkter Bezug zur DIN EN ISO 9241-110
  • vergleichsweise starres Antwortschema schränkt Individualität der Antworten ein
  • aufgrund der Platzierung an prominenter Stelle auf der zu evaluierenden Websitebesteht die Gefahr, dass die Rücklaufquote niedrig ist und/oder Nutzer, die die Befragung zum Beispiel nicht ernstnehmen, die Reliabilität der Ergebnisse schmälern
  • Kostenpflichtig online zugänglich, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Total effort: Low
  • Date of last research: 04/2017
One-Item User Satisfaction Questionnaires
Expectation Measure
Das Expectation Measure (EM) wurde von im Jahr 2003 vorgestellt. EM ähnelt vergleichbar strukturierten Methoden, widmet sich jedoch explizit der Gegenüberstellung der erwarteten Schwierigkeit vor Bewältigen einer Aufgabe und der tatsächlichen Schwierigkeit beim Erledigen dieser, die nach der Bearbeitung abgefragt wird. Die Einschätzung der erwarteten Schwierigkeit der Aufgabe basiert dabei auf dem Verständnis der Befragten für die Aufgabe und für die Art des untersuchten Systems.
  • direkter Vergleich von erwarteter und tatsächlicher Schwierigkeit der Aufgabenbearbeitung erlaubt es, herauszufinden, worauf der Fokus gelegt werden sollte und woraus sich Möglichkeiten ergeben könnten, um Nutzererwartungen zu übertreffen
  • auch geeignet für Onlineevaluationen
  • um die Streuung der Antworten zu verringern, sollte auf eine relativ hohe Anzahl von mindestens zehn bis zwölf Probanden zurückgegriffen werden
  • wenn Probanden zum Beispiel keine konkrete Vorstellung von der Schwierigkeit einer Aufgabe haben, fällt ihr Rating zu der erwarteten Schwierigkeit nicht verlässlich aus
  • Kostenfrei, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Mindestens nutzerseitige Aufgabenausführung
  • Total effort: Below average
  • Date of last research: 04/2017
Magnitude Estimation Technique
Die Magnitude Estimation Technique (MET) ist eine aus den zwei Teilen Usability Magnitude Estimation und Master Usability Scaling zusammengesetzte Methode. Die Usability Magnitude Estimation (UME) entstammt der Psychophysik. Magnitude Estimation wird angewendet, um die wahrgenommene Intensität bestimmter Stimuli im Vergleich zu einem Referenzwert durch numerische Werte einschätzen zu können. Im Bereich Usability wird die Methode unter der Bezeichnung UME zur Einschätzung und zum Vergleich der wahrgenommenen Usability eingesetzt. Um eine Vergleichbarkeit der mittels UME erzielten Ergebnisse über Unternehmens- oder Ortsgrenzen hinaus zu ermöglichen, wurde die Technik um das Master Usability Scaling (MUS) erweitert. Dabei werden dem Vorgehen bei UME standardisierte Referenzaufgaben hinzugefügt, die konsistent über verschiedene Studien genutzt werden. Das Ziel ist es, damit möglichst hohe Usability-Einschätzungen zu erzielen. UME und MUS gehören zu den sogenannten post-task questionnaires, die direkt im Anschluss an die Aufgabenausführung eingesetzt werden.
  • laut den Entwicklern der Methode leicht anzuwenden sowie verständlich und unkompliziert zu handhaben; andere Autoren widersprechen jedoch vor allem der erwähnten Einfachheit
  • theoretische Fundierung durch Psychophysik und jahrzehntelange Geschichte der Methodik, auf der UME basiert
  • es existieren keine festgelegten Endpunkte, nach denen sich Befragte richten müssen, sodass sie freier in ihrer Einschätzung sind; in der Folge kann das Eintreten von Deckeneffekten vermieden werden
  • kann sowohl die Anwender der Methode als auch für die Probanden schwer verständlich sein
  • wie auch bei anderen Fragebögen mit nur einem Item kein detailliertes Herausarbeiten von Problemen oder Lösungsoptionen
  • durch die beschriebene Vermeidung festgelegter Endpunkte ist ohne Zurückgreifen auf MUS, also nur für UME, keine Vergleichbarkeit verschiedener evaluierter Produkte oder Aufgaben gegeben
  • zahlreiche zu beachtende Schritte, vor allem wenn auch MUS angewendet wird
  • in Vergleichsstudien mit anderen post-task questionnaires war die Ergebnisqualität von UME deutlich unterlegen
  • Kostenfrei, in der Literatur relativ selten Erwähnung und Anwendung beschrieben, Warnung vor vergleichsweise hoher Komplexität (mehrere Autoren wählten die UEM bewusst nicht für eine Evaluation aus)
  • Required combination(s):
    Mindestens nutzerseitige Aufgabenausführung
  • Total effort: Rather below average
  • Date of last research: 04/2017
Net Promoter Score
Der Net Promoter Score (NPS) wurde 2003 entwickelt. Der Autor begegnet mit der extrem kurzen Befragungsmethode den Schwierigkeiten, dass herkömmliche UEMs oftmals relativ lang und kompliziert daherkommen, geringe Rücklaufquoten und uneindeutige Implikationen aufweisen, die schwer zu in der Praxis umsetzbar sind – und deren Ergebnisse nicht optimal mit Gewinn oder Wachstum korrelieren. Der Ansatz von NPS basiert auf dem Loyalty Acid Test, der schrittweise durch die Befragung von rund 4.000 Kunden und Beobachtung von deren Verhalten vor der Befragung sowie in den Folgemonaten nach der Befragung auf eine einzige Frage heruntergebrochen wurde. Diese stellte sich als besonders aussagekräftig hinsichtlich der Kundenloyalität und somit als Wachstumsindikator für fast alle untersuchten Branchen heraus. Durch den NPS wird somit nur indirekt die Kundenzufriedenheit gemessen. Jedoch kann die Kundenzufriedenheit als Determinante und als Voraussetzung der Weiterempfehlung gesehen werden – eine Aussage über die Weiterempfehlungsabsicht lässt daher Rückschlüsse auf die Kundenzufriedenheit zu.
  • signifikante Übereinstimmung von NPS-Ergebnissen mit durchschnittlicher Wachstumsrate eines Unternehmens über mehrere Jahre – ohne Verbesserung der Promotorenrate kann somit die Wachstumsrate nicht verbessert werden
  • ohne Hilfe externer Dienstleister wie spezialisierte Agenturen durchführbar
  • durch Stellen einer einzigen Frage kann auf unkomplizierte Weise ein Zusammenhang mit Unternehmenswachstum hergestellt werden
  • Auswertung der Antworten, deren Interpretation und Kommunikation sind simpel – auf Mitarbeiter erscheinen die sich daraus ergebenden Ziele motivierend und durchführbar; Reichheld zufolge vor allem dann, wenn ihre Erfüllung mit speziellen Anreizen verbunden wird
  • ermöglicht direkte Reaktion auf Feedback
  • einsetzbar für beliebige Branchen und Unternehmensgrößen
  • nicht geeignet für Branchen, in denen Kunden wenig Auswahl haben, bspw. solche, in denen ein Monopol oder eine jeweils ähnliche Situation besteht
  • verschiedene Kundenverteilungen führen zu denselben NPS, bspw. 5 % respektive 30 % Detraktoren, 45 % respektive 60 % Promotoren – dass die Implikationen für das Wiederkaufverhalten der Kunden für diese Fälle unterschiedlich ausfallen könnten, kann durch NPS nicht abgebildet werden
  • dies kann insbesondere beim Vergleich mit Konkurrenzunternehmen zu Fehlschlüssen führen
  • Einteilung in elf Skalenstufen und drei Gruppen wird wegen des Verlusts an Präzision und statistischer Auswertbarkeit kritisiert; Ungenauigkeit wird verstärkt durch darauffolgende Subtraktion der Prozentsätze an Promotoren und Detraktoren
  • Bereitschaft zur Weiterempfehlung differiert je nach evaluierter Branche, so werden Konsumgüter häufiger weiterempfohlen als Finanzdienstleister – diese vorhersehbaren Unterschiede werden durch NPS nicht abgebildet, sodass die NPS verschiedener Branchen nicht vergleichbar sind
  • für verlässliche Wachstumsprognosen müsste der NPS über mehrere Jahre wiederholt in einem Unternehmen eingesetzt werden
  • bei geringer Rücklaufquote oder Beteiligung nur weniger Kunden niedrige Aussagekraft
  • Kostenpflichtig online zugänglich, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Weitere User-Satisfaction-Befragungen
  • Total effort: Rather below average
  • Date of last research: 04/2017
Single Ease Question
Die Single Ease Question (SEQ) ist eine einzelne Abfrage der Schwierigkeit der Aufgabenbewältigung, die im Jahr 2009 beschrieben wurde. Die Skala basiert auf einem häufig genutzten Standard im Bereich Usability-Evaluation; die SEQ ähnelt der Methode Expectation Measure. Sie widmet sich jedoch nicht nicht explizit dem Abgleich des Ratings vor und nach einer Aufgabenbearbeitung.
  • schnell erlernbar und durchführbar
  • einfache Handhabbarkeit und Auswertung
  • papierbasiert, in elektronischer Form, als Onlineumfrage oder auch mündlich durchführbar
  • einfache grafische Darstellbarkeit, bspw. visuelle Gegenüberstellung der Überarbeitung einer Aufgabe bei Anwendung der SEQ vor und nach der Änderung
  • Nicht spezifiziert
  • Kostenfrei, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Mindestens nutzerseitige Aufgabenausführung
  • Total effort: Small
  • Date of last research: 04/2017
Subjective Mental Effort Questionnaire
Der Subjective Mental Effort Questionnaire (SMEQ) wurde im Jahr 1994 entwickelt. Einige Autoren beschreiben die Herangehensweise von SMEQ unter dem Namen Rating Scale Mental Effort (RSME); an dieser Stelle wird jedoch der Name SMEQ verwendet.
  • sowohl unter Laborbedingungen als auch im Kontext der Produktnutzung einsetzbar
  • schnell erlernbar und durchführbar, auch etwa im Vergleich mit Methoden wie Magnitude Estimation Technique
  • durch die Möglichkeit der stufenlosen Beantwortung können Nutzerempfindungen genauer festgehalten werden als etwa mit SEQ
  • besonders geeignet für Onlineevaluationen aufgrund der etwas höheren Sensitivität verglichen mit SEQ
  • komplexer als Methoden wie Single Ease Question
  • Kostenfrei, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Mindestens nutzerseitige Aufgabenausführung
  • Total effort: Small
  • Date of last research: 04/2017
Other Survey Methods and Questionnaires
Card Sorting
The origin of Card Sorting (CS) cannot be clearly verified, however, a background of the method from psychology is described. CS does not strictly fall under Survey Methods and Questionnaires; but because users are involved and their opinion—without an actual application of the system, as is the case with Usability Testing—is obtained, even though no actual inquiry is carried out, CS is seen as a survey method at this point. CS is formatively applicable and allows for the collection of primarily qualitative data. During application of the method, selected study participants designate and group menu items by means of small cards; in most cases, the menu structure of a website is focused. An optimisation of aspects like navigation, terminology and categorisation can be achieved by summarising the results of the designation conducted by the study participants and developing an information structure based on this summary. Thereby, the view users have of the website can be understood. Apart from Open Card Sorting, during which participants sort and designate website contents without guidelines and in groups, the more restrictive form of CS, Closed Card Sorting, can be resorted to in order to provide participants with categories to work with during the conduct.
  • cost-effectively applicable
  • low temporal expenditure both regarding preparation and conduct as well as interpretation
  • when applied in groups, conclusions concerning joint solution finding und communication of the study participants among each other can be drawn
  • except for ordinary objects like table and whiteboard or similar items, no other tools or equipment are needed
  • therefore, feasible at any given location, for example in a laboratory or on site at the customer premises
  • insights into actual opinions of real users
  • user expectations become assessable
  • a deep understanding of the website design can be achieved, based on which the website structure can be optimised, contents can be adjusted and the designation of categories as well as navigation elements can be improved
  • UEM has been used for several decades already
  • CS as an individual evaluation allows for an easier scheduling of the temporal sequence than the conduct in groups
  • user tasks or functions that navigation elements have are not taken into account
  • results are unforeseeable—they can swidely or hardly vary between individual study participants; this may increase the little effort that is intrinsically necessary for interpreting results
  • no insights into what is specifically wrong with the present website
  • not or only to a limited extent suited if the website to be evaluated is too comprehensive, has very heterogeneous content or complex or specialist content
  • within the scope of individual CS, due to the missing interaction with other study participants, it is possible that less meaningful results are achieved
  • within the scope of CS in groups, the risk of reaching compromises is described, as individual opinions might fade into the background as a result of the group discussion
  • Several modifications available, formative approach, extensive reference and application described in existing literature
  • Recommended combination(s):
    Thinking Aloud
  • Total effort: Below average
  • Date of last research: 04/2017
Contextual Inquiry
Die qualitativ einsetzbare Contextual Inquiry (CIN) entstammt den Sozialwissenschaften und wurde 1998 im Bereich Usability beschrieben. Es handelt sich um eine Form des Interviews, wobei jedoch CIN im Benutzerumfeld durchgeführt wird, sodass auch benutzerseitige Arbeitsabläufe beobachtet werden können. Die Basis der CIN bilden die Prinzipien Kontext, Partnerschaft, Interpretation und Fokus. Kontext ist das wichtigste Prinzip, da es das Verständnis von Bedürfnissen und Kontext der Benutzer sowie Aussagen zu Prozessen und Arbeitsabläufen ermöglicht. Partnerschaft beschreibt die Beziehung zwischen Interviewer und befragtem Nutzer, wobei der Nutzer als Experte angesehen wird, der dem Interviewer sein alltägliches Handeln mit dem System erklärt. Interpretation ist notwendig, damit die Bedeutung der Aussagen und Aktionen verstanden und Designanforderungen für neue Systeme erhoben werden können. Fokus ist eine primär interviewerseitige Anforderung, während der Beobachtungen die Aufmerksamkeit stets auf das eigentliche Thema zu lenken und Nutzer im Falle eines Abweichens dahin zurückzuführen. CIN ist der erste Schritt des sogenannten Contextual Design.
  • keine Expertenunterstützung notwendig, da der Nutzer die Rolle des Experten einnimmt
  • realitätsnahe Nachvollziehbarkeit von Nutzerverhalten und Nutzerbedürfnissen
  • Evaluation erfolgt nicht in Laborumgebung, sondern in tatsächlicher Arbeitsumgebung
  • ermöglicht realistische Kostenabschätzung
  • sehr flexible Methode, die somit vielfältig eingesetzt werden kann
  • Möglichkeit der Erhebung umfangreicher Informationen zu Arbeitsverhalten und Arbeitsumgebung, Nutzerwerkzeugen etc.
  • iterativ in kürzerer Form einsetzbar, um bspw. frühere CIN-Erkenntnisse auch für aktuellen Entwicklungsstand zu bestätigen
  • Planung und Durchführung zeitaufwendig und kostenintensiv, etwa da es sich um Einzelgespräche zwischen einem Benutzer und einem Beobachter handelt – so wird eine Dauer von ca. sechs Wochen für CIN beschrieben, gegenüber drei Wochen für eine Fokusgruppe – also doppelt so viel Zeitaufwand für CIN
  • Ergebnisse sind interpretationsabhängig, also nicht objektiv
  • Ergebnisse können verfälscht oder sogar unbrauchbar sein, bspw. wenn zwischenmenschliche Diskrepanzen zwischen dem Nutzer und dem Interviewer auftreten
  • Besonders hohe Flexibilität der Anwendung, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Fokusgruppe oder Eye-Tracking
  • Total effort: Above average
  • Date of last research: 04/2017
Critical Incident Technique
Die Critical Incident Technique (CIT) ist eine formativ einsetzbare Methode, die zur empirischen Analyse von Anforderungen eingesetzt wird und als halbstandardisiertes Verfahren gilt. Sie wurde bereits in den 1950er-Jahren entwickelt und liefert qualitative Ergebnisse im Rahmen einer schrittweisen Datensammlung und Datenanalyse menschlicher Aktivitäten und deren Signifikanz. Es werden sogenannte Critical Incidents beobachtet, wobei ein Critical Incident definiert ist als ein Ereignis, das innerhalb der Aufgabenausführung beobachtet wird und bedeutsame Rückschlüsse hinsichtlich eines Aspektes zulässt, der das Ziel der Evaluation betrifft. Die Critical Incidents erfüllen bestimmte vor-definierte Kriterien – so können kontextualisierte Informationen gewonnen werden, die Erfahrungen aus dem echten Leben repräsentieren. Die Ergebnisse der CIT können für zahlreiche Anwendungsgebiete verwendet werden; so kann sie etwa auch im Rahmen von Usability-Evaluation eingesetzt werden, wie ca. ab der Jahrtausendwende entdeckt wurde.
  • jahrzehntelang erprobt und für verschiedene Anwendungsgebiete weiterentwickelt
  • nachvollziehbare und erprobte Richtlinien für die Datensammlung und Datenanalyse vorhanden
  • zeichnet sich durch Flexibilität und die Berücksichtigung echter Lebensereignisse aus, die praxistaugliche Erkenntnisse ermöglicht
  • anwendbar, wenn Nutzer während der Aufgabenausführung nicht beobachtet werden können – zum Beispiel, wenn Gefahr besteht oder vertrauliche Informationen Teil der Aufgabenerledigung sind
  • kostengünstig einsetzbar
  • sehr gründliches Erfassen von Daten zu den Critical Incidents erforderlich, somit wird eine zielführende Auswertung ermöglicht
  • anpassbar für Interviews, Beobachtung, Befragungen, Thinking Aloud, Online-Gruppendiskussionen und andere Vorgehensweisen
  • durch Fokus auf Critical Incidents Möglichkeit der Erfassung von Problemen, die durch andere Methoden nicht identifiziert werden
  • Zieldefinition langwierig und erfordert Expertenunterstützung
  • keine festen Vorgaben, etwa bezüglich Datenerhebungsinstrumenten oder zu evaluierender Aspekte des Systems
  • da nur kritische Ereignisse betrachtet werden, bleiben Informationen bspw. zur alltäglichen Aufgabenausführung unberücksichtigt
  • Besonders hohe Flexibilität der Anwendung, formatives Vorgehen, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Total effort: Rather above average
  • Date of last research: 04/2017
Diary Study
Das Nutzungstagebuch (NT) ist eine Sonderform eines Fragebogens. Es entstammt der anthropologischen und psychologischen Forschung und wurde 1993 unter dem Namen Diary Study (DS) vorgestellt wurde. NT ermöglicht ein hohes Maß an Objektivität und bildet eine Brücke zwischen Nutzerbeobachtungen am Arbeitsplatz und kontrollierten Laborstudien. Probanden beschreiben dabei im Alltag in einer freien oder zum Teil vorgegebenen Form die Nutzung eines Systems in einem bestimmten Zeitraum. Bei NT handelt es sich um eine überwiegend qualitativ anwendbare Methode. Jedoch können mit einer höheren Teilnehmerzahl auch statistisch relevante quantitative Daten, etwa hinsichtlich Effektivität, Effizienz und Zufriedenstellung, erfasst werden. NT liefert etwa Informationen über die Art der Nutzung und den Nutzungskontext zurück und ist formativ sowie summativ einsetzbar. NT ist nur für den Einsatz im Feld geeignet. Dabei können die entsprechend auszufüllenden Tagebücher mehr oder weniger frei definiert werden. So empfehlen die Autoren, bspw. für explorative Studien auf ein sehr freies Antwortformat zurückzugreifen, jedoch dennoch einen Bezug zu zuvor definierten Fragestellungen herzustellen.
  • aufgrund der offenen Gestaltung vielfältige Auswertbarkeit der Ergebnisse
  • selbstständiges Ausfüllen durch Nutzer, somit keine Beeinflussung durch anwesenden Moderator möglich
  • künstlicher Charakter von Laboruntersuchungen kann vermieden werden, dadurch hohe Nähe zur Realität, auch aufgrund langer Phase des Ausfüllens sowie der angestrebten Beobachtung von alltäglichem Handeln
  • es werden Denkanstöße gegeben und Hintergrundinformationen generiert – bspw. vergessen Probanden bei IV oder auch anderen Befragungsmethoden Details oder es kommt aufgrund des zeitlichen Abstandes seit der Auseinandersetzung mit dem System zu Verzerrungen
  • auch anwendbar, wenn kein direkter Zugang zu den Nutzern gegeben ist
  • aufgrund ihrer Integration in den Alltag stellen NTs eine Beeinflussung dessen in Form eines Eingriffes dar
  • benötigte Ressourcen sowohl bzgl. Zeit als auch Expertise höher als für IV oder herkömmliche Fragebögen
  • langer Zeitraum auch für das Ausfüllen benötigt – angeraten werden ein bis zwei Wochen, in seltenen Fällen mehrere Monate
  • auch bei der Auswertung entsteht ein hoher Aufwand, etwa beim Transkribieren der ausgefüllten NTs
  • insgesamt nur stark eingeschränkt kontrollierte Evaluationsumgebung, daher Tendenz zu lückenhafter Beantwortung
  • unvollständiges Ausfüllen der Tagebücher wahrscheinlich, auch möglich durch vorzeitiges Beenden der Studie
  • keine klaren Vorgaben bzw. genaue Struktur für NTs verfügbar
  • Einsatz möglichst über längeren Zeitraum, formativ oder summativ einsetzbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Interview und/oder Fragebögen
  • Total effort: Increased
  • Date of last research: 04/2017
Focus Group
Bei der Fokusgruppe (FG) handelt es sich um eine qualitative Methode, genauer gesagt um eine spezielle Form der Befragung. FG werden überwiegend in der Marktforschung, jedoch auch im Rahmen von Usability-Evaluationen eingesetzt. Während ihr Ursprung in diesem Bereich nicht genau geklärt werden kann, stammen frühe Studien und Veröffentlichungen zu FG bspw. bereits aus den späten 1980er- und den frühen 1990er-Jahren. Im Rahmen einer FG diskutiert eine Gruppe von Menschen bspw. ihre individuelle Denkweise sowie Begründungen für bestimmte Meinungen der teilnehmenden Personen, wobei wesentliche Kennzeichen die Anleitung durch einen Moderator während des Gesprächs, die Fokussierung auf ein bestimmtes, zuvor festgelegtes Thema und die Entstehung gruppendynamischer Prozesse durch den Austausch in einer kleinen Gruppe sind.
  • geringe Kosten und vergleichsweise niedriger Aufwand
  • Vielzahl an Anregungen zum untersuchten Thema, auch da Teilnehmer voneinander lernen und einander im Gesprächsverlauf Anregungen geben können
  • hohe Flexibilität und Augenscheinsvalidität
  • da Verständnis für Nutzerbedürfnisse und -wünsche erlangt wird, ist im Rahmen der weiteren Produktentwicklung eine starke Kundenorientierung möglich
  • erhobene Daten nicht generalisierbar, da qualitativer Natur
  • Ergebnisse nicht auf andere Benutzergruppen übertragbar, da gezielte Auswahl der Probanden erfolgte
  • es können keine gültigen Erkenntnisse über nutzerseitige Zielprozesse erhoben werden
  • ggf. ungleicher Gesprächsanteil der einzelnen Teilnehmer, wenn einige Personen bspw. dominant und andere zurückhaltend agieren
  • es können keine bzw. kaum quantitative Daten erhoben werden
  • bei Zurückgreifen auf mehrere Gruppen, die jeweils diskutieren, erhöhen sich der Aufwand für die Teilnehmerrekrutierung und die benötigte Zeit stark
  • erlaubt nicht direkt Rückschlüsse auf die Usability des evaluierten Produktes, da Nutzer nur über eine Systemnutzung sprechen, diese aber nicht stattfindet
  • es besteht das Risiko, dass Nutzer Wünsche äußern, die nicht ihren tatsächlichen Anforderungen bzw. Bedürfnissen ein Produkt betreffend entsprechen
  • Besonders hohe Flexibilität der Anwendung, Modifikation verfügbar, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Total effort: Rather below average
  • Date of last research: 04/2017
Interview
Im Rahmen eines Interviews (IV) stellt eine befragende Person dem oder den Befragten eine Reihe an Fragen. Die primär qualitativ anwendbare Methode wird auch im Bereich Usability-Evaluation angewendet. Im Unterschied etwa zu Contextual Inquiry geht mit der IV-Befragung keine Beobachtung des Nutzers während der Aufgabenbearbeitung einher. Sinnvoll ist die Anwendung von IV, wenn keine große Zahl Benutzer zur Verfügung steht oder wenn individuelle Interessen und Meinungen im Fokus stehen. Unterschieden werden kann zwischen Gruppen- und Einzelinterviews, wobei Gruppeninterviews dem Vorgehen einer Fokusgruppe ähneln. In Gruppeninterviews ist die Ergebnisqualität von der Teilnehmerzahl abhängig; es wird jedoch betont, dass oftmals Einzelinterviews durchgeführt werden. Neben der Anzahl der Befragten pro Sitzung ist auch zwischen verschiedenen IV-Arten zu differenzieren, nämlich dem unstrukturierten, dem semi-strukturierten und dem strukturierten IV. Der Hauptunterschied liegt in der Freiheit, die Nutzern bei der Fragenbeantwortung eingeräumt wird.
  • während der Befragung auftauchende Unklarheiten etc. können durch Rückfragen oder Bitte um Klarstellung ausgeräumt werden, anders als bspw. in vorgefertigten Fragebögen
  • in der Vorbereitung weniger Zeitaufwand als bei Erstellung eines Fragebogens, etwa da kein Wert auf einwandfreie Verständlichkeit der Interviewfragen gelegt werden muss, weil im Falle von Unklarheiten Nachfragen vonseiten des Interviewten möglich sind
  • höhere Rücklaufquote als bei Fragebögen zu erwarten, da eine Zusage zu einem persönlichen Gespräch eher tatsächlich wahrgenommen wird, als eine Bereitschaftserklärung zum Ausfüllen eines Fragebogens auch wirklich umgesetzt wird
  • je nach Testgegenstand zum Beispiel auch telefonisch, per Videokonferenz durchführbar – günstig etwa, wenn eine signifikante geografische Distanz zu den zu interviewenden Personen vorliegt
  • aufgrund der direkten Kommunikation sind auch komplexe und detaillierte Informationen erfassbar
  • Anwendung sinnvoll, wenn bspw. allgemeine nutzerseitige Einstellungen oder Meinungen zu einem Problem etc. erfasst werden sollen
  • aufgrund fehlender Anonymität ist es möglich, dass Befragte ihre Antworten an vermeintliche Erwartungen des Interviewenden anpassen
  • bei gleicher Anzahl IVs wie mit Fragebogen befragten Personen erheblich höhere Kosten für IV
  • Beeinflussung von Antworten in Gruppeninterviews möglich, unterschiedlicher Beteiligungsgrad der Teilnehmer
  • keine prozentualen Werte oder allgemeingültigen Fakten ableitbar
  • Einflussnahme des Interviewers auf Befragte(n) wahrscheinlich
  • neben aktiver Einflussnahme auch passive Beeinflussung des Befragten möglich, wenn dieser seine starke Meinung im persönlichen Gespräch eher moderat ausdrücken möchte
  • erhobene Daten liegen in relativ unstrukturierter Form vor, dadurch Fehlinterpretation möglich
  • Nutzer erinnern sich in Interviews entweder an eine vorangegangene Systemnutzung oder stellen sich zukünftige Nutzung vor – in beiden Varianten können Details vergessen bzw. erdachte hinzugefügt werden; Vorstellung anhand einer Beschreibung entspricht oft nicht dem tatsächlichen Handeln
  • spezifische Fragen zu Entwicklung und Gestaltung eines Systems können zumeist nicht durch IV beantwortet werden
  • Besonders hohe Flexibilität der Anwendung, in der Literatur extensive Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Nutzerbeobachtung bzw. Benutzertestmethode(n), Card Sorting oder Umfrage
  • Total effort: Rather below average
  • Date of last research: 04/2017
Loyalty Acid Test
Der Loyalty Acid Test (LAT) wurde im Jahr 2001 in einem Unternehmenskontext und befasst sich mit der Einschätzung der Loyalität. Die Zufriedenheit, deren alleinige Messung in zahlreichen Fragebögen erfolgt, reicht dem Entwickler der Methode zufolge nicht aus, sodass sich LAT stattdessen im Speziellen der Wichtigkeit der Loyalität für den unternehmerischen Erfolg in der heutigen Wirtschaft widmet. Mithilfe von LAT erfolgt eine Messung der Loyalität von Kunden und anderen Personen, die mit einem bestimmten System befasst sind, zum Beispiel Mitarbeiter. Eine Aussage über die Zufriedenheit ist dennoch auch ein Teil der Befragung mittels LAT.
  • geht über reine Zufriedenheitsmessung hinaus
  • nicht nur für Evaluation mit Kunden geeignet, sondern auch Adaptionen – zum Beispiel für Angestellte – verfügbar
  • optionale Möglichkeit zum Vergleich mit vorangegangenen LAT-Anwendungen in einer umfassenden Datenbank durch Weitergabe der Evaluationsergebnisse an Satmetrix – LAT ist jedoch auch ohne Datenweitergabe kostenfrei anwendbar
  • keine psychometrische Validierung verfügbar
  • kaum Details zur korrekten Anwendung der Methode verfügbar
  • Kostenfrei online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Total effort: Small
  • Date of last research: 04/2017
Nielsen's Attributes of Usability
Nielsen's Attributes of Usability (NAU) basieren auf der Definition Nielsens von Usability anhand der fünf Qualitätskomponenten Learnability, Efficiency, Memorability, Errors und Satisfaction. Diese Attribute werden als Items verwendet, ihre Erfüllung im Rahmen der Systemnutzung kann so von Benutzern des Systems eingeschätzt werden. Bemerkenswert ist, dass die Methode NAU zwar durch Sekundärquellen aufgegriffen wird, von Nielsen selbst jedoch nicht explizit als zu verwendender Fragebogen erwähnt wird.
  • NAU erfordern – vor allem aufgrund der geringen Anzahl an Items – extrem wenig Aufwand
  • keine Standardisierung und nur wenig praktische Anwendung der UEM gegeben
  • NAU werden von Nielsen selbst nicht als Fragebogen eingesetzt, daher keine Validierung des Fragebogens verfügbar
  • Kostenfrei online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Mindestens nutzerseitige Systemanwendung
  • Total effort: Small
  • Date of last research: 04/2017
Product Reaction Cards
Die Product Reaction Cards (PRC), auch Microsoft Reaction Card Method (MRCM) genannt, wurden im Jahr 2002 entwickelt. Sie sind Teil eines sogenannten Desirability Toolkit (DT) zur Messung nicht greifbarer Attribute eines Systems, wie etwa dessen Reiz. Es handelt sich dabei nicht um eine Befragungsmethode im klassischen Sinne; vielmehr treffen die Probanden eine Auswahl aus positiv und negativ formulierten Adjektiven, die ihrer Einschätzung nach zu dem zu evaluierenden System passen. Daraufhin bestimmen die Probanden separat ihre persönlichen fünf Favoriten und erläutern jeweils die Auswahl. Die erhobenen Daten können einerseits qualitativ genutzt werden, indem die freien Kommentare der Nutzer ausgewertet werden. Andererseits können quantitative Daten erfasst werden, wenn jeweils gezählt wird, wie häufig einzelne Attribute ausgewählt wurden.
  • PRC nutzt weder Ratingskalen noch vorgefertigte Fragen, Nutzer müssen sich zudem keine Begriffe selbst ausdenken
  • Nutzer geben umfangreiche Informationen preis, zum Beispiel zu ihrer Interaktion mit dem System und ihrer Reaktion darauf
  • durch die Diskussion öffnen sich Probanden und geben Informationen preis, die sie möglicherweise in anders gearteten Evaluationen nicht mitgeteilt hätten
  • schnell und unkompliziert durchführbar
  • umfangreiche mögliche Reaktionen auf das System enthalten, zum Beispiel zu der visuellen Wahrnehmung, Funktionalität und Nutzererfahrung insgesamt
  • besonderes Maß an Verständnis für die und Authentizitatät der Probanden erreichbar, was durch andere Befragungsmethoden nicht in jedem Fall möglich ist
  • es werden überwiegend qualitative Maße erhoben, sodass Ergebnisse nicht verallgemeinbar sind
  • keine Angaben zu Validität und Reliabilität, somit keine Standardisierung gegeben
  • je nach Notwendigkeit der Anpassung enthaltener Begriffe ggf. steigender Aufwand, Ergebnisqualität somit nicht absehbar
  • Kostenfrei online zugänglich, in der Literatur relativ selten Erwähnung und Anwendung beschrieben
  • Required combination(s):
    Mindestens nutzerseitige Systemanwendung
  • Total effort: Rather below average
  • Date of last research: 04/2017
User Page Review
Die Methode User Page Review (UPR), auch Page-level feedback (PLF) oder Live-Site Survey (LSS) genannt, erlaubt eine Nutzerbefragung auf einer Website, wobei die Fragen direkt auf der entsprechenden Seite eingebunden werden. Dabei werden Nutzer dazu angeregt, während der Websitenutzung ihre Meinung dazu zu äußern, indem auf bestimmten – oder auch auf allen – Seiten des Webauftritts ein Button platziert wird, auf den Nutzer klicken und einzelne Fragen beantworten sowie Kommentare abgeben können. Es gibt zahlreiche verschiedene Werkzeuge, die kommerziell angeboten werden, um UPR durchzuführen. Dazu gehören etwa OpinionLab, Infocus, Usabilla und Kampyle sowie zahlreiche weitere Werkzeuge in ähnlicher Form. Da sich die Werkzeuge in Parametern wie Struktur, Zielsetzung oder Anforderungen nicht grundlegend voneinander unterscheiden, werden sie im Folgenden unter dem Terminus UPR subsumiert und nicht separat thematisiert. Im Rahmen einer geplanten Anwendung der UEM kann bei Bedarf gezielt den vorliegenden Anforderungen und aktuellen Gegebenheiten der Webentwicklung entsprechend ein Anbieter geeigneter Dienstleistungen ausgewählt werden.
  • Nutzerkommentare können Usability-Probleme offenbaren, die durch Betrachtung der Website durch Experten aufgrund einer abweichenden Vorgehensweise nicht gefunden worden wären
  • mehr, jedoch überwiegend andere Probleme identifizierbar als mit vergleichbar durchgeführtem Thinking Aloud
  • mit geringem Zeitaufwand und niedrigen Kosten durchführbar, zum Beispiel auch vergleichsweise niedriger als bei Thinking Aloud
  • liefert Anhaltspunkte zu Gründen für nutzerseitige Verhaltensweisen und deren Motivation
  • vergleichsweise simple und kostenfreie sowie komplexere, kostenpflichtige Tools stehen zur Auswahl – diese können nicht zuletzt auch für die Auswertung herangezogen werden
  • verschiedene verfügbare Werkzeuge bieten auch die Möglichkeit, die konkrete Zielsetzung bei der Evaluation durch die Auswahl des Tools an die individuell vorliegende Situation anzupassen
  • gut mit anderen Webanalyse-Tools kombinierbar, bspw. Google Analytics
  • trotz steigender Popularität bislang wenig Details zu Vor- und Nachteilen der Methode
  • Erfolg der Methode ist abhängig von nutzerseitiger Bereitschaft und Fähigkeit zur Bereitstellung von Feedback
  • Kategorisierung und somit Auswertung von Kommentaren kann bspw. dadurch erschwert werden, dass einige Befragte Probleme selbst, andere Gründe dafür und wieder andere Lösungsmöglichkeiten beschreiben
  • mit steigender Zahl Fragen, die eine Auswertbarkeit der Ergebnisse verbessern könnten, steigt auch die Wahrscheinlichkeit, dass Nutzer die Befragung nicht durchführen oder nicht beenden
  • da Websitebesucher in ihrer gewohnten Nutzungsumgebung die Entscheidung treffen, ob sie an der Befragung teilnehmen möchten oder nicht, können die Ergebnisse verzerrt sein, bspw. dahingehend, dass vor allem unzufriedene Nutzer die Fragen beantworten
  • Kostenfrei oder kostenpflichtig online zugänglich, in der Literatur häufige Erwähnung und Anwendung beschrieben
  • Recommended combination(s):
    Thinking Aloud
  • Total effort: Small
  • Date of last research: 04/2017