Durchschnittliche Meinungsbewertung - Mean opinion score

Der Mean Opinion Score (MOS) ist ein im Bereich der Erfahrungsqualität und der Telekommunikationstechnik verwendetes Maß , das die Gesamtqualität eines Stimulus oder Systems repräsentiert. Es ist das arithmetische Mittel über alle einzelnen „Werte auf einer vordefinierten Skala, die ein Proband seiner Einschätzung der Leistung einer Systemqualität zuordnet“. Solche Bewertungen werden normalerweise in einem subjektiven Qualitätsbewertungstest gesammelt , können aber auch algorithmisch geschätzt werden.

MOS ist ein häufig verwendetes Maß für die Bewertung der Video-, Audio- und audiovisuellen Qualität, ist jedoch nicht auf diese Modalitäten beschränkt. Die ITU-T hat in der Empfehlung P.800.1 verschiedene Arten der Bezugnahme auf einen MOS definiert , je nachdem, ob die Punktzahl aus audiovisuellen, Konversations-, Hör-, Sprech- oder Videoqualitätstests stammt.

Bewertungsskalen und mathematische Definition

Der MOS wird als einzelne rationale Zahl ausgedrückt, typischerweise im Bereich von 1 bis 5, wobei 1 für die niedrigste wahrgenommene Qualität und 5 für die höchste wahrgenommene Qualität steht. Je nach Bewertungsskala , die im zugrunde liegenden Test verwendet wurde, sind auch andere MOS-Bereiche möglich . Die Skala der absoluten Kategoriebewertung wird sehr häufig verwendet, die Bewertungen zwischen Schlecht und Ausgezeichnet auf Zahlen zwischen 1 und 5 abbildet , wie in der folgenden Tabelle zu sehen ist.

Bewertung Etikett
5 Exzellent
4 Gut
3 Gerecht
2 Arm
1 Schlecht

Andere standardisierte Qualitätsbewertungsskalen existieren in ITU-T- Empfehlungen (wie P.800 oder P.910 ). Zum Beispiel könnte man eine kontinuierliche Skala zwischen 1 und 100 verwenden. Welche Skala verwendet wird, hängt vom Zweck des Tests ab. In bestimmten Kontexten gibt es keine statistisch signifikanten Unterschiede zwischen Bewertungen für die gleichen Stimuli, wenn sie mit unterschiedlichen Skalen erhalten werden.

Der MOS wird als arithmetisches Mittel über einzelne Bewertungen berechnet, die von menschlichen Probanden für einen gegebenen Reiz in einem subjektiven Qualitätsbewertungstest durchgeführt wurden . Daher:

Wo sind die individuellen Bewertungen für einen bestimmten Stimulus durch die Probanden.

Eigenschaften des MOS

Der MOS unterliegt bestimmten mathematischen Eigenschaften und Verzerrungen. Im Allgemeinen gibt es eine anhaltende Debatte über die Nützlichkeit des MOS, um die Qualität der Erfahrung in einem einzelnen skalaren Wert zu quantifizieren.

Wird der MOS mit kategorialen Ratingskalen erfasst, so basiert er – ähnlich wie bei Likert-Skalen – auf einer Ordinalskala . In diesem Fall ist die Rangfolge der Skalenitems bekannt, ihr Intervall jedoch nicht. Daher ist es mathematisch falsch, einen Mittelwert über einzelne Bewertungen zu berechnen, um die zentrale Tendenz zu erhalten; stattdessen sollte der Median verwendet werden. In der Praxis und bei der Definition von MOS wird es jedoch als akzeptabel angesehen, das arithmetische Mittel zu berechnen.

Es hat sich gezeigt, dass bei kategorialen Bewertungsskalen (wie ACR) die einzelnen Items von den Probanden nicht äquidistant wahrgenommen werden. Zum Beispiel kann die "Lücke" zwischen Gut und Ausreichend größer sein als zwischen Gut und Ausgezeichnet . Die wahrgenommene Distanz kann auch von der Sprache abhängen, in die die Skala übersetzt wird. Es gibt jedoch Studien, die keinen signifikanten Einfluss der Skalenübersetzung auf die erhaltenen Ergebnisse nachweisen konnten.

Bei der typischen Erfassung von MOS-Bewertungen gibt es mehrere andere Verzerrungen. Neben den oben genannten Problemen bei nichtlinear wahrgenommenen Skalen gibt es einen sogenannten „Range-Equalization-Bias“: Probanden geben im Verlauf eines subjektiven Experiments tendenziell Noten ab, die die gesamte Bewertungsskala umfassen . Dies macht es unmöglich, zwei verschiedene subjektive Tests zu vergleichen, wenn der Bereich der präsentierten Qualität unterschiedlich ist. Mit anderen Worten, der MOS ist nie ein absolutes Qualitätsmaß, sondern nur relativ zu dem Test, in dem er erworben wurde.

Aus den oben genannten Gründen – und aufgrund einiger anderer kontextueller Faktoren, die die wahrgenommene Qualität in einem subjektiven Test beeinflussen – sollte ein MOS-Wert nur dann angegeben werden, wenn der Kontext, in dem die Werte erhoben wurden, ebenfalls bekannt ist und angegeben wird. MOS-Werte, die aus verschiedenen Kontexten und Testdesigns gesammelt wurden, sollten daher nicht direkt verglichen werden. Die ITU-T-Empfehlung P.800.2 schreibt vor, wie MOS-Werte gemeldet werden sollten. Konkret sagt P.800.2:

es ist nicht sinnvoll, MOS-Werte, die aus separaten Experimenten erzeugt wurden, direkt zu vergleichen, es sei denn, diese Experimente wurden explizit für einen Vergleich entworfen, und selbst dann sollten die Daten statistisch analysiert werden, um sicherzustellen, dass ein solcher Vergleich gültig ist.

MOS zur Schätzung der Sprach- und Audioqualität

MOS stammt ursprünglich aus subjektiven Messungen, bei denen Hörer in einem "ruhigen Raum" sitzen und eine Telefonanrufqualität so bewerten, wie sie sie wahrnehmen. Diese Art von Testmethodik wird seit Jahrzehnten in der Telefonbranche verwendet und ist in der ITU-T- Empfehlung P.800 standardisiert . Darin wird festgelegt, dass „der Sprecher in einem ruhigen Raum mit einer Lautstärke zwischen 30 und 120 m³ und einer Nachhallzeit von weniger als 500 ms (vorzugsweise im Bereich von 200–300 ms) sitzen sollte dominante Peaks im Spektrum." Anforderungen für andere Modalitäten wurden in ähnlicher Weise später in ITU-Empfehlungen spezifiziert.

MOS-Schätzung mit Qualitätsmodellen

Das Einholen von MOS-Bewertungen kann zeitaufwändig und teuer sein, da es die Einstellung menschlicher Gutachter erfordert. Für verschiedene Anwendungsfälle wie die Codec-Entwicklung oder die Überwachung der Servicequalität – wo die Qualität wiederholt und automatisch geschätzt werden soll – können MOS-Scores auch durch objektive Qualitätsmodelle vorhergesagt werden , die typischerweise mit menschlichen MOS-Ratings entwickelt und trainiert wurden. Eine Frage, die sich bei der Verwendung solcher Modelle stellt, ist, ob die erzeugten MOS-Unterschiede für die Benutzer wahrnehmbar sind. Bei der Bewertung von Bildern auf einer 5-Punkte-MOS-Skala wird beispielsweise erwartet, dass ein Bild mit einem MOS von 5 eine deutlich bessere Qualität aufweist als eines mit einem MOS von 1. Im Gegensatz dazu ist nicht ersichtlich, ob ein Bild mit ein MOS von 3,8 ist qualitativ merklich besser als einer mit einem MOS von 3,6. Untersuchungen zur Bestimmung des kleinsten für Benutzer wahrnehmbaren MOS-Unterschieds für digitale Fotografien haben gezeigt, dass ein MOS-Unterschied von ungefähr 0,46 erforderlich ist, damit 75 % der Benutzer das qualitativ hochwertigere Bild erkennen können. Dennoch ändert sich die Bildqualitätserwartung und damit der MOS im Laufe der Zeit mit der Änderung der Benutzererwartungen. Als Ergebnis können sich die minimal wahrnehmbaren MOS-Unterschiede, die mit analytischen Methoden wie z. B. in bestimmt wurden, im Laufe der Zeit ändern.

Siehe auch

Verweise