H.262 / MPEG-2 Teil 2 - H.262/MPEG-2 Part 2

H.262 / MPEG-2 Teil 2
Informationstechnologie - Generische Codierung von bewegten Bildern und zugehörigen Audioinformationen: Video
Status In voller Stärke
Das Jahr hat begonnen 1995
Letzte Version März 2013
Organisation ITU-T , ISO / IEC JTC 1
Ausschuss ITU-T-Studiengruppe 16 VCEG , MPEG
Basisstandards H.261 , MPEG-1
Verwandte Standards H.222.0 , H.263 , H.264 , H.265
Domain Video-Kompression
Webseite https://www.itu.int/rec/T-REC-H.262

H.262 oder MPEG-2 Teil 2 (formal bekannt als ITU-T-Empfehlung H.262 und ISO / IEC 13818-2 , auch bekannt als MPEG-2-Video ) ist ein Videokodierungsformat , das von ITU-T Study standardisiert und gemeinsam verwaltet wird Gruppe 16 Video Coding Experts Group (VCEG) und ISO / IEC Moving Picture Experts Group (MPEG), entwickelt unter Beteiligung vieler Unternehmen. Es ist der zweite Teil der ISO / IEC MPEG-2- Norm. Die Dokumente der ITU-T-Empfehlung H.262 und ISO / IEC 13818-2 sind identisch.

Der Standard ist gegen eine Gebühr bei ITU-T und ISO erhältlich. MPEG-2-Video ist MPEG-1 sehr ähnlich, bietet jedoch auch Unterstützung für Interlaced-Video (eine Codierungstechnik, die in analogen NTSC-, PAL- und SECAM-Fernsehsystemen verwendet wird). MPEG-2-Video ist nicht für niedrige Bitraten (z. B. weniger als 1 Mbit / s) optimiert, übertrifft jedoch MPEG-1 bei höheren Bitraten (z. B. 3 Mbit / s und höher) etwas, wenn auch nicht mit großem Abstand es sei denn, das Video ist interlaced. Alle standardkonformen MPEG-2-Videodecoder können auch MPEG-1-Videostreams wiedergeben.

Geschichte

Das ISO / IEC-Zulassungsverfahren wurde im November 1994 abgeschlossen. Die erste Ausgabe wurde im Juli 1995 genehmigt und 1996 von ITU-T und ISO / IEC veröffentlicht. Didier LeGall von Bellcore leitete die Entwicklung des Standards, und Sakae Okubo von NTT war der ITU-T-Koordinator und Vorsitzender der Vereinbarungen über seine Anforderungen.

Die Technologie wurde mit Beiträgen einer Reihe von Unternehmen entwickelt. Hyundai Electronics (jetzt SK Hynix ) entwickelte 1995 den ersten MPEG-2 SAVI-Decoder (System / Audio / Video).

Die meisten Patente , die später in einem Patentpool als wesentlich für die Umsetzung des Standards geltend gemacht wurden, stammten von drei Unternehmen: Sony (311 Patente), Thomson (198 Patente) und Mitsubishi Electric (119 Patente).

1996 wurde es um zwei Änderungen erweitert, um die Registrierung von Copyright-Kennungen und das 4: 2: 2-Profil aufzunehmen. ITU-T veröffentlichte diese Änderungen 1996 und ISO 1997.

Es gibt auch andere Änderungen, die später von ITU-T und ISO veröffentlicht werden. Die neueste Ausgabe des Standards wurde 2013 veröffentlicht und enthält alle vorherigen Änderungen.

Ausgaben

H.262 / MPEG-2 Video Editionen
Auflage Veröffentlichungsdatum Letzte Änderung ISO / IEC-Norm ITU-T-Empfehlung
Erste Ausgabe 1995 2000 ISO / IEC 13818-2: 1996 H.262 (07/95)
Zweite Ausgabe 2000 2010 ISO / IEC 13818-2: 2000 H.262 (02/00)
Dritte Edition 2013 ISO / IEC 13818-2: 2013 H.262 (02/12) unter Einbeziehung von Änderungsantrag 1 (03/13)

Videokodierung

Bildabtastung

Eine HDTV- Kamera mit 8-Bit-Abtastung erzeugt einen Rohvideostream von 25 × 1920 × 1080 × 3 = 155.520.000 Bytes pro Sekunde für 25 Bilder pro Sekunde (unter Verwendung des 4: 4: 4-Abtastformats ). Dieser Datenstrom muss komprimiert werden, wenn digitales Fernsehen in die Bandbreite der verfügbaren Fernsehkanäle passen soll und wenn Filme auf DVDs passen sollen. Die Videokomprimierung ist praktisch, da die Daten in Bildern häufig räumlich und zeitlich redundant sind. Zum Beispiel kann der Himmel über einem Bild blau sein und dieser blaue Himmel kann Bild für Bild bestehen bleiben. Aufgrund der Funktionsweise des Auges ist es auch möglich, einige Daten aus Videobildern zu löschen oder zu approximieren, ohne dass die Bildqualität merklich beeinträchtigt wird.

Ein üblicher (und alter) Trick, um die Datenmenge zu reduzieren, besteht darin, jedes vollständige "Bild" des Videos beim Senden / Codieren in zwei "Felder" zu trennen: das "obere Feld", das die ungeradzahligen horizontalen Linien darstellt, und das "obere". unteres Feld ", das sind die geradzahligen Zeilen. Beim Empfang / Decodieren werden die beiden Felder abwechselnd angezeigt, wobei die Zeilen eines Feldes zwischen den Zeilen des vorherigen Feldes verschachtelt sind. Dieses Format wird als Interlaced-Video bezeichnet . Die typische Feldrate beträgt 50 (Europa / PAL) oder 59,94 (US / NTSC) Felder pro Sekunde, was 25 (Europa / PAL) oder 29,97 (Nordamerika / NTSC) ganzen Bildern pro Sekunde entspricht. Wenn das Video nicht interlaced ist, wird es als Progressive Scan- Video bezeichnet und jedes Bild ist ein vollständiger Frame. MPEG-2 unterstützt beide Optionen.

Für das digitale Fernsehen müssen diese Bilder digitalisiert werden, damit sie von Computerhardware verarbeitet werden können. Jedes Bildelement (ein Pixel ) wird dann durch eine Luma- Zahl und zwei Chroma- Zahlen dargestellt. Diese beschreiben die Helligkeit und die Farbe des Pixels (siehe YCbCr ). Somit wird jedes digitalisierte Bild zunächst durch drei rechteckige Zahlenfelder dargestellt.

Eine weitere übliche Praxis , die Menge der Daten zu reduzieren , zu verarbeiten ist , unterabzutasten die beiden Chrominanz Ebenen (nach Tiefpassfilterung zu vermeiden Aliasing ). Dies funktioniert, weil das menschliche visuelle System Details der Helligkeit besser auflöst als Details des Farbtons und der Farbsättigung. Der Begriff 4: 2: 2 wird für Videos verwendet, bei denen die Farbintensität horizontal in einem Verhältnis von 2: 1 unterabgetastet ist, und 4: 2: 0 wird für Videos verwendet, bei denen die Farbintensität vertikal und horizontal um 2: 1 unterabgetastet ist. Videos mit Luma und Chroma in derselben Auflösung werden 4: 4: 4 genannt . Das MPEG-2-Videodokument berücksichtigt alle drei Abtasttypen, obwohl 4: 2: 0 bei Consumer-Videos bei weitem am häufigsten vorkommt und es keine definierten "Profile" von MPEG-2 für 4: 4: 4-Videos gibt (siehe unten) zur weiteren Diskussion von Profilen).

Während die folgende Diskussion in diesem Abschnitt im Allgemeinen die MPEG-2-Videokomprimierung beschreibt, werden viele Details nicht behandelt, einschließlich Details zu Feldern, Chrominanzformaten, Reaktionen auf Szenenänderungen, speziellen Codes, die die Teile des Bitstroms kennzeichnen, und anderen Teilen von Informationen. Abgesehen von Funktionen zur Behandlung von Feldern für die Interlaced-Codierung ist MPEG-2-Video dem MPEG-1-Video sehr ähnlich (und sogar dem früheren H.261- Standard ziemlich ähnlich ), sodass die gesamte nachstehende Beschreibung auch für MPEG-1 gilt.

I-Frames, P-Frames und B-Frames

MPEG-2 umfasst drei Grundtypen von codierten Frames: Intra-codierte Frames ( I-Frames ), Predictive-Coded-Frames ( P-Frames ) und bidirektional-Predictive-Coded-Frames ( B-Frames ).

Ein I-Frame ist eine separat komprimierte Version eines einzelnen unkomprimierten (Roh-) Frames. Die Codierung eines I-Rahmens nutzt die räumliche Redundanz und die Unfähigkeit des Auges, bestimmte Änderungen im Bild zu erkennen. Im Gegensatz zu P-Frames und B-Frames hängen I-Frames nicht von Daten in den vorhergehenden oder folgenden Frames ab. Daher ist ihre Codierung der Codierung eines Standbilds sehr ähnlich (ungefähr ähnlich der JPEG- Bildcodierung). Kurz gesagt, der Rohrahmen ist in 8-Pixel-mal-8-Pixel-Blöcke unterteilt. Die Daten in jedem Block werden durch die diskrete Cosinustransformation (DCT) transformiert . Das Ergebnis ist eine 8 × 8-Matrix von Koeffizienten mit reellen Zahlenwerten. Die Transformation wandelt räumliche Variationen in Frequenzvariationen um, ändert jedoch nicht die Informationen im Block. Wenn die Transformation mit perfekter Genauigkeit berechnet wird, kann der ursprüngliche Block durch Anwenden der inversen Kosinustransformation (auch mit perfekter Genauigkeit) exakt neu erstellt werden. Die Umwandlung von 8-Bit-Ganzzahlen in reelle Transformationskoeffizienten erweitert tatsächlich die Datenmenge, die in dieser Phase der Verarbeitung verwendet wird. Der Vorteil der Transformation besteht jedoch darin, dass die Bilddaten dann durch Quantisieren der Koeffizienten angenähert werden können. Viele der Transformationskoeffizienten, normalerweise die Komponenten mit höherer Frequenz, sind nach der Quantisierung Null, was im Grunde eine Rundungsoperation ist. Die Strafe für diesen Schritt ist der Verlust einiger subtiler Unterschiede in Helligkeit und Farbe. Die Quantisierung kann entweder grob oder fein sein, wie vom Codierer ausgewählt. Wenn die Quantisierung nicht zu grob ist und man die inverse Transformation nach der Quantisierung auf die Matrix anwendet, erhält man ein Bild, das dem Originalbild sehr ähnlich sieht, aber nicht ganz gleich ist. Als nächstes wird die quantisierte Koeffizientenmatrix selbst komprimiert. Typischerweise enthält eine Ecke des 8 × 8-Koeffizientenarrays nach Anwendung der Quantisierung nur Nullen. Wenn Sie in der gegenüberliegenden Ecke der Matrix beginnen, dann im Zickzack durch die Matrix gehen, um die Koeffizienten zu einer Zeichenfolge zu kombinieren, dann aufeinanderfolgende Nullen in dieser Zeichenfolge durch Lauflängencodes ersetzen und dann die Huffman-Codierung auf dieses Ergebnis anwenden , wird die Matrix auf reduziert eine kleinere Datenmenge. Es sind diese entropiecodierten Daten, die gesendet oder auf DVDs gespeichert werden. Im Empfänger oder im Player ist der gesamte Vorgang umgekehrt, so dass der Empfänger den ursprünglichen Rahmen in enger Annäherung rekonstruieren kann.

Die Verarbeitung von B-Frames ähnelt der von P-Frames, außer dass B-Frames das Bild in einem nachfolgenden Referenzframe sowie das Bild in einem vorhergehenden Referenzframe verwenden. Infolgedessen bieten B-Frames normalerweise mehr Komprimierung als P-Frames. B-Frames sind in MPEG-2-Videos niemals Referenzframes.

Normalerweise wird jeder 15. Frame oder so zu einem I-Frame. P-Frames und B-Frames können einem I-Frame wie diesem, IBBPBBPBBPBB (I), folgen, um eine Gruppe von Bildern (GOP) zu bilden . Der Standard ist diesbezüglich jedoch flexibel. Der Encoder wählt aus, welche Bilder als I-, P- und B-Frames codiert werden.

Makroblöcke

P-Frames bieten mehr Komprimierung als I-Frames, da sie die Daten in einem vorherigen I-Frame oder P-Frame - einem Referenzframe - nutzen . Um einen P-Frame zu erzeugen, wird der vorherige Referenzframe wie in einem TV-Receiver oder DVD-Player rekonstruiert. Der zu komprimierende Frame ist in Makroblöcke mit 16 x 16 Pixeln unterteilt . Dann wird für jeden dieser Makroblöcke der rekonstruierte Referenzrahmen durchsucht, um einen 16 × 16-Bereich zu finden, der eng mit dem Inhalt des zu komprimierenden Makroblocks übereinstimmt. Der Versatz wird als "Bewegungsvektor" codiert. Häufig ist der Versatz Null, aber wenn sich etwas im Bild bewegt, kann der Versatz etwa 23 Pixel nach rechts und 4 ½ Pixel nach oben betragen. In MPEG-1 und MPEG-2 können Bewegungsvektorwerte entweder ganzzahlige Offsets oder halb ganzzahlige Offsets darstellen. Die Übereinstimmung zwischen den beiden Regionen ist oft nicht perfekt. Um dies zu korrigieren, nimmt der Codierer die Differenz aller entsprechenden Pixel der beiden Regionen und berechnet dann auf dieser Makroblockdifferenz die DCT und die Zeichenfolgen von Koeffizientenwerten für die vier 8 × 8-Bereiche im 16 × 16-Makroblock, wie oben beschrieben. Dieses "Residuum" wird an den Bewegungsvektor angehängt und das Ergebnis an den Empfänger gesendet oder für jeden zu komprimierenden Makroblock auf der DVD gespeichert. Manchmal wird keine passende Übereinstimmung gefunden. Dann wird der Makroblock wie ein I-Frame-Makroblock behandelt.

Videoprofile und Levels

MPEG-2-Video unterstützt eine breite Palette von Anwendungen, von mobiler bis hin zu hochwertiger HD-Bearbeitung. Für viele Anwendungen ist es unrealistisch und zu teuer, den gesamten Standard zu unterstützen. Damit solche Anwendungen nur Teilmengen davon unterstützen können, definiert der Standard Profile und Ebenen.

Ein Profil definiert eine Reihe von Funktionen wie B-Bilder, 3D-Video, Chroma-Format usw. Die Ebene begrenzt den erforderlichen Speicher und die erforderliche Verarbeitungsleistung und definiert maximale Bitraten, Bildgrößen und Bildraten.

Eine MPEG-Anwendung gibt dann die Funktionen in Bezug auf Profil und Ebene an. Beispielsweise kann ein DVD-Player sagen, dass er bis zum Hauptprofil und der Hauptebene unterstützt (häufig als MP @ ML geschrieben). Dies bedeutet, dass der Player jeden MPEG-Stream wiedergeben kann, der als MP @ ML oder weniger codiert ist.

In den folgenden Tabellen sind die Einschränkungen der einzelnen Profile und Ebenen zusammengefasst, obwohl hier keine Einschränkungen aufgeführt sind. Beachten Sie, dass nicht alle Profil- und Ebenenkombinationen zulässig sind und skalierbare Modi die Ebenenbeschränkungen ändern.

MPEG-2-Profile
Abk. Name Bildcodierungsarten Chroma-Format Skalierbare Modi Intra-DC-Präzision
SP Einfaches Profil Ich, P. 4: 2: 0 keiner 8, 9, 10
MP Hauptprofil Ich, P, B. 4: 2: 0 keiner 8, 9, 10
SNR SNR Skalierbares Profil Ich, P, B. 4: 2: 0 SNR 8, 9, 10
Räumlich Räumlich skalierbares Profil Ich, P, B. 4: 2: 0 SNR, räumlich 8, 9, 10
HP Hoher Bekanntheitsgrad Ich, P, B. 4: 2: 2 oder 4: 2: 0 SNR, räumlich 8, 9, 10, 11
422 4: 2: 2 Profil Ich, P, B. 4: 2: 2 oder 4: 2: 0 keiner 8, 9, 10, 11
MVP Multi-View-Profil Ich, P, B. 4: 2: 0 Zeitlich 8, 9, 10
MPEG-2-Ebenen
Abk. Name Bildraten
(Hz)
Maximale Auflösung Proben mit
maximaler Luminanz pro Sekunde (ungefähr Höhe x Breite x Bildrate)
Maximale Bitrate
MP @ (Mbit / s)
horizontal vertikal
LL Niedriges Niveau 23,976, 24, 25, 29,97, 30 0352 0288 03,041,280 04
ML Hauptlevel 23,976, 24, 25, 29,97, 30 0720 0576 10.368.000, außer in High Profile: Die Einschränkung beträgt 14.475.600 für 4: 2: 0 und 11.059.200 für 4: 2: 2 15
H-14 Hoch 1440 23,976, 24, 25, 29,97, 30, 50, 59,94, 60 1440 1152 47.001.600, außer in High Profile: Die Einschränkung beträgt 62.668.800 für 4: 2: 0 60
HL Hohes Level 23,976, 24, 25, 29,97, 30, 50, 59,94, 60 1920 1152 62.668.800, außer in High Profile: Die Einschränkung beträgt 83.558.400 für 4: 2: 0 80

Im Folgenden werden einige gängige MPEG-2-Profil / Level-Kombinationen vorgestellt, wobei bestimmte Höchstgrenzen angegeben werden:

Profil @ Level Auflösung (px) Framerate max. (Hz) Probenahme Bitrate (Mbit / s) Beispielanwendung
SP @ LL 176 × 144 15 4: 2: 0 0,096 Mobilteile
SP @ ML 352 × 288 15 4: 2: 0 0,384 PDAs
320 × 240 24
MP @ LL 352 × 288 30 4: 2: 0 4 Set-Top-Boxen (STB)
MP @ ML 720 × 480 30 4: 2: 0 15 DVD (9,8 Mbit / s) , SD- DVB (15 Mbit / s)
720 × 576 25
MP @ H-14 1440 × 1080 30 4: 2: 0 60 HDV (25 Mbit / s)
1280 × 720 30
MP @ HL 1920 × 1080 30 4: 2: 0 80 ATSC (18,3 Mbit / s), SD- DVB (31 Mbit / s), HD- DVB (50,3 Mbit / s)
1280 × 720 60
422P @ ML 720 × 480 30 4: 2: 2 50 Sony IMX (nur ich), Broadcast Contribution (nur I & P)
720 × 576 25
422P @ H-14 1440 × 1080 30 4: 2: 2 80
422P @ HL 1920 × 1080 30 4: 2: 2 300 Sony MPEG HD422 (50 Mbit / s), Canon XF Codec (50 Mbit / s),
Nanoflash-Rekorder mit konvergentem Design (bis zu 160 Mbit / s)
1280 × 720 60

Anwendungen

Einige Anwendungen sind unten aufgeführt.

  • DVD-Video - ein Consumer-Videoformat in Standardauflösung. Verwendet 4: 2: 0-Farbunterabtastung und variable Videodatenrate bis zu 9,8 Mbit / s.
  • MPEG IMX - ein professionelles Videoaufzeichnungsformat in Standardauflösung. Verwendet Intraframe-Komprimierung, 4: 2: 2-Farbunterabtastung und vom Benutzer wählbare konstante Videodatenrate von 30, 40 oder 50 Mbit / s.
  • HDV - ein bandbasiertes HD-Videoaufzeichnungsformat. Verwendet eine 4: 2: 0-Farbunterabtastung und eine Gesamtdatenrate von 19,4 oder 25 Mbit / s.
  • XDCAM - eine Familie bandloser Videoaufzeichnungsformate, zu denen insbesondere Formate auf der Basis von MPEG-2 Teil 2 gehören. Dies sind: Standard Definition MPEG IMX (siehe oben), High Definition MPEG HD, High Definition MPEG HD422. MPEG IMX und MPEG HD422 verwenden eine 4: 2: 2-Farbunterabtastung, MPEG HD verwendet eine 4: 2: 0-Farbunterabtastung. Die meisten Unterformate verwenden eine wählbare konstante Videodatenrate von 25 bis 50 Mbit / s, obwohl es auch einen variablen Bitratenmodus mit einer Datenrate von maximal 18 Mbit / s gibt.
  • XF Codec - ein professionelles bandloses Videoaufzeichnungsformat, das MPEG HD und MPEG HD422 ähnelt, jedoch in einer anderen Containerdatei gespeichert ist.
  • HD DVD - nicht mehr verfügbares HD- Consumer-Videoformat.
  • Blu-ray Disc - hochauflösendes Consumer-Videoformat.
  • Broadcast-TV - In einigen Ländern wird MPEG-2 Part 2 für die digitale Übertragung in High Definition verwendet . Beispielsweise spezifiziert ATSC sowohl verschiedene Scanformate (480i, 480p, 720p, 1080i, 1080p) als auch Bild- / Feldraten bei 4: 2: 0-Farbunterabtastung mit einer Datenrate von bis zu 19,4 Mbit / s pro Kanal.
  • Digitales Kabelfernsehen
  • Satelliten Fernsehen

Patentinhaber

Die folgenden Organisationen haben Patente für MPEG-2-Videotechnologie gehalten, wie bei MPEG LA aufgeführt . Alle diese Patente sind jetzt abgelaufen.

Organisation Patente
Sony Corporation 311
Thomson- Lizenzierung 198
Mitsubishi Electric 119
Philips 99
GE Technology Development, Inc. 75
Panasonic Corporation 55
CIF Licensing, LLC 44
JVC Kenwood 39
Samsung Electronics 38
Alcatel Lucent (einschließlich Multimedia Patent Trust) 33
Cisco Technology, Inc. 13
Toshiba Corporation 9
Universität von Columbia 9
LG Electronics 8
Hitachi 7
Orange SA 7
Fujitsu 6
Robert Bosch GmbH 5
Allgemeines Instrument 4
Britische Telekommunikation 3
Canon Inc. 2
KDDI Corporation 2
Nippon Telegraph und Telefon (NTT) 2
ARRIS Technology, Inc. 2
Sanyo Electric 1
Sharp Corporation 1
Hewlett Packard Enterprise Company 1

Verweise

Externe Links