Audio-Video-Standard - Audio Video Standard

Audio Video Coding Standard ( AVS ) bezieht sich auf den Kompressionsstandard für digitale Audio- und digitale Videoserien, der von der Arbeitsgruppe für Audio- und Videocodierungsstandards in China gemäß den offenen internationalen Regeln formuliert wurde. Die Formulierung von AVS-Standards der 3. Generation ist abgeschlossen.

Der AVS-Standard der ersten Generation umfasst „Information Technology, Advanced Audio Video Coding, Part 2: Video“ (kurz AVS1 ) und „Information Technology, Advanced Audio Video Coding Part 16: Radio Television Video“ (kurz AVS+).

Für den AVS-Standard der zweiten Generation, der als AVS2 bezeichnet wird , ist das primäre Anwendungsziel Ultra HD (High Definition)-Video, das die effiziente Komprimierung von Ultra-High-Resolution (4K oben), HDR (High Dynamic Range)-Videos unterstützt und es wurde beim internationalen Standard IEEE (Standard Nr.: IEEE1857.4) zur Anwendung eingereicht.

Der "AVS-Patentpool" bewilligt den AVS-Standard, der nur geringe Lizenzgebühren für Endgeräte (wie Fernseher) verlangt, ausgenommen Inhaltsanbieter und -betreiber. Die Lizenzgebühr für den AVS-Standard der ersten Generation beträgt einen Yuan pro Terminal.

Um die Entwicklung und Förderung des AVS-Standards voranzutreiben, haben Huawei, TCL, Skyworth und andere Unternehmen die Zhongguancun Audiovisual Industry Technology Innovation Alliance (Abkürzung: AVS Industry Alliance) gegründet, die sich der Entwicklung und Förderung des AVS-Standards widmet.

Verwandte Organisationen

AVS-Arbeitsgruppe

Die AVS-Arbeitsgruppe ist die Abkürzung für die im Juni 2002 gegründete digitale Audio- und Videocodierungs-Standardarbeitsgruppe. Ihre Aufgabe ist es, mit inländischen Unternehmen und wissenschaftlichen Forschungseinrichtungen zusammen mit den Anforderungen der Informationsindustrie gemeinsame technische Standards zu formulieren (zu überarbeiten) wie Kompression, Dekompression, Verarbeitung und Darstellung von digitalem Audio und digitalem Video, um so effiziente und wirtschaftliche Codierungs-/Decodierungstechnologien für digitale Audio- und digitale Videogeräte und -systeme bereitzustellen, die den hochauflösenden digitalen Rundfunk und hochdichte digitale Laserspeichermedien bedienen , drahtlose Breitband-Multimedia-Kommunikation, Internet-Breitband-Streaming-Medien und andere wichtige Anwendungen der Informationsindustrie. Derzeit besteht die AVS-Arbeitsgruppe aus 81 Mitgliedseinheiten von Universitäten, Unternehmen und wissenschaftlichen Forschungseinrichtungen, die von Gao Wen, dem Akademiker der Chinese Academy of Engineering, dem Professor und Ph.D. Supervisor der Peking-Universität und stellvertretender Direktor des National Natural Science Fund Committee, bestehend aus Anforderungsgruppe, Systemgruppe, Videogruppe, Audiogruppe, Testgruppe, Gruppe für geistiges Eigentum und anderen Abteilungen. Die AVS-Arbeitsgruppe arbeitet seit ihrer Gründung daran, Normen der AVS-Serie nach offenen internationalen Regeln zu formulieren. Und bisher wurden AVS-Standards für zwei Generationen formuliert.

AVS Patent Pool Management Committee

Im Hinblick auf das Management von geistigem Eigentum hat AVS einen Verwaltungsmechanismus für den „Patentpool“ eingerichtet, wobei die Verwaltung und Genehmigung des Patentpools vom „AVS Patent Pool Management Committee“, einer unabhängigen Unternehmensvereinigung, die am 20. September 2004 gegründet wurde, geleitet wird Komitee ist auch die erste Institution zur Verwaltung von Patentpools in China. Gestützt auf die unabhängige Unternehmensvereinigung Beijing Haidian District Digital Audio and Video Standard Promotion Center, die beim Civil Affairs Bureau of Haidian District of Beijing City registriert ist, hat sie kostengünstige Patentautorisierungsgrundsätze und Verwaltungsregeln für Patenttechnologien aus einer Hand festgelegt die Norm, als Fachgremium und zentrale unternehmerische Entscheidungsinstanz des Förderzentrums. Die Lizenzgebühr für den AVS-Standard der ersten Generation wird nur mit einem Yuan pro Terminal berechnet, und derselbe Modus wird für die zweite Generation verwendet, um eine geringe Lizenzgebühr nur für das Terminal ohne Inhalte und Softwaredienste zu berechnen im Internet.

AVS-Branchenallianz

Die AVS-Industrieallianz ist die Abkürzung für Zhongguancun audiovisuelle Industrie-Technologie-Innovations-Allianz. Im Mai 2005 zwölf Unternehmen (Einheiten) der TCL Group Co., Ltd., Skyworth Group Research Institute, Huawei Technology Co., Ltd., Hisense Group Co., Ltd., Haier Group Co., Ltd., Beijing Haier Guangke Co., Ltd., Inspur Group Co., Ltd., Joint Source Digital Audio Video Technology (Beijing) Co., Ltd., New Pudong District Mobile Communication Association, Sichuan Changhong Co., Ltd., Shanghai SVA (Group) Central Research Institute, Zte Communication Co., Ltd., Zhongguancun Hi-Tech Industry Association, meldete sich freiwillig, um gemeinsam die AVS-Industrieallianz in Peking zu gründen und zu gründen, um den Industrialisierungsfortschritt von AVS so schnell wie möglich voranzutreiben und ein vollständiges Industrieunternehmen zu bilden Kette und Multi-Hersteller-Lieferumgebung bald, um eine starke Kraft in die Entwicklung der chinesischen Audio- und Videoindustrie zu bringen. Der englische Name der Organisation ist "AVS Industry Alliance", auch als "AVSA" bezeichnet, und bildet mit "AVS Workgroup" und "AVS Patent Pool Management Committee" die gegenseitig unabhängigen und unterstützenden "Three Carriages". Die AVSA hat sich dem Aufbau einer kompletten digitalen Audio- und Videoindustriekette „Technologie→Patent→Standard→Chip und Software→gesamter Maschinen- und Anlagenbau→digitaler Medienbetrieb und Kulturindustrie“ verschrieben, wodurch ein umfassender Durchbruch der Standardformulierung, schnelle technologische Fortschritt und überspringende industrielle Entwicklung, das Erreichen des allgemeinen Aufstiegs der digitalen AV-Branche und die Bildung einer digitalen AV-Unternehmensgruppe mit erheblichen Auswirkungen auf die Welt. Die Gesamtzahl der Allianzmitglieder beträgt derzeit 117, darunter 81 Standardmitglieder und 36 Mitglieder der Industrieförderung.

Der AVS-Standard der ersten Generation

Der AVS-Standard der ersten Generation umfasst den chinesischen nationalen Standard „Information Technology, Advanced Audio Video Coding, Part 2: Video“ (kurz AVS1, GB-Label: GB/T 20090.2-2006) und „Information Technology, Advanced Audio Video Coding Part 16: Radio Television Video“ (kurz AVS+, GB-Label: GB/T 20090.16-2016). Der AVS-Videostandardtest, der vom Radio and Television Planning Institute of SARFT (State Administration of Radio, Film, and Television) veranstaltet wird, zeigt: Wenn die AVS1-Bitrate die Hälfte des MPEG-2-Standards beträgt, wird die Codierungsqualität für beide Standardauflösungen ausgezeichnet oder hochauflösend; wenn die Bitrate weniger als 1/3 beträgt, erreicht sie ebenfalls gute, ausgezeichnete Werte. Der AVS1-Standard-Videoteil wurde im Februar 2006 als chinesischer nationaler Standard verkündet.

Vom 7. bis 11. Mai 2007 machte das vierte Treffen der ITU-T (The ITU Telecommunication Standardization Sector) IPTV FG deutlich, dass AVS1 zu einem der verfügbaren Standards für die IPTV-Auswahl wurde, die mit MPEG-2, H.264 und VC-1. Am 4. Juni 2013 wurde der AVS1-Videoteil von der einflussreichsten akademischen Organisation IEEE (Institute of Electrical and Electronics Engineers) auf dem Gebiet der internationalen elektronischen Information mit der Standardnummer IEEE1857-2013 herausgegeben, die markiert, dass die AVS-Standardreihe gemacht wurde ein wichtiger Schritt auf dem Weg der Internationalisierung.

AVS+ ist nicht nur der Radio-, Film- und Fernsehindustriestandard GY/T 257.1-2012 „Advanced Audio Video Coding for Radio and Television, Part 1: Video“, herausgegeben von der SARFT am 10. Juli 2012, sondern auch die erweiterte Version von AVS1 . Bis jetzt ist der chinesische AVS-Standard in Sri Lanka, Laos, Thailand, Kirgisistan und anderen Ländern angekommen, so dass Tausende von HD-Inhalten mit AVS+-Codierung weltweit über Satellitenkanäle ausgestrahlt wurden.

Der AVS-Standard der zweiten Generation

Der AVS-Standard der zweiten Generation umfasst die Reihe des chinesischen nationalen Standards „Information Technology, Efficient Multi Media Coding“ (kurz AVS2). Der AVS2 befasst sich hauptsächlich mit der Übertragung von zusätzlichen HD-TV-Programmen, mit dem Ziel, die Entwicklung der digitalen Medienindustrie in den nächsten fünf bis zehn Jahren anzuführen und eine Schlüsselrolle bei der Formulierung relevanter internationaler Standards zu spielen. Gleichzeitig mit der Förderung und Anwendung des AVS-Standards der ersten Generation wird die Weiterentwicklung der AVS-Technologie aktiv vorangetrieben und die Entwicklung der AVS2-Standardtechnologie der zweiten Generation ist abgeschlossen. Die SARFT hat AVS2-Video als Industriestandard im Mai 2016 und als chinesischer nationaler Standard am 30. Dezember 2016 herausgegeben. Derzeit wurde es beim internationalen IEEE-Standard (Standardnummer: IEEE1857.4) zur Anwendung eingereicht.

Der Test von maßgeblichen Institutionen zeigt, dass die Kodierungseffizienz von AVS2 um mehr als das Doppelte der von AVS+ verbessert wurde und die Komprimierungsrate den neuesten internationalen Standard HEVC (H.265) übertrifft. Im Vergleich zum AVS-Standard der ersten Generation kann der zweite die halbe Übertragungsbandbreite einsparen und wird die Förderung und Anwendung von zusätzlichem HD-TV in den nächsten Jahren unterstützen.

AVS2-Funktionen

AVS2 verwendet ein Hybrid-Codierungs-Framework, und der gesamte Codierungsprozess umfasst Module wie Intra-Frame-Vorhersage, Inter-Frame-Vorhersage, Transformation, Quantisierung, inverse Quantisierung und inverse Transformation, Schleifenfilter und Entropie-Codierung. Es besitzt folgende technische Merkmale:

  • Flexible Codierungsstruktur-Partition
    • Um die Anforderungen von Videos mit HD- und Ultra-HD-Auflösung an die Komprimierungseffizienz zu erfüllen, verwendet AVS2 eine Blockpartitionsstruktur basierend auf dem Quadtree, einschließlich der CU (Coding Unit), PU (Prediction Unit) und TU (Transform Unit). Ein Image wird in LCU (größte CU) fester Größe partitioniert, die iteriert und in eine Reihe von CUs in Form eines Quadtree unterteilt wird. Jede CU enthält einen Luminanzcodierungsblock und zwei entsprechende Chrominanzcodierungsblöcke (die Größe der Blockeinheit unten bezieht sich auf den Luminanzcodierungsblock). Im Vergleich zum traditionellen Makroblock ist die auf dem Quadtree basierende Partitionsstruktur flexibler, wobei die CU-Größe von 8×8 auf 64×64 erweitert wird.
    • Die PU legt alle Prädiktionsmodi der CU fest und ist die Grundeinheit für die Prädiktion, einschließlich Intra-Frame- und Inter-Frame-Prädiktion. Die maximale Größe der PU darf die der aktuellen CU, zu der sie gehört, nicht überschreiten. Auf der Grundlage von AVS1-Quadrat-Intra-Frame-Prädiktionsblöcken wird die nicht-quadratische Intra-Frame-Prädiktionsblock-Partition hinzugefügt. Auf der Grundlage der symmetrischen Prädiktionsblockpartition fügt die Inter-Frame-Prädiktion auch 4 asymmetrische Partitionswege hinzu.
    • Neben CU und PU definiert AVS2 auch eine Transformationseinheit TU zur Vorhersage von Resttransformation und Quantisierung. TU ist die Grundeinheit der Transformation und Quantisierung, die in CU wie PU definiert ist. Seine Größenauswahl hängt von der entsprechenden PU-Form ab. Wenn die aktuelle CU in nicht-quadratische PU partitioniert ist, wird die nicht-quadratische Partition auf die entsprechende TU angewendet; andernfalls wird der quadratische Partitionstyp angewendet. Die Größe der TU könnte größer sein als die der PU, aber nicht größer als die der CU, zu der sie gehört.
  • Intra-Vorhersage-Codierung
    • Im Vergleich zu AVS1 und H.264/AVC entwickelt AVS2 33 Modi für die Intra-Frame-Prädiktionscodierung von Luminanzblöcken, einschließlich DC-Prädiktionsmodus, Ebenen-Prädiktionsmodus, bilinearer Prädiktionsmodus und 30 Engels-Prädiktionsmodi. Es gibt 5 Modi für Chrominanzblöcke: DC-Modus, horizontaler Prädiktionsmodus, vertikaler Prädiktionsmodus, bilinearer Interpolationsmodus sowie der neu hinzugefügte Luminanz-Abgeleitete-Modus (DM).
  • Inter-Vorhersage-Codierung
    • Im Vergleich zu AVS1 erhöht AVS2 die maximale Anzahl von Kandidatenreferenzrahmen auf 4, um sich an die mehrstufige Referenzrahmenverwaltung anzupassen, die auch den redundanten Platz des Puffers voll ausnutzt.
    • Um die Anforderungen der Mehrfachreferenzrahmenverwaltung zu erfüllen, verwendet AVS2 eine Art mehrstufigen Referenzrahmenverwaltungsmodus. In diesem Modus werden die Frames in jeder GOP (Group of Pictures) entsprechend der Referenzbeziehung zwischen den Frames in mehrere Ebenen unterteilt.
  • Inter-Vorhersage-Modus
    • Auf der Grundlage der drei Bildtypen I, P, B von AVS1 fügt AVS2 entsprechend den Anforderungen der Anwendung das Vorwärts-Multihypothesen-Vorhersagebild F hinzu. Mit dem Ziel der Videoüberwachung, der Szenenwiedergabe und anderer spezifischer Anwendungen entwirft AVS2 Szenenrahmen ( Bild G und Bild GB) und Referenzszenenbild S.
    • Für Frame B wird zusätzlich zum traditionellen Vorwärts-, Rückwärts-, Zwei-Wege-Modus und Skip/Direct-Modus ein neuer symmetrischer Modus hinzugefügt. Im symmetrischen Modus müssen nur Vorwärtsbewegungsvektoren codiert werden, und dann werden Rückwärtsbewegungsvektoren aus den Vorwärtsbewegungsvektoren abgeleitet.
    • Um die Leistung des Sprung-/Direktmodus von Frame B voll auszuschöpfen, verwendet AVS2 auch den Mehrrichtungs-Sprung-/Direktmodus unter der Prämisse, den ursprünglichen Sprung-/Direktmodus von Bild B beizubehalten: Zwei-Wege-Sprung-/Direktmodus, symmetrischer Sprung-/Direktmodus, Rückwärts-/Direktmodus und Vorwärts-/Direktmodus. Für die vier bestimmten Modi wird der gleiche Vorhersagemodusblock zwischen benachbarten Blöcken gemäß dem Vorhersagemodus des aktuellen Blocks entdeckt, und die Bewegungsvektoren benachbarter Blöcke mit demselben Vorhersagemodus, die zuerst ermittelt werden, werden als des aktuellen Blocks.
    • Für Frame F können sich Codierblöcke auf die beiden Vorwärtsreferenzblöcke beziehen, was der Doppelhypothese-Vorhersage von Frame P entspricht.
    • AVS2 unterteilt die Multi-Hypothesen-Vorhersage in zwei Kategorien, nämlich den zeitlichen und den räumlichen Multi-Hypothesen-Modus.
    • Der aktuelle Codierungsblock der Zeitdomänen-Doppelhypothese wendet den gewichteten Durchschnitt von Vorhersageblöcken als aktuellen Vorhersagewert an, aber es gibt nur einen für die MVD (Motion Vector Difference) und den Referenzbildindex, während eine andere MVD und ein Referenzbild Index werden aus einer linearen Skalierung basierend auf der Distanz im Zeitbereich abgeleitet.
    • Die Doppelvorhersage im räumlichen Bereich wird auch als DMH (Directional Multi-Hypothesis) bezeichnet, die durch Verschmelzen von zwei Vorhersagepunkten um den anfänglichen Vorhersagepunkt herum erhalten wird, und der anfängliche Punkt befindet sich in der Linie zwischen den beiden Vorhersagepunkten. Zusätzlich zum Anfangsvorhersagepunkt gibt es insgesamt 8 Vorhersagepunkte, die nur mit den beiden Vorhersagepunkten zu fusionieren sind, die sich in derselben geraden Linie mit dem anfänglichen Vorhersagepunkt befinden. Neben vier verschiedenen Richtungen wird die Anpassung auch entfernungsabhängig durchgeführt und die vier Modi mit 1/2 Pixelabstand und 1/4 Pixelabstand werden jeweils plus dem anfänglichen Vorhersagepunkt berechnet, um insgesamt 9 Modi zu berechnen zum Vergleich, um so den optimalen Vorhersagemodus auszuwählen.
    • Der Szenenrahmen wird von AVS2 basierend auf dem Überwachungsvideocodierverfahren der Hintergrundmodellierung vorgeschlagen. Wenn das Überwachungstool nicht geöffnet ist, dient Bild I nur als Referenz für Bilder vor dem nächsten Direktzugriffspunkt. Wenn das Überwachungstool geöffnet wird, wendet AVS2 einen bestimmten Frame im Video als Szenenbild-Frame G an, der als langfristige Referenz für die nachfolgenden Bilder angesehen werden kann.
    • AVS2 kann das Szenenbild Frame GB mit einigen Frames im Video generieren, und Frame GB kann auch als Langzeitreferenz verwendet werden.
    • Um die Bewegungskompensation zu vereinfachen, verwendet AVS2 einen 8-Tap-Interpolationsfilter basierend auf DCT- Transformation, der nur eine Filterung erfordert und die Erzeugung einer höheren Bewegungsvektorgenauigkeit als 1/4 Pixel unterstützt.
  • Transformation
    • Die Transformationscodierung in AVS2 wendet hauptsächlich eine ganzzahlige DCT- Transformation an, die direkt an den Transformationsblöcken der Größe 4 × 4, 8 × 8, 16 × 16, 32 × 32 durchgeführt wird.
    • Für einen Transformationsblock mit einer Dimension von mehr als 64 wird eine logische Transformation LOT verwendet, um die Wavelet-Transformation durchzuführen, gefolgt von der ganzzahligen DCT-Transformation.
    • Nachdem die DCT-Transformation erreicht ist, führt AVS2 die zweite 4x4-Transformation für die 4x4-Blöcke mit Niederfrequenzkoeffizienten durch, um so die Korrelation zwischen den Koeffizienten weiter zu reduzieren und eine stärkere Energiekonzentration zu ermöglichen.
  • Entropiekodierung
    • Die AVS2-Entropiecodierung teilt zunächst die Transformationskoeffizienten in CGs (Koeffizientengruppe) der Größe 4 x 4 auf und führt dann die Codierung und den Zickzack-Scan entsprechend den CGs durch.
    • Die Koeffizientencodierung codiert zuerst die CG-Position, die den letzten Nicht-Null-Koeffizienten enthält, und codiert dann jede CG, bis alle CG-Koeffizienten abgeschlossen sind, um so zu ermöglichen, dass die Null-Koeffizienten während des Codierprozesses konzentrierter werden.
    • Binäre arithmetische Codierung und zweidimensionale längenvariable Codierung basierend auf dem Kontext werden im AVS2 weiterhin angewendet.
  • Schleifenfilter
    • Schleifenfiltermodule von AVS2 enthalten drei Teile: Deblocking-Filter, adaptiver Sample-Point-Offset und Sample-Kompensationsfilter.
    • Die Filterblöcke des Deblocking-Filters haben eine Größe von 8 × 8 und führen die Filterung zuerst an der vertikalen Kante durch, gefolgt von der horizontalen Kante. Und für jede Kante werden verschiedene Filterverfahren entsprechend unterschiedlicher Filterintensitäten ausgewählt.
    • Nach dem Entblockungsfilter wird die adaptive Abtastwert-Offsetkompensation übernommen, um die Verzerrung weiter zu reduzieren.
    • Der AVS2 fügt nach dem Deblocking-Filter und der Sample-Offset-Kompensation einen adaptiven Filter hinzu, einen Wiener-Filter mit 7×7-Kreuz plus 3×3-Quadratzentrosymmetrie, der das unverzerrte Originalbild anwendet und das rekonstruierte Bild kodiert, um den Filterkoeffizienten der kleinsten Quadrate zu ermitteln, und Durchführen einer Filterung an dem dekodierenden rekonstruierten Bild, um so die Kompressionsverzerrung in dem dekodierenden Bild zu reduzieren und die Qualität des Referenzbildes zu verbessern.

AVS-Implementierung

uAVS2

uAVS2 ist der weltweit erste HD-Echtzeit-Encoder basierend auf dem AVS2-Standard, der erfolgreich vom Digital Media Research Center der Shenzhen Graduate School der Peking University entwickelt wurde, mit einer Leistung, die deutlich über dem x265 HEVC/H.265-Encoder liegt, wodurch technische Hindernisse beseitigt wurden um den AVS2-Standard in die industrielle Anwendung zu bringen. Anschließend wurden nacheinander der AVS2 Ultra HD Echtzeit-Video-Encoder und der mobile HD-Encoder auf den Markt gebracht.

OpenAVS2

OpenAVS2 ist ein Satz ausgereifter industrieller Audio- und Videocodierungs-, Transcodierungs- und Decodierungskits basierend auf dem AVS2-Standard, die das mobile Internet, die Internet-Kernanwendungen und vertikale Industrien abdecken und ausgereifte AVS2-Lösungen für die audiovisuelle Industrie aus einer Hand entwickeln.

xAVS2 & dAVS2

xAVS2 und dAVS2 sind Open-Source-Encoder und -Decoder, die vom Peking University Video Coding Laboratory ( PKU-VCL ) veröffentlicht wurden und auf dem Videocodierungsstandard AVS2-P2/ IEEE 1857.4 basieren , der unter einer der beiden Versionen 2 der GNU General Public License (GPL) angeboten wird. oder eine kommerzielle Lizenz.

Verweise

Externe Links