MPEG-4 Teil 3 - MPEG-4 Part 3

MPEG-4 Part 3 oder MPEG-4 Audio (ehemals ISO / IEC 14496-3) ist der dritte Teil des internationalen ISO / IEC MPEG-4- Standards, der von der Moving Picture Experts Group entwickelt wurde . Es spezifiziert Audiocodierungsmethoden . Die erste Version der ISO/IEC 14496-3 wurde 1999 veröffentlicht.

MPEG-4 Part 3 besteht aus einer Vielzahl von Audiocodierungstechnologien – von verlustbehafteter Sprachcodierung ( HVXC , CELP ), allgemeiner Audiocodierung ( AAC , TwinVQ , BSAC), verlustfreier Audiokompression ( MPEG-4 SLS , Audio Lossless Coding , MPEG -4 DST ), eine Text-To-Speech- Schnittstelle (TTSI), Structured Audio (mit SAOL , SASL, MIDI ) und viele zusätzliche Audiosynthese- und Codierungstechniken.

MPEG-4 Audio zielt nicht auf eine einzelne Anwendung wie Echtzeittelefonie oder hochwertige Audiokomprimierung ab. Es gilt für jede Anwendung, die die Verwendung von fortschrittlicher Klangkompression, Synthese, Manipulation oder Wiedergabe erfordert. MPEG-4 Audio ist eine neue Art von Audiostandard, der zahlreiche verschiedene Arten von Audiocodierung integriert: natürlicher Klang und synthetischer Klang, Übertragung mit niedriger Bitrate und Bereitstellung in hoher Qualität, Sprache und Musik, komplexe und einfache Soundtracks, traditionelle Inhalte und interaktive Inhalte .

Versionen

MPEG-4 Audio-Versionen und -Editionen
Auflage Veröffentlichungsdatum Letzte Änderung Standard Beschreibung
Erste Ausgabe 1999 2001 ISO/IEC 14496-3: 1999 auch bekannt als "MPEG-4 Audio Version 1"
2000 ISO/IEC 14496-3: 1999/Amd 1:2000 auch bekannt als "MPEG-4 Audio Version 2", eine Ergänzung zur Erstausgabe
Zweite Ausgabe 2001 2005 ISO/IEC 14496-3: 2001
Dritte Edition 2005 2008 ISO/IEC 14496-3: 2005
Vierte Edition 2009 2015 und in Entwicklung ISO/IEC 14496-3: 2009
Fünfte Ausgabe 2019 ISO/IEC 14496-3: 2019 Aktuelle Version

Unterteile

MPEG-4 Teil 3 enthält folgende Unterteile:

  • Unterabschnitt 1: Main (Liste der Audioobjekttypen, Profile, Pegel, Schnittstelle zu ISO/IEC 14496-1, MPEG-4 Audiotransportstrom usw.)
  • Unterabschnitt 2: Sprachcodierung – HVXC (Harmonic Vector eXcitation Coding)
  • Unterabschnitt 3: Sprachcodierung – CELP (Code Excited Linear Prediction)
  • Unterabschnitt 4: Allgemeine Audiocodierung (GA) (Zeit-/Frequenzcodierung) – AAC , TwinVQ , BSAC
  • Unterabschnitt 5: Strukturiertes Audio (SA)
  • Unterabschnitt 6: Text-to-Speech- Schnittstelle (TTSI)
  • Unterabschnitt 7: Parametrische Audiocodierung – HILN (Harmonische und individuelle Linie plus Rauschen)
  • Unterabschnitt 8: Technische Beschreibung der parametrischen Codierung für hochwertiges Audio (SSC, Parametric Stereo )
  • Unterabschnitt 9: MPEG-1 / MPEG-2- Audio in MPEG-4
  • Unterabschnitt 10: Technische Beschreibung der verlustfreien Codierung von überabgetastetem Audio (MPEG-4 DST – Direct Stream Transfer )
  • Unterabschnitt 11: Audioverlustfreie Codierung (ALS)
  • Unterabschnitt 12: Skalierbare verlustfreie Codierung (SLS)

MPEG-4-Audioobjekttypen

MPEG-4 Audio umfasst ein System zur einheitlichen Handhabung einer diversen Gruppe von Audioformaten. Jedem Format wird ein eindeutiger Audioobjekttyp zugewiesen, um es darzustellen. Der Objekttyp wird verwendet, um zwischen verschiedenen Kodierungsmethoden zu unterscheiden. Es bestimmt direkt die MPEG-4-Tool-Teilmenge, die zum Decodieren eines bestimmten Objekts erforderlich ist. Die MPEG-4-Profile basieren auf den Objekttypen und jedes Profil unterstützt eine andere Liste von Objekttypen.

MPEG-4-Audioobjekttypen
Objekttyp-ID Audioobjekttyp Datum der ersten öffentlichen Veröffentlichung Beschreibung
1 AAC-Haupt 1999 enthält Porenbeton LC
2 AAC LC (Geringe Komplexität) 1999 Wird im "AAC-Profil" verwendet. MPEG-4 AAC LC Audio Object Type basiert auf dem MPEG-2 Part 7 Low Complexity Profile (LC) in Kombination mit Perceptual Noise Substitution (PNS) (definiert in MPEG-4 Part 3 Subpart 4).
3 AAC SSR (Skalierbare Abtastrate) 1999 MPEG-4 AAC SSR Audio Object Type basiert auf dem MPEG-2 Part 7 Scalable Sampling Rate Profile (SSR) in Kombination mit Perceptual Noise Substitution (PNS) (definiert in MPEG-4 Part 3 Subpart 4).
4 AAC LTP ( Langfristige Vorhersage ) 1999 enthält Porenbeton LC
5 SBR ( Spektralbandreplikation ) 2003 verwendet mit AAC LC im "High Efficiency AAC Profile" ( HE-AAC v1)
6 Skalierbare AAC 1999
7 TwinVQ 1999 Audiocodierung bei sehr niedrigen Bitraten
8 CELP ( Code-angeregte lineare Vorhersage ) 1999 Sprachcodierung
9 HVXC (Harmonische Vektorerregungscodierung) 1999 Sprachcodierung
10 (Reserviert)
11 (Reserviert)
12 TTSI ( Text-to-Speech- Schnittstelle) 1999
13 Hauptsynthese 1999 enthält ' Wavetable ' Sample-basierte Synthese und Algorithmic Synthesis and Audio Effects
14 ' Wavetable ' Sample-basierte Synthese 1999 basierend auf SoundFont und DownLoadable Sounds , enthält General MIDI
fünfzehn General-MIDI 1999
16 Algorithmische Synthese und Audioeffekte 1999
17 ER AAC LC 2000 Fehlerresistent
18 (Reserviert)
19 ER AAC LTP 2000 Fehlerresistent
20 ER AAC skalierbar 2000 Fehlerresistent
21 ER TwinVQ 2000 Fehlerresistent
22 ER BSAC (Bit-Sliced ​​Arithmetic Coding) 2000 Es ist auch als "Fine Granule Audio" oder Feinkorn-Skalierbarkeitswerkzeug bekannt. Es wird in Kombination mit den AAC-Codierungstools verwendet und ersetzt die rauschfreie Codierung und die Bitstream-Formatierung des MPEG-4 Version 1 GA-Codierers. Fehlerresistent
23 ER AAC LD (Niedrige Verzögerung) 2000 Fehlerresistent, verwendet mit CELP, ER CELP, HVXC, ER HVXC und TTSI im "Low Delay Profile", (üblicherweise für Echtzeit-Gesprächsanwendungen verwendet)
24 ER CELP 2000 Fehlerresistent
25 ER HVXC 2000 Fehlerresistent
26 ER HILN (Harmonische und Einzellinien plus Rauschen) 2000 Fehlerresistent
27 ER parametrisch 2000 Fehlerresistent
28 SSC (Sinusförmige Kodierung) 2004
29 PS ( Parametrisches Stereo ) 2004 und 2006 verwendet mit AAC LC und SBR im "HE-AAC v2 Profile". Das PS-Codierungstool wurde 2004 und der Objekttyp 2006 definiert.
30 MPEG-Surround 2007 auch bekannt als MPEG Spatial Audio Coding (SAC), es ist eine Art der räumlichen Audiocodierung (MPEG Surround wurde 2007 auch in ISO/IEC 23003-1 definiert)
31 (Reserviert)
32 MPEG-1/2 Layer-1 2005
33 MPEG-1/2 Layer-2 2005
34 MPEG-1/2 Layer-3 2005 auch bekannt als "MP3onMP4"
35 Sommerzeit ( Direkte Stream-Übertragung ) 2005 verlustfreie Audiocodierung, die auf Super Audio CDs verwendet wird
36 ALS ( Audioverlustfreie Codierung ) 2006 verlustfreie Audiocodierung
37 SLS ( Skalierbare verlustfreie Codierung ) 2006 zweischichtige Audiocodierung mit verlustfreier Schicht und verlustbehafteter General Audio Core/Layer (zB AAC)
38 SLS-Nicht-Kern 2006 verlustfreie Audiocodierung ohne verlustbehaftetes General Audio Core/Layer (zB AAC)
39 ER AAC ELD (erhöhte niedrige Verzögerung) 2008 Fehlerresistent
40 SMR (Symbolische Musikdarstellung) Einfach 2008 Hinweis: Symbolische Musikdarstellung ist auch der MPEG-4 Part 23-Standard (ISO/IEC 14496-23:2008)
41 SMR Haupt 2008
42 USAC ( Unified Speech and Audio Coding ) 2012 Unified Speech and Audio Coding ist in MPEG-D Teil 3 (ISO/IEC 23003-3:2012) definiert.
43 SAOC (Spatial Audio Object Coding) 2010 Hinweis: Spatial Audio Object Coding ist auch der MPEG-D Part 2-Standard (ISO/IEC 23003-2:2010)
44 LD-MPEG-Surround 2010 Dieser Objekttyp übermittelt Nebeninformationen zur MPEG-Surround-Codierung mit geringer Verzögerung (die in MPEG-D Teil 2 – ISO/IEC 23003-2 definiert wurden).

) im MPEG-4 Audio-Framework.

45 SAOC-DE 2013 Verbesserung des Dialogs zur räumlichen Audioobjektcodierung
46 Audio-Synchronisierung 2015 Das Audiosynchronisierungstool bietet die Möglichkeit, mehrere Inhalte auf mehreren Geräten zu synchronisieren.

Audioprofile

Hierarchische Struktur von AAC-Profil, HE-AAC-Profil und HE-AAC v2-Profil und Kompatibilität zwischen ihnen. Der HE-AAC-Profil-Decoder ist vollständig in der Lage, jeden AAC-Profil-Stream zu decodieren. Ebenso kann der HE-AAC v2-Decoder alle HE-AAC-Profilstreams sowie alle AAC-Profilstreams verarbeiten. Basierend auf der technischen Spezifikation MPEG-4 Teil 3.

Der MPEG-4 Audio-Standard definiert mehrere Profile. Diese Profile basieren auf den Objekttypen und jedes Profil unterstützt eine andere Liste von Objekttypen. Jedes Profil kann auch mehrere Ebenen haben, die einige Parameter der in einem Profil vorhandenen Werkzeuge einschränken. Diese Parameter sind normalerweise die Abtastrate und die Anzahl der gleichzeitig dekodierten Audiokanäle.

MPEG-4-Audioprofile
Audioprofil Audioobjekttypen Datum der ersten öffentlichen Veröffentlichung
AAC-Profil AAC LC 2003
Hocheffizientes AAC-Profil Porenbeton LC, SBR 2003
HE-AAC v2-Profil Porenbeton LC, SBR, PS 2006
Hauptaudioprofil AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Hauptsynthese 1999
Skalierbares Audioprofil AAC LC, AAC LTP, AAC skalierbar, TwinVQ, CELP, HVXC, TTSI 1999
Sprachaudioprofil CELP , HVXC , TTSI 1999
Synthetisches Audioprofil TTSI, Hauptsynthese 1999
Hochwertiges Audioprofil AAC LC, AAC LTP, AAC skalierbar, CELP, ER AAC LC, ER AAC LTP, ER AAC skalierbar, ER CELP 2000
Audioprofil mit geringer Verzögerung CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC 2000
Natürliches Audioprofil AAC Main, AAC LC, AAC SSR, AAC LTP, AAC skalierbar, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC skalierbar, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC , ER HILN, ER Parametrisch 2000
Mobile Audio-Internetworking-Profil ER AAC LC, ER AAC Skalierbar, ER TwinVQ, ER BSAC, ER AAC LD 2000
HD-AAC-Profil AAC LC, SLS 2009
ALS Einfaches Profil ALS 2010

Audiospeicherung und -transport

Multiplex-, Speicher- und Übertragungsformate für MPEG-4 Audio
Standard Beschreibung
Multiplex ISO/IEC 14496-1 MPEG-4 Multiplex-Schema (M4Mux)
Multiplex ISO/IEC 14496-3 Low Overhead Audio Transport Multiplex (LATM)
Lagerung ISO/IEC 14496-3 (informativ) Audio Data Interchange Format (ADIF) – nur für AAC
Lagerung ISO/IEC 14496-12 MPEG-4-Dateiformat ( MP4 ) / ISO-Basismediendateiformat
Übertragung ISO/IEC 14496-3 (informativ) Audio Data Transport Stream (ADTS) – nur für AAC
Übertragung ISO/IEC 14496-3 Low Overhead Audio Stream (LOAS), basierend auf LATM

Es gibt keinen Standard für den Transport elementarer Streams über einen Kanal, da das breite Spektrum von MPEG-4-Anwendungen Lieferanforderungen hat, die zu breit sind, um sie mit einer einzigen Lösung leicht zu charakterisieren.

Die Fähigkeiten einer Transportschicht und die Kommunikation zwischen Transport-, Multiplex- und Demultiplexfunktionen sind im Delivery Multimedia Integration Framework (DMIF) in ISO/IEC 14496-6 beschrieben. Unterhalb dieser Schnittstelle gibt es eine Vielzahl von Übermittlungsmechanismen, z. B. MPEG-Transportstrom , Echtzeit-Transportprotokoll (RTP) usw.

Transport in Real-time Transport Protocol ist definiert in RFC 3016 (RTP Payload Format for MPEG-4 Audio/Visual Streams), RFC 3640 (RTP Payload Format for Transport of MPEG-4 Elementary Streams), RFC 4281 (The Codecs Parameter for " Bucket" Media Types) und RFC 4337 (MIME Type Registration for MPEG-4).

LATM und LOAS wurden für natürliche Audioanwendungen definiert, die keine ausgeklügelte objektbasierte Codierung oder andere von MPEG-4 Systems bereitgestellte Funktionen erfordern.

Bifurkation im technischen Standard AAC

Die Advanced Audio Coding in MPEG-4 Part 3 (MPEG-4 Audio) Subpart 4 wurde im Vergleich zum vorherigen Standard MPEG-2 Part 7 (Advanced Audio Coding) verbessert , um eine bessere Klangqualität für eine gegebene Kodierungsbitrate bereitzustellen.

Es wird davon ausgegangen, dass alle Unterschiede in Teil 3 und Teil 7 in naher Zukunft vom ISO-Normengremium ausgebügelt werden, um die Möglichkeit zukünftiger Bitstream-Inkompatibilitäten zu vermeiden. Derzeit sind keine Player- oder Codec-Inkompatibilitäten aufgrund der Neuheit des Standards bekannt.

Der MPEG-2 Part 7-Standard (Advanced Audio Coding) wurde erstmals 1997 veröffentlicht und bietet drei Standardprofile: Low Complexity Profile (LC), Main Profile und Scalable Sampling Rate Profile (SSR).

Der MPEG-4 Part 3 Subpart 4 (General Audio Coding) kombinierte die Profile aus MPEG-2 Part 7 mit Perceptual Noise Substitution (PNS) und definierte sie als Audio Object Types (AAC LC, AAC Main, AAC SSR).

HE-AAC

High-Efficiency Advanced Audio Coding ist eine Erweiterung von AAC LC mit Spectral Band Replication (SBR) und Parametric Stereo (PS). Es wurde entwickelt, um die Codierungseffizienz bei niedrigen Bitraten zu erhöhen, indem eine partielle parametrische Wiedergabe von Audio verwendet wird.

AAC-SSR

Die skalierbare AAC-Samplerate wurde von Sony in die Standards MPEG-2 Part 7 und MPEG-4 Part 3 eingeführt. Es wurde erstmals 1997 in ISO/IEC 13818-7, Teil 7: Advanced Audio Coding (AAC) veröffentlicht. Das Audiosignal wird zunächst mit einer 4-Band- Polyphasen-Quadraturfilterbank in 4 Bänder aufgeteilt . Dann werden diese 4 Bänder unter Verwendung von MDCTs mit einer Größe k von 32 oder 256 Abtastwerten weiter aufgeteilt. Dies ist vergleichbar mit normalem AAC LC, das MDCTs mit einer Größe von k von 128 oder 1024 direkt auf dem Audiosignal verwendet.

Der Vorteil dieser Technik besteht darin, dass die Kurzblockumschaltung für jedes PQF- Band separat durchgeführt werden kann . So können hohe Frequenzen mit einem kurzen Block codiert werden, um die zeitliche Auflösung zu verbessern, niedrige Frequenzen können dennoch mit hoher spektraler Auflösung codiert werden. Aufgrund von Aliasing zwischen den 4 PQF-Bändern ist die Codiereffizienz jedoch um (1,2,3) * fs/8 schlechter als bei normalem MPEG-4 AAC LC.

MPEG-4 AAC-SSR ist ATRAC und ATRAC-3 sehr ähnlich .

Warum AAC-SSR eingeführt wurde

Die Idee hinter AAC-SSR war nicht nur der oben aufgeführte Vorteil, sondern auch die Möglichkeit, die Datenrate durch Entfernen von 1, 2 oder 3 der oberen PQF-Bänder zu reduzieren. Ein ganz einfacher Bitstream-Splitter kann diese Bänder entfernen und somit die Bitrate und Samplerate reduzieren.

Beispiel:

  • 4 Subbänder: Bitrate = 128 kbit/s, Abtastrate = 48 kHz, f_lowpass = 20 kHz
  • 3 Subbänder: Bitrate ~ 120 kbit/s, Abtastrate = 48 kHz, f_lowpass = 18 kHz
  • 2 Subbänder: Bitrate ~ 100 kbit/s, Abtastrate = 24 kHz, f_lowpass = 12 kHz
  • 1 Subband: Bitrate ~ 65 kbit/s, Abtastrate = 12 kHz, f_lowpass = 6 kHz

Hinweis: Obwohl dies möglich ist, ist die resultierende Qualität viel schlechter als typisch für diese Bitrate. Für normale 64 kbit/s AAC LC wird also eine Bandbreite von 14–16 kHz durch die Verwendung von Intensitätsstereo und reduzierten NMRs erreicht. Dies verschlechtert die hörbare Qualität weniger als die Übertragung einer Bandbreite von 6 kHz mit perfekter Qualität.

BSAC

Bit Sliced ​​Arithmetic Coding ist ein MPEG-4-Standard (ISO/IEC 14496-3 Subpart 4) für skalierbare Audiocodierung. BSAC verwendet eine alternative rauschfreie Codierung zu AAC, wobei der Rest der Verarbeitung mit AAC identisch ist. Diese Unterstützung der Skalierbarkeit ermöglicht eine nahezu transparente Klangqualität bei 64 kbit/s und eine anmutige Verschlechterung bei niedrigeren Bitraten. Die BSAC-Codierung wird am besten im Bereich von 40 kbit/s bis 64 kbit/s durchgeführt, obwohl sie im Bereich von 16 kbit/s bis 64 kbit/s arbeitet. Der AAC-BSAC-Codec wird in Digital Multimedia Broadcasting (DMB) -Anwendungen verwendet.

Lizenzierung

Im Jahr 2002 wählte das MPEG-4 Audio Licensing Committee die Via Licensing Corporation zum Lizenzverwalter für den MPEG-4 Audio Patentpool .

Siehe auch

Verweise

Externe Links