MPEG-4 Teil 3 - MPEG-4 Part 3
MPEG-4 Part 3 oder MPEG-4 Audio (ehemals ISO / IEC 14496-3) ist der dritte Teil des internationalen ISO / IEC MPEG-4- Standards, der von der Moving Picture Experts Group entwickelt wurde . Es spezifiziert Audiocodierungsmethoden . Die erste Version der ISO/IEC 14496-3 wurde 1999 veröffentlicht.
MPEG-4 Part 3 besteht aus einer Vielzahl von Audiocodierungstechnologien – von verlustbehafteter Sprachcodierung ( HVXC , CELP ), allgemeiner Audiocodierung ( AAC , TwinVQ , BSAC), verlustfreier Audiokompression ( MPEG-4 SLS , Audio Lossless Coding , MPEG -4 DST ), eine Text-To-Speech- Schnittstelle (TTSI), Structured Audio (mit SAOL , SASL, MIDI ) und viele zusätzliche Audiosynthese- und Codierungstechniken.
MPEG-4 Audio zielt nicht auf eine einzelne Anwendung wie Echtzeittelefonie oder hochwertige Audiokomprimierung ab. Es gilt für jede Anwendung, die die Verwendung von fortschrittlicher Klangkompression, Synthese, Manipulation oder Wiedergabe erfordert. MPEG-4 Audio ist eine neue Art von Audiostandard, der zahlreiche verschiedene Arten von Audiocodierung integriert: natürlicher Klang und synthetischer Klang, Übertragung mit niedriger Bitrate und Bereitstellung in hoher Qualität, Sprache und Musik, komplexe und einfache Soundtracks, traditionelle Inhalte und interaktive Inhalte .
Versionen
Auflage | Veröffentlichungsdatum | Letzte Änderung | Standard | Beschreibung |
---|---|---|---|---|
Erste Ausgabe | 1999 | 2001 | ISO/IEC 14496-3: 1999 | auch bekannt als "MPEG-4 Audio Version 1" |
2000 | ISO/IEC 14496-3: 1999/Amd 1:2000 | auch bekannt als "MPEG-4 Audio Version 2", eine Ergänzung zur Erstausgabe | ||
Zweite Ausgabe | 2001 | 2005 | ISO/IEC 14496-3: 2001 | |
Dritte Edition | 2005 | 2008 | ISO/IEC 14496-3: 2005 | |
Vierte Edition | 2009 | 2015 und in Entwicklung | ISO/IEC 14496-3: 2009 | |
Fünfte Ausgabe | 2019 | ISO/IEC 14496-3: 2019 | Aktuelle Version |
Unterteile
MPEG-4 Teil 3 enthält folgende Unterteile:
- Unterabschnitt 1: Main (Liste der Audioobjekttypen, Profile, Pegel, Schnittstelle zu ISO/IEC 14496-1, MPEG-4 Audiotransportstrom usw.)
- Unterabschnitt 2: Sprachcodierung – HVXC (Harmonic Vector eXcitation Coding)
- Unterabschnitt 3: Sprachcodierung – CELP (Code Excited Linear Prediction)
- Unterabschnitt 4: Allgemeine Audiocodierung (GA) (Zeit-/Frequenzcodierung) – AAC , TwinVQ , BSAC
- Unterabschnitt 5: Strukturiertes Audio (SA)
- Unterabschnitt 6: Text-to-Speech- Schnittstelle (TTSI)
- Unterabschnitt 7: Parametrische Audiocodierung – HILN (Harmonische und individuelle Linie plus Rauschen)
- Unterabschnitt 8: Technische Beschreibung der parametrischen Codierung für hochwertiges Audio (SSC, Parametric Stereo )
- Unterabschnitt 9: MPEG-1 / MPEG-2- Audio in MPEG-4
- Unterabschnitt 10: Technische Beschreibung der verlustfreien Codierung von überabgetastetem Audio (MPEG-4 DST – Direct Stream Transfer )
- Unterabschnitt 11: Audioverlustfreie Codierung (ALS)
- Unterabschnitt 12: Skalierbare verlustfreie Codierung (SLS)
MPEG-4-Audioobjekttypen
MPEG-4 Audio umfasst ein System zur einheitlichen Handhabung einer diversen Gruppe von Audioformaten. Jedem Format wird ein eindeutiger Audioobjekttyp zugewiesen, um es darzustellen. Der Objekttyp wird verwendet, um zwischen verschiedenen Kodierungsmethoden zu unterscheiden. Es bestimmt direkt die MPEG-4-Tool-Teilmenge, die zum Decodieren eines bestimmten Objekts erforderlich ist. Die MPEG-4-Profile basieren auf den Objekttypen und jedes Profil unterstützt eine andere Liste von Objekttypen.
Objekttyp-ID | Audioobjekttyp | Datum der ersten öffentlichen Veröffentlichung | Beschreibung |
---|---|---|---|
1 | AAC-Haupt | 1999 | enthält Porenbeton LC |
2 | AAC LC (Geringe Komplexität) | 1999 | Wird im "AAC-Profil" verwendet. MPEG-4 AAC LC Audio Object Type basiert auf dem MPEG-2 Part 7 Low Complexity Profile (LC) in Kombination mit Perceptual Noise Substitution (PNS) (definiert in MPEG-4 Part 3 Subpart 4). |
3 | AAC SSR (Skalierbare Abtastrate) | 1999 | MPEG-4 AAC SSR Audio Object Type basiert auf dem MPEG-2 Part 7 Scalable Sampling Rate Profile (SSR) in Kombination mit Perceptual Noise Substitution (PNS) (definiert in MPEG-4 Part 3 Subpart 4). |
4 | AAC LTP ( Langfristige Vorhersage ) | 1999 | enthält Porenbeton LC |
5 | SBR ( Spektralbandreplikation ) | 2003 | verwendet mit AAC LC im "High Efficiency AAC Profile" ( HE-AAC v1) |
6 | Skalierbare AAC | 1999 | |
7 | TwinVQ | 1999 | Audiocodierung bei sehr niedrigen Bitraten |
8 | CELP ( Code-angeregte lineare Vorhersage ) | 1999 | Sprachcodierung |
9 | HVXC (Harmonische Vektorerregungscodierung) | 1999 | Sprachcodierung |
10 | (Reserviert) | ||
11 | (Reserviert) | ||
12 | TTSI ( Text-to-Speech- Schnittstelle) | 1999 | |
13 | Hauptsynthese | 1999 | enthält ' Wavetable ' Sample-basierte Synthese und Algorithmic Synthesis and Audio Effects |
14 | ' Wavetable ' Sample-basierte Synthese | 1999 | basierend auf SoundFont und DownLoadable Sounds , enthält General MIDI |
fünfzehn | General-MIDI | 1999 | |
16 | Algorithmische Synthese und Audioeffekte | 1999 | |
17 | ER AAC LC | 2000 | Fehlerresistent |
18 | (Reserviert) | ||
19 | ER AAC LTP | 2000 | Fehlerresistent |
20 | ER AAC skalierbar | 2000 | Fehlerresistent |
21 | ER TwinVQ | 2000 | Fehlerresistent |
22 | ER BSAC (Bit-Sliced Arithmetic Coding) | 2000 | Es ist auch als "Fine Granule Audio" oder Feinkorn-Skalierbarkeitswerkzeug bekannt. Es wird in Kombination mit den AAC-Codierungstools verwendet und ersetzt die rauschfreie Codierung und die Bitstream-Formatierung des MPEG-4 Version 1 GA-Codierers. Fehlerresistent |
23 | ER AAC LD (Niedrige Verzögerung) | 2000 | Fehlerresistent, verwendet mit CELP, ER CELP, HVXC, ER HVXC und TTSI im "Low Delay Profile", (üblicherweise für Echtzeit-Gesprächsanwendungen verwendet) |
24 | ER CELP | 2000 | Fehlerresistent |
25 | ER HVXC | 2000 | Fehlerresistent |
26 | ER HILN (Harmonische und Einzellinien plus Rauschen) | 2000 | Fehlerresistent |
27 | ER parametrisch | 2000 | Fehlerresistent |
28 | SSC (Sinusförmige Kodierung) | 2004 | |
29 | PS ( Parametrisches Stereo ) | 2004 und 2006 | verwendet mit AAC LC und SBR im "HE-AAC v2 Profile". Das PS-Codierungstool wurde 2004 und der Objekttyp 2006 definiert. |
30 | MPEG-Surround | 2007 | auch bekannt als MPEG Spatial Audio Coding (SAC), es ist eine Art der räumlichen Audiocodierung (MPEG Surround wurde 2007 auch in ISO/IEC 23003-1 definiert) |
31 | (Reserviert) | ||
32 | MPEG-1/2 Layer-1 | 2005 | |
33 | MPEG-1/2 Layer-2 | 2005 | |
34 | MPEG-1/2 Layer-3 | 2005 | auch bekannt als "MP3onMP4" |
35 | Sommerzeit ( Direkte Stream-Übertragung ) | 2005 | verlustfreie Audiocodierung, die auf Super Audio CDs verwendet wird |
36 | ALS ( Audioverlustfreie Codierung ) | 2006 | verlustfreie Audiocodierung |
37 | SLS ( Skalierbare verlustfreie Codierung ) | 2006 | zweischichtige Audiocodierung mit verlustfreier Schicht und verlustbehafteter General Audio Core/Layer (zB AAC) |
38 | SLS-Nicht-Kern | 2006 | verlustfreie Audiocodierung ohne verlustbehaftetes General Audio Core/Layer (zB AAC) |
39 | ER AAC ELD (erhöhte niedrige Verzögerung) | 2008 | Fehlerresistent |
40 | SMR (Symbolische Musikdarstellung) Einfach | 2008 | Hinweis: Symbolische Musikdarstellung ist auch der MPEG-4 Part 23-Standard (ISO/IEC 14496-23:2008) |
41 | SMR Haupt | 2008 | |
42 | USAC ( Unified Speech and Audio Coding ) | 2012 | Unified Speech and Audio Coding ist in MPEG-D Teil 3 (ISO/IEC 23003-3:2012) definiert. |
43 | SAOC (Spatial Audio Object Coding) | 2010 | Hinweis: Spatial Audio Object Coding ist auch der MPEG-D Part 2-Standard (ISO/IEC 23003-2:2010) |
44 | LD-MPEG-Surround | 2010 | Dieser Objekttyp übermittelt Nebeninformationen zur MPEG-Surround-Codierung mit geringer Verzögerung (die in MPEG-D Teil 2 – ISO/IEC 23003-2 definiert wurden).
) im MPEG-4 Audio-Framework. |
45 | SAOC-DE | 2013 | Verbesserung des Dialogs zur räumlichen Audioobjektcodierung |
46 | Audio-Synchronisierung | 2015 | Das Audiosynchronisierungstool bietet die Möglichkeit, mehrere Inhalte auf mehreren Geräten zu synchronisieren. |
Audioprofile
Der MPEG-4 Audio-Standard definiert mehrere Profile. Diese Profile basieren auf den Objekttypen und jedes Profil unterstützt eine andere Liste von Objekttypen. Jedes Profil kann auch mehrere Ebenen haben, die einige Parameter der in einem Profil vorhandenen Werkzeuge einschränken. Diese Parameter sind normalerweise die Abtastrate und die Anzahl der gleichzeitig dekodierten Audiokanäle.
Audioprofil | Audioobjekttypen | Datum der ersten öffentlichen Veröffentlichung |
---|---|---|
AAC-Profil | AAC LC | 2003 |
Hocheffizientes AAC-Profil | Porenbeton LC, SBR | 2003 |
HE-AAC v2-Profil | Porenbeton LC, SBR, PS | 2006 |
Hauptaudioprofil | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Hauptsynthese | 1999 |
Skalierbares Audioprofil | AAC LC, AAC LTP, AAC skalierbar, TwinVQ, CELP, HVXC, TTSI | 1999 |
Sprachaudioprofil | CELP , HVXC , TTSI | 1999 |
Synthetisches Audioprofil | TTSI, Hauptsynthese | 1999 |
Hochwertiges Audioprofil | AAC LC, AAC LTP, AAC skalierbar, CELP, ER AAC LC, ER AAC LTP, ER AAC skalierbar, ER CELP | 2000 |
Audioprofil mit geringer Verzögerung | CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC | 2000 |
Natürliches Audioprofil | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC skalierbar, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC skalierbar, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC , ER HILN, ER Parametrisch | 2000 |
Mobile Audio-Internetworking-Profil | ER AAC LC, ER AAC Skalierbar, ER TwinVQ, ER BSAC, ER AAC LD | 2000 |
HD-AAC-Profil | AAC LC, SLS | 2009 |
ALS Einfaches Profil | ALS | 2010 |
Audiospeicherung und -transport
Standard | Beschreibung | |
---|---|---|
Multiplex | ISO/IEC 14496-1 | MPEG-4 Multiplex-Schema (M4Mux) |
Multiplex | ISO/IEC 14496-3 | Low Overhead Audio Transport Multiplex (LATM) |
Lagerung | ISO/IEC 14496-3 (informativ) | Audio Data Interchange Format (ADIF) – nur für AAC |
Lagerung | ISO/IEC 14496-12 | MPEG-4-Dateiformat ( MP4 ) / ISO-Basismediendateiformat |
Übertragung | ISO/IEC 14496-3 (informativ) | Audio Data Transport Stream (ADTS) – nur für AAC |
Übertragung | ISO/IEC 14496-3 | Low Overhead Audio Stream (LOAS), basierend auf LATM |
Es gibt keinen Standard für den Transport elementarer Streams über einen Kanal, da das breite Spektrum von MPEG-4-Anwendungen Lieferanforderungen hat, die zu breit sind, um sie mit einer einzigen Lösung leicht zu charakterisieren.
Die Fähigkeiten einer Transportschicht und die Kommunikation zwischen Transport-, Multiplex- und Demultiplexfunktionen sind im Delivery Multimedia Integration Framework (DMIF) in ISO/IEC 14496-6 beschrieben. Unterhalb dieser Schnittstelle gibt es eine Vielzahl von Übermittlungsmechanismen, z. B. MPEG-Transportstrom , Echtzeit-Transportprotokoll (RTP) usw.
Transport in Real-time Transport Protocol ist definiert in RFC 3016 (RTP Payload Format for MPEG-4 Audio/Visual Streams), RFC 3640 (RTP Payload Format for Transport of MPEG-4 Elementary Streams), RFC 4281 (The Codecs Parameter for " Bucket" Media Types) und RFC 4337 (MIME Type Registration for MPEG-4).
LATM und LOAS wurden für natürliche Audioanwendungen definiert, die keine ausgeklügelte objektbasierte Codierung oder andere von MPEG-4 Systems bereitgestellte Funktionen erfordern.
Bifurkation im technischen Standard AAC
Die Advanced Audio Coding in MPEG-4 Part 3 (MPEG-4 Audio) Subpart 4 wurde im Vergleich zum vorherigen Standard MPEG-2 Part 7 (Advanced Audio Coding) verbessert , um eine bessere Klangqualität für eine gegebene Kodierungsbitrate bereitzustellen.
Es wird davon ausgegangen, dass alle Unterschiede in Teil 3 und Teil 7 in naher Zukunft vom ISO-Normengremium ausgebügelt werden, um die Möglichkeit zukünftiger Bitstream-Inkompatibilitäten zu vermeiden. Derzeit sind keine Player- oder Codec-Inkompatibilitäten aufgrund der Neuheit des Standards bekannt.
Der MPEG-2 Part 7-Standard (Advanced Audio Coding) wurde erstmals 1997 veröffentlicht und bietet drei Standardprofile: Low Complexity Profile (LC), Main Profile und Scalable Sampling Rate Profile (SSR).
Der MPEG-4 Part 3 Subpart 4 (General Audio Coding) kombinierte die Profile aus MPEG-2 Part 7 mit Perceptual Noise Substitution (PNS) und definierte sie als Audio Object Types (AAC LC, AAC Main, AAC SSR).
HE-AAC
High-Efficiency Advanced Audio Coding ist eine Erweiterung von AAC LC mit Spectral Band Replication (SBR) und Parametric Stereo (PS). Es wurde entwickelt, um die Codierungseffizienz bei niedrigen Bitraten zu erhöhen, indem eine partielle parametrische Wiedergabe von Audio verwendet wird.
AAC-SSR
Die skalierbare AAC-Samplerate wurde von Sony in die Standards MPEG-2 Part 7 und MPEG-4 Part 3 eingeführt. Es wurde erstmals 1997 in ISO/IEC 13818-7, Teil 7: Advanced Audio Coding (AAC) veröffentlicht. Das Audiosignal wird zunächst mit einer 4-Band- Polyphasen-Quadraturfilterbank in 4 Bänder aufgeteilt . Dann werden diese 4 Bänder unter Verwendung von MDCTs mit einer Größe k von 32 oder 256 Abtastwerten weiter aufgeteilt. Dies ist vergleichbar mit normalem AAC LC, das MDCTs mit einer Größe von k von 128 oder 1024 direkt auf dem Audiosignal verwendet.
Der Vorteil dieser Technik besteht darin, dass die Kurzblockumschaltung für jedes PQF- Band separat durchgeführt werden kann . So können hohe Frequenzen mit einem kurzen Block codiert werden, um die zeitliche Auflösung zu verbessern, niedrige Frequenzen können dennoch mit hoher spektraler Auflösung codiert werden. Aufgrund von Aliasing zwischen den 4 PQF-Bändern ist die Codiereffizienz jedoch um (1,2,3) * fs/8 schlechter als bei normalem MPEG-4 AAC LC.
MPEG-4 AAC-SSR ist ATRAC und ATRAC-3 sehr ähnlich .
Warum AAC-SSR eingeführt wurde
Die Idee hinter AAC-SSR war nicht nur der oben aufgeführte Vorteil, sondern auch die Möglichkeit, die Datenrate durch Entfernen von 1, 2 oder 3 der oberen PQF-Bänder zu reduzieren. Ein ganz einfacher Bitstream-Splitter kann diese Bänder entfernen und somit die Bitrate und Samplerate reduzieren.
Beispiel:
- 4 Subbänder: Bitrate = 128 kbit/s, Abtastrate = 48 kHz, f_lowpass = 20 kHz
- 3 Subbänder: Bitrate ~ 120 kbit/s, Abtastrate = 48 kHz, f_lowpass = 18 kHz
- 2 Subbänder: Bitrate ~ 100 kbit/s, Abtastrate = 24 kHz, f_lowpass = 12 kHz
- 1 Subband: Bitrate ~ 65 kbit/s, Abtastrate = 12 kHz, f_lowpass = 6 kHz
Hinweis: Obwohl dies möglich ist, ist die resultierende Qualität viel schlechter als typisch für diese Bitrate. Für normale 64 kbit/s AAC LC wird also eine Bandbreite von 14–16 kHz durch die Verwendung von Intensitätsstereo und reduzierten NMRs erreicht. Dies verschlechtert die hörbare Qualität weniger als die Übertragung einer Bandbreite von 6 kHz mit perfekter Qualität.
BSAC
Bit Sliced Arithmetic Coding ist ein MPEG-4-Standard (ISO/IEC 14496-3 Subpart 4) für skalierbare Audiocodierung. BSAC verwendet eine alternative rauschfreie Codierung zu AAC, wobei der Rest der Verarbeitung mit AAC identisch ist. Diese Unterstützung der Skalierbarkeit ermöglicht eine nahezu transparente Klangqualität bei 64 kbit/s und eine anmutige Verschlechterung bei niedrigeren Bitraten. Die BSAC-Codierung wird am besten im Bereich von 40 kbit/s bis 64 kbit/s durchgeführt, obwohl sie im Bereich von 16 kbit/s bis 64 kbit/s arbeitet. Der AAC-BSAC-Codec wird in Digital Multimedia Broadcasting (DMB) -Anwendungen verwendet.
Lizenzierung
Im Jahr 2002 wählte das MPEG-4 Audio Licensing Committee die Via Licensing Corporation zum Lizenzverwalter für den MPEG-4 Audio Patentpool .
Siehe auch
- TwinVQ – einer der in MPEG-4 Audio Version 1 definierten Objekttypen
- MPEG-4 Teil 2
- MPEG-4 Part 14- Containerformat (MP4)
- Management von Digitalen Rechten
- Erweiterte Audiocodierung (AAC)
- ISO/IEC JTC 1/SC 29
Verweise
Externe Links
- Apple: MPEG-4: AAC
- "AAC" (VideoLAN-WIKI)
- EBU subjektive Hörtests für Audio-Codecs mit niedriger Bitrate
- AAC-Radiosender – Online-Radiosender im AAC-Format
- Tuner2 – Verzeichnis von Radiosendern im AAC+-Format mit verschiedenen Bitraten
- RadioFeeds UK & Ireland – Seite mit vielen terrestrischen Sendern, die im AAC+-Format als Webcast übertragen werden.
- [1] Eine Seite zum Vergleich von Codecs einschließlich HE-AAC @64 kbit/s durch Hörtests. (Seite ist offline)
- Offizielle MPEG-Website
- RFC 3016 – RTP-Nutzlastformat für MPEG-4 Audio/Visual Streams
- RFC 3640 – RTP-Nutzlastformat für den Transport von MPEG-4 Elementary Streams
- RFC 4281 – Der Codec-Parameter für „Bucket“-Medientypen
- RFC 4337 – MIME-Typ-Registrierung für MPEG-4