Kopfbezogene Übertragungsfunktion - Head-related transfer function

HRTF-Filterwirkung

Eine kopfbezogene Übertragungsfunktion ( HRTF ), manchmal auch als anatomische Übertragungsfunktion (ATF) bekannt, ist eine Reaktion, die charakterisiert, wie ein Ohr einen Schall von einem Punkt im Raum empfängt. Wenn der Schall auf den Hörer trifft, verändern die Größe und Form des Kopfes, der Ohren, des Gehörgangs, die Dichte des Kopfes, die Größe und Form der Nasen- und Mundhöhlen den Schall und beeinflussen seine Wahrnehmung, indem sie einige Frequenzen verstärken und andere abschwächen . Im Allgemeinen verstärkt die HRTF Frequenzen von 2–5 kHz mit einer Primärresonanz von +17 dB bei 2.700 Hz. Die Reaktionskurve ist jedoch komplexer als eine einzelne Beule, beeinflusst ein breites Frequenzspektrum und variiert von Person zu Person erheblich.

Ein Paar HRTFs für zwei Ohren kann verwendet werden, um einen binauralen Klang zu synthetisieren , der von einem bestimmten Punkt im Raum zu kommen scheint. Es ist eine Übertragungsfunktion , die beschreibt, wie ein Schall von einem bestimmten Punkt am Ohr ankommt (im Allgemeinen am äußeren Ende des Gehörgangs ). Einige Home-Entertainment-Produkte für Verbraucher, die für die Wiedergabe von Surround-Sound von Stereokopfhörern (zwei Lautsprechern) entwickelt wurden, verwenden HRTFs. Einige Formen der HRTF-Verarbeitung wurden auch in Computersoftware aufgenommen, um die Surround-Sound-Wiedergabe von Lautsprechern zu simulieren.

Der Mensch hat nur zwei Ohren , kann aber Geräusche in drei Dimensionen orten – in Reichweite (Entfernung), in Richtung nach oben und unten (Elevation), nach vorne und nach hinten sowie nach beiden Seiten (Azimut). Dies ist möglich, weil Gehirn, Innenohr und das Außenohr ( Pinna ) zusammenarbeiten, um Rückschlüsse auf den Standort zu ziehen. Diese Fähigkeit, Schallquellen zu lokalisieren, könnte sich bei Menschen und Vorfahren als evolutionäre Notwendigkeit entwickelt haben, da die Augen nur einen Bruchteil der Welt um einen Betrachter herum sehen können und das Sehen in der Dunkelheit behindert wird, während die Fähigkeit, eine Schallquelle zu lokalisieren, funktioniert alle Richtungen, mit unterschiedlicher Genauigkeit, unabhängig vom Umgebungslicht.

Menschen schätzen die Position einer Quelle, indem sie Hinweise von einem Ohr nehmen ( monaurale Hinweise ) und die an beiden Ohren empfangenen Hinweise vergleichen ( Differenzhinweise oder binaurale Hinweise ). Zu den Unterschiedshinweisen gehören Zeitunterschiede bei der Ankunft und Intensitätsunterschiede. Die monauralen Signale stammen aus der Interaktion zwischen der Schallquelle und der menschlichen Anatomie, bei der der ursprüngliche Schall der Quelle modifiziert wird, bevor er zur Verarbeitung durch das Gehör in den Gehörgang gelangt. Diese Modifikationen codieren den Quellenort und können über eine Impulsantwort erfasst werden, die den Quellenort und den Ohrort in Beziehung setzt. Diese Impulsantwort wird als kopfbezogene Impulsantwort (HRIR) bezeichnet. Die Faltung eines beliebigen Quelltons mit dem HRIR wandelt den Ton in den Ton um, den der Hörer gehört hätte, wenn er am Quellort abgespielt worden wäre, mit dem Ohr des Hörers am Empfängerort. HRIRs wurden verwendet, um virtuellen Surround-Sound zu erzeugen.

Die HRTF ist die Fourier-Transformation von HRIR.

HRTFs für den linken und rechten Ohr (ausgedrückt wie oben HRIRs) , um die Filterung von einer Tonquelle (beschreiben x ( t )) , bevor sie an den linken und rechten Ohren wahrgenommen wird x L ( t ) und x R ( t ) sind.

Die HRTF kann auch als die Veränderung eines Schalls von einer Richtung in freier Luft zu dem Schall beschrieben werden, der am Trommelfell ankommt . Diese Modifikationen umfassen die Form des Außenohrs des Hörers, die Form des Kopfes und Körpers des Hörers, die akustischen Eigenschaften des Raums, in dem der Ton gespielt wird, und so weiter. All diese Eigenschaften beeinflussen, wie (oder ob) ein Hörer genau erkennen kann, aus welcher Richtung ein Ton kommt.

Im AES69-2015-Standard hat die Audio Engineering Society (AES) das SOFA-Dateiformat zum Speichern räumlich orientierter akustischer Daten wie Head-related Transfer Functions (HRTFs) definiert. SOFA-Softwarebibliotheken und -Dateien werden auf der Sofa Conventions-Website gesammelt.

So funktioniert HRTF

Der damit verbundene Mechanismus variiert von Person zu Person, da sich ihre Kopf- und Ohrformen unterscheiden.

HRTF beschreibt, wie eine gegebene Schallwelleneingabe (parametriert als Frequenz und Quellenort) durch die Beugungs- und Reflexionseigenschaften von Kopf , Ohrmuschel und Rumpf gefiltert wird , bevor der Schall die Übertragungsmaschinerie des Trommelfells und des Innenohrs erreicht (siehe Hörsystem ). Biologisch, die Source-ortsspezifische Effekte dieser externen Strukturen Hilfsmittel bei der Vorfilterung neurale Bestimmung von Quellenort , insbesondere der Bestimmung der Quelle der Erhebung (siehe vertikale Tonlokalisierung ).

Technische Ableitung

Ein Beispiel für den Frequenzgang der Ohren:
  • grüne Kurve : linkes Ohr   X L ( f )
  • blaue Kurve : rechtes Ohr X R ( f )
für eine Schallquelle von oben nach vorne.
Ein Beispiel, wie die HRTF-Neigung mit Azimut von einem Bezugspunkt abgeleitet wird

Die lineare Systemanalyse definiert die Übertragungsfunktion als das komplexe Verhältnis zwischen dem Ausgangssignalspektrum und dem Eingangssignalspektrum als Funktion der Frequenz. Blauert (1974; zitiert in Blauert, 1981) definierte die Übertragungsfunktion zunächst als Freifeld-Übertragungsfunktion (FFTF). Andere Begriffe umfassen die Übertragungsfunktion des Freifeldes zum Trommelfell und die Drucktransformation vom Freifeld zum Trommelfell. Weniger spezifische Beschreibungen umfassen die Ohrmuschelübertragungsfunktion, die Außenohrübertragungsfunktion , die Ohrmuschelreaktion oder die gerichtete Übertragungsfunktion (DTF).

Die Übertragungsfunktion H ( f ) eines linearen zeitinvarianten Systems bei der Frequenz f ist:

H ( f ) = Ausgang ( f ) / Eingang ( f )

Ein Verfahren, das verwendet wird, um die HRTF von einem gegebenen Quellenort zu erhalten, besteht daher darin, die kopfbezogene Impulsantwort (HRIR), h ( t ), am Trommelfell für den an der Quelle platzierten Impuls Δ ( t ) zu messen . Die HRTF H ( f ) ist die Fourier-Transformierte der HRIR h ( t ).

Selbst wenn sie für einen "Dummy-Kopf" mit idealisierter Geometrie gemessen werden, sind HRTF komplizierte Funktionen der Frequenz und der drei räumlichen Variablen . Bei Entfernungen von mehr als 1 m vom Kopf kann jedoch gesagt werden, dass die HRTF umgekehrt zur Reichweite gedämpft wird. Es ist dieses Fernfeld HRTF, H ( f , θ , φ ), das hat am häufigsten gemessen. Im Nahbereich kann der zwischen den Ohren beobachtete Pegelunterschied sehr groß werden, sogar im Niederfrequenzbereich, in dem im Fernfeld vernachlässigbare Pegelunterschiede beobachtet werden.

HRTFs werden typischerweise in einer reflexionsarmen Kammer gemessen , um den Einfluss von frühen Reflexionen und Nachhall auf die gemessene Reaktion zu minimieren . HRTFs werden in kleinen Schritten von θ wie 15° oder 30° in der horizontalen Ebene gemessen , wobei Interpolation verwendet wird, um HRTF s für beliebige Positionen von θ zu synthetisieren . Die Interpolation kann jedoch schon bei kleinen Inkrementen zu Verwechslungen von vorne nach hinten führen, und die Optimierung des Interpolationsverfahrens ist ein aktives Forschungsgebiet.

Um das Signal-Rausch-Verhältnis (SNR) in einer gemessenen HRTF zu maximieren , ist es wichtig, dass der erzeugte Impuls ein hohes Volumen hat. In der Praxis kann es jedoch schwierig sein, Impulse bei hohen Lautstärken zu erzeugen, und wenn sie erzeugt werden, können sie für das menschliche Ohr schädlich sein. Daher werden HRTFs häufiger direkt im Frequenzbereich mit einer frequenzgewobbelten Sinuswelle berechnet oder indem Sie Sequenzen mit maximaler Länge verwenden . Die Ermüdung des Benutzers ist jedoch immer noch ein Problem, was die Notwendigkeit der Interpolation basierend auf weniger Messungen unterstreicht.

Die kopfbezogene Übertragungsfunktion ist an der Auflösung des Cone of Confusion beteiligt , einer Reihe von Punkten, an denen ITD und ILD für Schallquellen von vielen Orten um den "0"-Teil des Kegels identisch sind. Wenn ein Ton durch das Ohr empfangen wird , kann sie entweder gerade nach unten dem Ohr in den Gehörgang gehen oder es kann aus dem reflektiert werden Ohrmuschel , in den Gehörgang einen Bruchteil einer Sekunde später des Ohres. Der Schall enthält viele Frequenzen, daher werden viele Kopien dieses Signals je nach ihrer Frequenz (entsprechend der Reflexion, Beugung und ihrer Wechselwirkung mit hohen und niedrigen Frequenzen und der Größe der Strukturen der Ohr.) Diese Kopien überlappen sich, und währenddessen werden bestimmte Signale verstärkt (wo die Phasen der Signale übereinstimmen), während andere Kopien ausgelöscht werden (wo die Phasen des Signals nicht übereinstimmen). Im Wesentlichen sucht das Gehirn nach Frequenzkerben im Signal, die bestimmten bekannten Schallrichtungen entsprechen.

Wenn die Ohren einer anderen Person ersetzt würden, wäre die Person nicht sofort in der Lage, Geräusche zu lokalisieren, da sich die Muster der Verstärkung und Auslöschung von den Mustern unterscheiden würden, an die das Hörsystem der Person gewöhnt ist. Nach einigen Wochen würde sich das Hörsystem jedoch an die neue kopfbezogene Übertragungsfunktion anpassen. Die interindividuelle Variabilität in den Spektren von HRTFs wurde durch Clusteranalysen untersucht.

Wenn wir die Variation durch Veränderungen zwischen dem Ohr der Person beurteilen, können wir unsere Perspektive mit den Freiheitsgraden des Kopfes und seiner Beziehung zum Raumbereich einschränken. Dadurch eliminieren wir die Neigung und andere Koordinatenparameter, die die Komplexität erhöhen. Bei der Kalibrierung geht es uns nur um die Richtungsebene zu unseren Ohren, also einen bestimmten Freiheitsgrad. Einige der Möglichkeiten, wie wir einen Ausdruck zur Kalibrierung der HRTF ableiten können, sind:

  1. Schalllokalisierung im virtuellen Hörraum
  2. HRTF-Phasensynthese
  3. HRTF-Magnituden-Synthese

Schalllokalisierung im virtuellen Hörraum

Eine grundlegende Annahme bei der Schaffung eines virtuellen Hörraums ist, dass, wenn die akustischen Wellenformen, die am Trommelfell eines Hörers vorhanden sind, unter Kopfhörern dieselben sind wie im Freifeld, dann sollte auch das Hörerlebnis dasselbe sein.

Typischerweise werden von Kopfhörern erzeugte Geräusche als aus dem Inneren des Kopfes stammend wahrgenommen. Im virtuellen Hörraum sollen die Kopfhörer den Klang „externalisieren“ können. Mit der HRTF können Klänge mit der unten beschriebenen Technik räumlich positioniert werden.

Sei x 1 ( t ) ein elektrisches Signal, das einen Lautsprecher antreibt, und y 1 ( t ) repräsentiert das Signal, das von einem Mikrofon im Trommelfell des Hörers empfangen wird. In ähnlicher Weise sei x 2 ( t ) das elektrische Signal, das einen Kopfhörer antreibt, und y 2 ( t ) die Mikrofonantwort auf das Signal. Das Ziel des virtuellen Hörraums besteht darin, x 2 ( t ) so zu wählen, dass y 2 ( t ) = y 1 ( t ) ist. Wenn wir die Fourier-Transformation auf diese Signale anwenden, erhalten wir die folgenden zwei Gleichungen:

Y 1 = X 1 LFM und
Y 2 = X 2 HM,

wobei L die Übertragungsfunktion des Lautsprechers im Freifeld ist, F die HRTF ist, M die Mikrofonübertragungsfunktion und H die Kopfhörer-zu-Trommel-Übertragungsfunktion ist. Einstellen Y 1 = Y 2 , und die Lösung für X 2 Ausbeuten

X 2 = X 1 LF/H.

Nach Beobachtung ist die gewünschte Übertragungsfunktion function

T = LF / H .

Wenn also x 1 ( t ) durch dieses Filter geleitet wird und das resultierende x 2 ( t ) über den Kopfhörer abgespielt wird, sollte es theoretisch das gleiche Signal am Trommelfell erzeugen. Da der Filter nur für ein Ohr gilt, muss für das andere Ohr ein anderer abgeleitet werden. Dieser Vorgang wird für viele Stellen in der virtuellen Umgebung wiederholt, um eine Reihe von kopfbezogenen Übertragungsfunktionen für jede neu zu erstellende Position zu erzeugen, während sichergestellt wird, dass die Abtastbedingungen durch die Nyquist-Kriterien festgelegt werden .

HRTF-Phasensynthese

Im sehr niedrigen Teil des Frequenzbandes gibt es eine weniger zuverlässige Phasenschätzung, und in den oberen Frequenzen wird der Phasengang durch die Eigenschaften der Ohrmuschel beeinflusst. Frühere Studien zeigen auch, dass der HRTF-Phasengang meist linear ist und dass Hörer für die Details des interauralen Phasenspektrums unempfindlich sind, solange die interaurale Zeitverzögerung (ITD) des kombinierten niederfrequenten Teils der Wellenform beibehalten wird. Dies ist der modellierte Phasengang der untersuchten HRTF als Zeitverzögerung, abhängig von Richtung und Elevation.

Ein Skalierungsfaktor ist eine Funktion der anthropometrischen Merkmale. Beispielsweise würde ein Trainingssatz von N Probanden jede HRTF-Phase berücksichtigen und einen einzelnen ITD-Skalierungsfaktor als durchschnittliche Verzögerung der Gruppe beschreiben. Dieser berechnete Skalierungsfaktor kann die Zeitverzögerung als Funktion der Richtung und Höhe für jedes gegebene Individuum schätzen. Die Umrechnung der Zeitverzögerung in den Phasengang für das linke und das rechte Ohr ist trivial.

Die HRTF-Phase kann durch den ITD- Skalierungsfaktor beschrieben werden. Dies wird wiederum durch die anthropometrischen Daten einer bestimmten Person quantifiziert, die als Referenzquelle genommen werden. Für einen generischen Fall betrachten wir β als dünn besetzten Vektor

die die anthropometrischen Merkmale des Subjekts als lineare Überlagerung der anthropometrischen Merkmale aus den Trainingsdaten darstellt (y ' = β T X), und dann denselben dünnbesetzten Vektor direkt auf den Skalierungsvektor H anwenden. Wir können diese Aufgabe als Minimierungsproblem schreiben , für einen nicht negativen Schrumpfparameter λ :

Daraus wird der ITD-Skalierungsfaktorwert H ' geschätzt als:

wobei Die ITD-Skalierungsfaktoren für alle Personen im Datensatz in einem Vektor HR N gestapelt sind , sodass der Wert H n dem Skalierungsfaktor der n-ten Person entspricht.

HRTF-Magnitudensynthese

Wir lösen das obige Minimierungsproblem mit dem Least Absolute Shrinkage and Selection Operator (LASSO). Wir gehen davon aus, dass die HRTFs durch die gleiche Relation repräsentiert werden wie die anthropometrischen Merkmale. Sobald wir den dünnbesetzten Vektor β aus den anthropometrischen Merkmalen gelernt haben, wenden wir ihn daher direkt auf die HRTF-Tensordaten und die HRTF-Werte H ' des Subjekts an , die durch:

wobei Die HRTFs für jedes Subjekt werden durch einen Tensor der Größe D  ×  K beschrieben , wobei D die Anzahl der HRTF-Richtungen und K die Anzahl der Frequenz-Bins ist. Alle H n , d , k entsprechen allen HRTFs des Trainingssatzes werden in einem neuen Tensor HR N × D × K gestapelt , so dass der Wert H n,d,k dem k- ten Frequenzbin für d . entspricht --te HRTF-Richtung der n- ten Person. Auch H ' d , k entspricht der k -ten Frequenz für jede d-te HRTF-Richtung der synthetisierten HRTF.

Aufnahmetechnik

Aufnahmen, die über eine HRTF verarbeitet werden, wie in einer Computerspielumgebung (siehe A3D , EAX und OpenAL ), die der HRTF des Hörers nahe kommt, können über Stereokopfhörer oder -lautsprecher gehört und interpretiert werden, als ob sie Klänge aus allen Richtungen enthalten würden, anstatt nur zwei Punkte auf beiden Seiten des Kopfes. Die wahrgenommene Genauigkeit des Ergebnisses hängt davon ab, wie gut der HRTF-Datensatz den Eigenschaften des eigenen Ohrs entspricht.

Siehe auch

Verweise

Externe Links