Range Imaging - Range imaging

Range Imaging ist der Name für eine Sammlung von Techniken, mit denen ein 2D-Bild erstellt wird, das den Abstand zu Punkten in einer Szene von einem bestimmten Punkt zeigt, der normalerweise mit einer Art Sensorgerät verbunden ist.

Das resultierende Bild, das Entfernungsbild , hat Pixelwerte, die der Entfernung entsprechen. Wenn der Sensor, mit dem das Entfernungsbild erstellt wird, ordnungsgemäß kalibriert ist, können die Pixelwerte direkt in physischen Einheiten wie z. B. Metern angegeben werden.

Verschiedene Arten von Entfernungskameras

Die Sensorvorrichtung, die zur Erzeugung des Entfernungsbildes verwendet wird, wird manchmal als Entfernungskamera bezeichnet . Entfernungskameras können nach einer Reihe verschiedener Techniken betrieben werden, von denen einige hier vorgestellt werden.

Stereo-Triangulation

Die Stereotriangulation ist eine Anwendung der Stereofotogrammetrie, bei der die Tiefendaten der Pixel aus Daten bestimmt werden, die mit einem Stereo- oder Mehrkamera-Setup- System erfasst wurden. Auf diese Weise ist es möglich, die Tiefe zu Punkten in der Szene zu bestimmen, beispielsweise vom Mittelpunkt der Linie zwischen ihren Brennpunkten. Um das Problem der Tiefenmessung mit einem Stereokamerasystem zu lösen, müssen zunächst entsprechende Punkte in den verschiedenen Bildern gefunden werden. Das Lösen des Korrespondenzproblems ist eines der Hauptprobleme bei der Verwendung dieser Art von Technik. Beispielsweise ist es schwierig, das Korrespondenzproblem für Bildpunkte zu lösen, die in Bereichen mit homogener Intensität oder Farbe liegen. Infolgedessen kann eine auf Stereotriangulation basierende Entfernungsabbildung normalerweise nur für eine Teilmenge aller in den mehreren Kameras sichtbaren Punkte zuverlässige Tiefenschätzungen liefern.

Der Vorteil dieser Technik ist, dass die Messung mehr oder weniger passiv ist; Für die Szenenbeleuchtung sind keine besonderen Bedingungen erforderlich. Die anderen hier erwähnten Techniken müssen das Korrespondenzproblem nicht lösen, sondern hängen stattdessen von bestimmten Szenenbeleuchtungsbedingungen ab.

Blatt der Lichttriangulation

Wenn die Szene mit einem Lichtblatt beleuchtet wird, entsteht eine reflektierte Linie von der Lichtquelle aus gesehen. Von jedem Punkt außerhalb der Ebene des Blattes erscheint die Linie typischerweise als Kurve, deren genaue Form sowohl vom Abstand zwischen dem Betrachter und der Lichtquelle als auch vom Abstand zwischen der Lichtquelle und den reflektierten Punkten abhängt. Durch Beobachten des reflektierten Lichtblatts mit einer Kamera (häufig einer hochauflösenden Kamera) und Kenntnis der Positionen und Ausrichtungen sowohl der Kamera als auch der Lichtquelle ist es möglich, die Abstände zwischen den reflektierten Punkten und der Lichtquelle oder Kamera zu bestimmen.

Durch Bewegen der Lichtquelle (und normalerweise auch der Kamera) oder der Szene vor der Kamera kann eine Folge von Tiefenprofilen der Szene erzeugt werden. Diese können als 2D-Entfernungsbild dargestellt werden.

Strukturiertes Licht

Durch Beleuchten der Szene mit einem speziell entworfenen Lichtmuster, strukturiertem Licht , kann die Tiefe mit nur einem einzigen Bild des reflektierten Lichts bestimmt werden. Das strukturierte Licht kann in Form von horizontalen und vertikalen Linien, Punkten oder Schachbrettmustern vorliegen. Eine Lichtbühne ist im Grunde ein generisches strukturiertes Lichtbereichs-Bildgebungsgerät, das ursprünglich für die Erfassung des Reflexionsvermögens entwickelt wurde .

Flugzeit

Die Tiefe kann auch unter Verwendung der Standard-Flugzeit (ToF) -Technik gemessen werden, die mehr oder weniger einem Radar ähnelt, indem ein einem Radarbild ähnliches Entfernungsbild erzeugt wird, außer dass ein Lichtimpuls anstelle eines HF verwendet wird Impuls. Es ist auch einem LIDAR nicht unähnlich , außer dass ToF scannerlos ist, dh die gesamte Szene wird mit einem einzigen Lichtimpuls erfasst, im Gegensatz zu Punkt für Punkt mit einem rotierenden Laserstrahl. Flugzeitkameras sind relativ neue Geräte, die eine ganze Szene in drei Dimensionen mit einem speziellen Bildsensor erfassen und daher keine beweglichen Teile benötigen. Ein Flugzeit-Laserradar mit einer CCD-Kamera mit schnellem Gate und verstärktem Tor erreicht eine Tiefenauflösung von weniger als einem Millimeter. Bei dieser Technik beleuchtet ein kurzer Laserpuls eine Szene, und die verstärkte CCD-Kamera öffnet ihren Hochgeschwindigkeitsverschluss nur für einige hundert Pikosekunden . Die 3D-Informationen werden aus einer 2D-Bildserie berechnet, die mit zunehmender Verzögerung zwischen dem Laserpuls und der Verschlussöffnung erfasst wurde.

Interferometrie

Durch Beleuchten von Punkten mit kohärentem Licht und Messen der Phasenverschiebung des reflektierten Lichts relativ zur Lichtquelle ist es möglich, die Tiefe zu bestimmen. Unter der Annahme, dass das wahre Entfernungsbild eine mehr oder weniger kontinuierliche Funktion der Bildkoordinaten ist, kann die korrekte Tiefe unter Verwendung einer als Phasenentpackung bezeichneten Technik erhalten werden. Siehe terrestrische SAR-Interferometrie .

Codierte Blende

Tiefeninformationen können neben der Intensität teilweise oder vollständig durch umgekehrte Faltung eines Bildes abgeleitet werden, das mit einem speziell entworfenen codierten Aperturmuster mit einer spezifischen komplexen Anordnung von Löchern aufgenommen wurde, durch die das einfallende Licht entweder durchgelassen oder blockiert wird. Die komplexe Form der Apertur erzeugt eine ungleichmäßige Unschärfe des Bildes für diejenigen Teile der Szene, die sich nicht in der Brennebene der Linse befinden. Das Ausmaß der Unschärfe über die Szene, das mit der Verschiebung von der Brennebene zusammenhängt, kann verwendet werden, um auf die Tiefe zu schließen.

Um die Größe der Unschärfe (die zum Decodieren von Tiefeninformationen benötigt wird) im aufgenommenen Bild zu identifizieren, können zwei Ansätze verwendet werden: 1) das Unschärfen des aufgenommenen Bildes mit verschiedenen Unschärfen oder 2) Lernen einiger linearer Filter, die den Typ der Unschärfe identifizieren .

Der erste Ansatz verwendet eine korrekte mathematische Entfaltung, die das bekannte Aperturentwurfsmuster berücksichtigt; Diese Entfaltung kann identifizieren, wo und in welchem ​​Ausmaß die Szene durch unscharfes Licht, das selektiv auf die Aufnahmeoberfläche fällt, verwickelt wurde, und den Prozess umkehren. Somit kann die unscharfe Szene zusammen mit der Größe der Unschärfe abgerufen werden.

Der zweite Ansatz extrahiert stattdessen das Ausmaß der Unschärfe unter Umgehung der Wiederherstellung des unscharfen Bildes und daher ohne Durchführung einer umgekehrten Faltung. Unter Verwendung einer auf der Hauptkomponentenanalyse (PCA) basierenden Technik lernt die Methode offline eine Reihe von Filtern, die jede Größe der Unschärfe eindeutig identifizieren. Diese Filter werden dann als normale Faltung direkt auf das aufgenommene Bild angewendet. Ein wesentlicher Vorteil dieses Ansatzes besteht darin, dass keine Informationen über das codierte Aperturmuster erforderlich sind. Aufgrund seiner Effizienz wurde dieser Algorithmus auch auf Videosequenzen mit sich bewegenden und verformbaren Objekten erweitert.

Da die Tiefe für einen Punkt aus seinem Ausmaß der Unschärfe abgeleitet wird, das durch die Lichtausbreitung verursacht wird, die von dem entsprechenden Punkt in der Szene über die gesamte Oberfläche der Apertur verteilt und entsprechend dieser Streuung verzerrt wird, ist dies eine komplexe Form der Stereotriangulation. Jeder Punkt im Bild wird effektiv räumlich über die Breite der Apertur abgetastet.

Diese Technologie wurde kürzlich im iPhone X verwendet . Viele andere Telefone von Samsung und Computer von Microsoft haben versucht, diese Technologie zu verwenden, verwenden jedoch nicht die 3D-Zuordnung.

Siehe auch

Verweise