Topologische Datenanalyse - Topological data analysis

In der angewandten Mathematik ist die topologische Datenanalyse ( TDA ) ein Ansatz zur Analyse von Datensätzen mit Techniken aus der Topologie . Die Extraktion von Informationen aus hochdimensionalen, unvollständigen und verrauschten Datensätzen ist im Allgemeinen eine Herausforderung. TDA stellt einen allgemeinen Rahmen bereit, um solche Daten auf eine Weise zu analysieren, die gegenüber der bestimmten gewählten Metrik unempfindlich ist und eine Reduzierung der Dimensionalität und Robustheit gegenüber Rauschen bietet . Darüber hinaus erbt es von seiner topologischen Natur die Funktorialität , ein grundlegendes Konzept der modernen Mathematik, die es ihm ermöglicht, sich an neue mathematische Werkzeuge anzupassen.

Die anfängliche Motivation besteht darin, die Form der Daten zu untersuchen. TDA hat algebraische Topologie und andere Werkzeuge aus der reinen Mathematik kombiniert , um ein mathematisch rigoroses Studium der "Form" zu ermöglichen. Das Hauptwerkzeug ist die persistente Homologie , eine Anpassung der Homologie an Punktwolkendaten . Beständige Homologie wurde auf viele Arten von Daten in vielen Bereichen angewendet. Darüber hinaus ist seine mathematische Fundierung auch von theoretischer Bedeutung. Die einzigartigen Eigenschaften von TDA machen es zu einer vielversprechenden Brücke zwischen Topologie und Geometrie.

Grundlegende Theorie

Intuition

TDA basiert auf der Idee, dass die Form von Datensätzen relevante Informationen enthält. Echte hochdimensionale Daten sind in der Regel spärlich und weisen tendenziell relevante niedrigdimensionale Merkmale auf. Diesen Sachverhalt genau zu charakterisieren, ist eine Aufgabe der TDA. Zum Beispiel bildet die Flugbahn eines einfachen Räuber-Beute-Systems, das von den Lotka-Volterra-Gleichungen bestimmt wird, einen geschlossenen Kreis im Zustandsraum. TDA bietet Werkzeuge zum Erkennen und Quantifizieren solcher wiederkehrender Bewegungen.

Viele Algorithmen zur Datenanalyse, einschließlich der in TDA verwendeten, erfordern die Einstellung verschiedener Parameter. Ohne vorherige Domänenkenntnisse ist es schwierig, die richtige Sammlung von Parametern für einen Datensatz auszuwählen. Die wichtigste Erkenntnis der persistenten Homologie besteht darin, die aus allen Parameterwerten gewonnenen Informationen zu nutzen, indem diese riesige Menge an Informationen in eine verständliche und leicht darstellbare Form kodiert wird. Bei TDA gibt es eine mathematische Interpretation, wenn die Information eine Homologiegruppe ist. Im Allgemeinen wird davon ausgegangen, dass Merkmale, die für eine Vielzahl von Parametern bestehen bleiben, "echte" Merkmale sind. Merkmale, die nur für einen engen Parameterbereich bestehen bleiben, werden als Rauschen angenommen, obwohl die theoretische Begründung dafür unklar ist.

Frühe Geschichte

Vorläufer des vollständigen Konzepts der persistenten Homologie traten im Laufe der Zeit allmählich auf. 1990 führte Patrizio Frosini die Größenfunktion ein, die der 0. persistenten Homologie entspricht. Fast ein Jahrzehnt später untersuchte Vanessa Robins die Bilder von Homomorphismen, die durch Inklusion hervorgerufen wurden. Schließlich haben Edelsbrunner et al. stellten das Konzept der persistenten Homologie zusammen mit einem effizienten Algorithmus und dessen Visualisierung als Persistenzdiagramm vor. Carlssonet al. formulierte die ursprüngliche Definition neu und gab eine äquivalente Visualisierungsmethode namens Persistenz-Barcodes an, die Persistenz in der Sprache der kommutativen Algebra interpretiert.

In der algebraischen Topologie ist die persistente Homologie durch die Arbeit von Sergey Barannikov über die Morsetheorie entstanden. Der Satz kritischer Werte der glatten Morsefunktion wurde kanonisch in Paare "Geburt-Tod" unterteilt, gefilterte Komplexe wurden klassifiziert, ihre Invarianten, äquivalent zum Persistenzdiagramm und Persistenzbarcodes, zusammen mit dem effizienten Algorithmus zu ihrer Berechnung wurden unter dem Namen beschrieben der kanonischen Formen 1994 von Barannikov.

Konzepte

Im Folgenden werden einige weit verbreitete Konzepte vorgestellt. Beachten Sie, dass einige Definitionen von Autor zu Autor variieren können.

Eine Punktwolke wird oft als endliche Menge von Punkten in einem euklidischen Raum definiert, kann aber auch als jeder endliche metrische Raum angesehen werden.

Der Čech-Komplex einer Punktwolke ist der Nerv der Hülle aus Kugeln mit einem festen Radius um jeden Punkt in der Wolke.

Ein durch indiziertes Persistenzmodul ist ein Vektorraum für jede und eine lineare Abbildung wann immer , so dass für alle und immer Eine äquivalente Definition ist ein Funktor, der als teilweise geordnete Menge betrachtet wird, bis hin zur Kategorie der Vektorräume.

Die persistente Homologiegruppe einer Punktwolke ist das Persistenzmodul, das als definiert ist , wobei der Čech-Radiuskomplex der Punktwolke und die Homologiegruppe ist.

Ein Persistenz-Barcode ist eine Mehrfachmenge von Intervallen in , und ein Persistenz-Diagramm ist eine Mehrfachmenge von Punkten in ( ).

Der Wasserstein-Abstand zwischen zwei Persistenzdiagrammen und ist definiert als

wobei und reicht über Bijektionen zwischen und . Zur Veranschaulichung siehe Abbildung 3.1 in Munch.

Der Engpassabstand zwischen und ist

Dies ist ein Sonderfall der Wassersteinentfernung, Vermietung .

Grundeigentum

Struktursatz

Der erste Klassifikationssatz für persistente Homologie erschien 1994 über Barannikovs kanonische Formen. Das Klassifikationstheorem, das Persistenz in der Sprache der kommutativen Algebra interpretiert, erschien 2005: Für ein endlich erzeugtes Persistenzmodul mit Feldkoeffizienten

Intuitiv entsprechen die freien Teile den Homologiegeneratoren, die auf der Filtrationsebene erscheinen und niemals verschwinden, während die Torsionsteile denen entsprechen, die auf der Filtrationsebene erscheinen und für Schritte der Filtration andauern (oder äquivalent auf der Filtrationsebene verschwinden ).

Die persistente Homologie wird durch einen Strichcode oder ein Persistenzdiagramm visualisiert. Der Strichcode hat seine Wurzeln in der abstrakten Mathematik. Die Kategorie endlicher gefilterter Komplexe über einem Körper ist nämlich halbeinfach. Jeder gefilterte Komplex ist zu seiner kanonischen Form isomorph, eine direkte Summe von ein- und zweidimensionalen einfachen gefilterten Komplexen.

Stabilität

Stabilität ist wünschenswert, da sie Robustheit gegenüber Rauschen bietet. Wenn irgendein Raum, der auf eine Simplizialkomplex homeomorphic ist, und sind kontinuierlich zahme Funktionen, so werden die Persistenz Vektorräume und sind endlich präsentiert, und , wo zum Engpaß Abstand bezeichnet und ist die Karte eine kontinuierliche zahme Funktion auf die Persistenz Diagramm des Nehmens seine -te Homologie.

Arbeitsablauf

Der grundlegende Arbeitsablauf in TDA ist:

Punktwolke verschachtelte Komplexe Persistenzmodul Strichcode oder Diagramm
  1. Wenn es sich um eine Punktwolke handelt, ersetzen Sie sie durch eine verschachtelte Familie simplizialer Komplexe (wie den Čech- oder Vietoris-Rips-Komplex). Dieser Prozess wandelt die Punktwolke in eine Filtration simplizialer Komplexe um. Die Homologie jedes Komplexes in dieser Filtration ergibt ein Persistenzmodul
  2. Wenden Sie das Strukturtheorem an, um eine parametrisierte Version der Betti-Zahl , des Persistenzdiagramms oder gleichwertig eines Strichcodes bereitzustellen .

Grafisch gesprochen,

Eine übliche Verwendung von Persistenz in TDA

Berechnung

Der erste Algorithmus über alle Felder für persistente Homologie in algebraischer Topologieumgebung wurde von Barannikov durch Reduktion auf die kanonische Form durch obere Dreiecksmatrizen beschrieben. Der erste Algorithmus für persistente Homologie wurde von Edelsbrunner et al. Zomorodian und Carlsson stellten den ersten praktischen Algorithmus zur Berechnung einer persistenten Homologie über alle Felder vor. Das Buch von Edelsbrunner und Harer gibt eine allgemeine Anleitung zur Computertopologie.

Ein Problem, das bei der Berechnung auftaucht, ist die Wahl des Komplexes. Der ech-Komplex und der Vietoris-Rips-Komplex sind auf den ersten Blick am natürlichsten; ihre Größe wächst jedoch schnell mit der Anzahl der Datenpunkte. Der Vietoris-Rips-Komplex wird dem Čech-Komplex vorgezogen, weil seine Definition einfacher ist und der Čech-Komplex zusätzlichen Aufwand erfordert, um in einem allgemeinen endlichen metrischen Raum zu definieren. Effiziente Wege zur Senkung der Rechenkosten der Homologie wurden untersucht. Beispielsweise werden der α-Komplex und der Zeugenkomplex verwendet, um die Dimension und Größe von Komplexen zu reduzieren.

Kürzlich hat sich die diskrete Morsetheorie als vielversprechend für die computergestützte Homologie erwiesen, da sie einen gegebenen simplizialen Komplex auf einen viel kleineren zellulären Komplex reduzieren kann, der zum ursprünglichen homotop ist. Diese Reduktion kann tatsächlich durchgeführt werden, da der Komplex unter Verwendung der Matroid-Theorie konstruiert wird , was zu weiteren Leistungssteigerungen führt. Ein anderer neuerer Algorithmus spart Zeit, indem er die Homologieklassen mit geringer Persistenz ignoriert.

Es stehen verschiedene Softwarepakete wie javaPlex , Dionysus , Perseus , PHAT , DIPHA , GUDHI , Ripser und TDAstats zur Verfügung . Ein Vergleich zwischen diesen Werkzeugen wird von Otter et al. Giotto-tda ist ein Python-Paket, das sich der Integration von TDA in den maschinellen Lernworkflow mithilfe einer scikit-learn- API widmet . Ein R-Paket- TDA ist in der Lage, neu erfundene Konzepte wie Landscape und den Kernel Distance Estimator zu berechnen. Das Topology ToolKit ist auf kontinuierliche Daten spezialisiert, die auf Mannigfaltigkeiten niedriger Dimension (1, 2 oder 3) definiert sind, wie sie typischerweise in der wissenschaftlichen Visualisierung zu finden sind . Ein weiteres R-Paket, TDAstats , implementiert die Ripser-Bibliothek, um persistente Homologie zu berechnen.

Visualisierung

Hochdimensionale Daten lassen sich nicht direkt visualisieren. Es wurden viele Methoden erfunden, um eine niedrigdimensionale Struktur aus dem Datensatz zu extrahieren, wie zum Beispiel die Hauptkomponentenanalyse und die mehrdimensionale Skalierung . Es ist jedoch wichtig zu beachten, dass das Problem selbst falsch gestellt ist, da viele verschiedene topologische Merkmale im selben Datensatz gefunden werden können. Daher ist das Studium der Visualisierung hochdimensionaler Räume von zentraler Bedeutung für die TDA, obwohl dies nicht unbedingt die Verwendung einer persistenten Homologie erfordert. Es wurden jedoch in letzter Zeit Versuche unternommen, bei der Datenvisualisierung eine persistente Homologie zu verwenden.

Carlssonet al. haben eine allgemeine Methode namens MAPPER vorgeschlagen . Es erbt die Idee von Serre, dass eine Hülle die Homotopie bewahrt. Eine verallgemeinerte Formulierung von MAPPER lautet wie folgt:

Seien und seien topologische Räume und sei eine stetige Abbildung. Sei eine endliche offene Überdeckung von . Die Ausgabe von MAPPER ist der Nerv des Pullback-Covers , bei dem jedes Preimage in seine verbundenen Komponenten zerlegt wird. Dies ist ein sehr allgemeines Konzept, von dem der Reeb-Graph und die Merge-Bäume Sonderfälle sind.

Dies ist nicht ganz die ursprüngliche Definition. Carlssonet al. Wählen Sie sein oder , und decken Sie es mit offenen Mengen ab, so dass sich höchstens zwei schneiden. Diese Einschränkung bedeutet, dass die Ausgabe in Form eines komplexen Netzwerks erfolgt . Da die Topologie einer endlichen Punktwolke trivial ist, werden Clustering-Methoden (wie Single Linkage ) verwendet, um das Analogon verbundener Mengen im Vorabbild zu erzeugen, wenn MAPPER auf tatsächliche Daten angewendet wird.

Mathematisch gesehen ist MAPPER eine Variation des Reeb-Graphen . Wenn höchstens eindimensional ist, dann gilt für jede ,

Die zusätzliche Flexibilität hat auch Nachteile. Ein Problem ist die Instabilität, da eine Änderung der Wahl der Abdeckung zu einer großen Änderung der Ausgabe des Algorithmus führen kann. Es wurde daran gearbeitet, dieses Problem zu überwinden.

Drei erfolgreiche Anwendungen von MAPPER finden sich in Carlsson et al. Ein Kommentar zu den Anwendungen in diesem Artikel von J. Curry lautet, dass "ein gemeinsames Merkmal von Interesse bei Anwendungen das Vorhandensein von Fackeln oder Ranken ist."

Eine kostenlose Implementierung von MAPPER ist online verfügbar, geschrieben von Daniel Müllner und Aravindakshan Babu. MAPPER bildet auch die Basis der KI-Plattform von Ayasdi.

Mehrdimensionale Beständigkeit

Multidimensionale Persistenz ist wichtig für TDA. Das Konzept entsteht in Theorie und Praxis. Die erste Untersuchung der multidimensionalen Persistenz erfolgte früh in der Entwicklung von TDA. Carlsson-Zomorodian führte die Theorie der mehrdimensionalen Persistenz ein und führte in Zusammenarbeit mit Singh die Verwendung von Werkzeugen der symbolischen Algebra (Grobner-Basismethoden) zur Berechnung von MPH-Modulen ein. Ihre Definition präsentiert mehrdimensionale Persistenz mit n Parametern als ein Z^n abgestuftes Modul über einem Polynomring in n Variablen. In der Arbeit von Harrington-Otter-Schenck-Tillman werden Werkzeuge aus der kommutativen und homologischen Algebra auf das Studium der mehrdimensionalen Persistenz angewendet. Die erste in der Literatur erscheinende Anwendung ist ein Verfahren zum Formvergleich, ähnlich der Erfindung von TDA.

Die Definition eines n- dimensionalen Persistenzmoduls in ist

  • Jedem Punkt in ist ein Vektorraum zugeordnet
  • Karte wird zugewiesen, wenn (
  • Karten befriedigen für alle

Es ist erwähnenswert, dass es Kontroversen über die Definition von mehrdimensionaler Persistenz gibt.

Einer der Vorteile der eindimensionalen Persistenz ist die Darstellbarkeit durch ein Diagramm oder einen Barcode. Diskrete vollständige Invarianten von mehrdimensionalen Persistenzmodulen existieren jedoch nicht. Der Hauptgrund dafür ist, dass die Struktur der Sammlung von Unzersetzbaren durch Gabriels Theorem in der Theorie der Köcherdarstellungen extrem kompliziert ist , obwohl ein endlich n-dim-Persistenzmodul aufgrund der Krull- Schmidt-Theorem.

Dennoch wurden viele Ergebnisse festgestellt. Carlsson und Zomorodian eingeführt , um den Rang invariant , definiert als die , bei der ein endlich erzeugte n-graduierter Modul. In einer Dimension entspricht es dem Strichcode. In der Literatur wird die Ranginvariante oft als persistente Betti-Zahlen (PBNs) bezeichnet. In vielen theoretischen Arbeiten haben Autoren eine eingeschränktere Definition verwendet, ein Analogon zur Sublevel-Set-Persistenz. Insbesondere werden die Persistenz-Betti-Zahlen einer Funktion durch die Funktion gegeben , wobei jede zu , where und führt .

Einige grundlegende Eigenschaften sind Monotonie und Diagonalsprung. Persistente Betti-Zahlen sind endlich, wenn ein kompakter und lokal kontrahierbarer Unterraum von ist .

Unter Verwendung einer Schieferungsmethode können die k-dim-PBNs durch Dimensionsableitung in eine Familie von 1-dim-PBNs zerlegt werden. Diese Methode hat auch zu einem Beweis geführt, dass multi-dim PBNs stabil sind. Die Diskontinuitäten von PBNs treten nur an Punkten auf, an denen entweder ein diskontinuierlicher Punkt von oder ein diskontinuierlicher Punkt von ist, unter der Annahme, dass und ein kompakter, triangulierbarer topologischer Raum ist.

Persistenter Raum, eine Verallgemeinerung des persistenten Diagramms, ist definiert als die Mehrfachmenge aller Punkte mit einer Multiplizität größer als 0 und der Diagonale. Es bietet eine stabile und vollständige Darstellung von PBNs. Eine fortlaufende Arbeit von Carlsson et al. versucht, eine geometrische Interpretation der persistenten Homologie zu geben, die Erkenntnisse darüber liefern könnte, wie die Theorie des maschinellen Lernens mit der topologischen Datenanalyse kombiniert werden kann.

Der erste praktische Algorithmus zur Berechnung der mehrdimensionalen Persistenz wurde sehr früh erfunden. Danach wurden viele andere Algorithmen vorgeschlagen, die auf Konzepten wie der diskreten Morsetheorie und der Finite-Sample-Schätzung basieren.


Andere Beharrlichkeiten

Das Standardparadigma in TDA wird oft als Sublevel-Persistenz bezeichnet . Abgesehen von der mehrdimensionalen Persistenz wurden viele Arbeiten durchgeführt, um diesen Spezialfall zu erweitern.

Zickzack-Persistenz

Die Zuordnungen ungleich Null im Persistenzmodul werden durch die Vorbestellungsbeziehung in der Kategorie eingeschränkt. Mathematiker haben jedoch festgestellt, dass die Einstimmigkeit der Richtung für viele Ergebnisse nicht wesentlich ist. „Der philosophische Punkt ist, dass die Zerlegungstheorie von Graphendarstellungen etwas unabhängig von der Orientierung der Graphenkanten ist“. Zickzack-Persistenz ist für die theoretische Seite wichtig. Die in Carlssons Übersichtsartikel angeführten Beispiele zur Veranschaulichung der Bedeutung der Funktionalität haben alle einige ihrer Merkmale gemeinsam.

Erweiterte Persistenz und Levelset-Persistenz

Einige Versuche bestehen darin, die strengere Einschränkung der Funktion zu verlieren. Weitere Informationen finden Sie in den Abschnitten Kategorisierung und Cosheaves und Auswirkungen auf die Mathematik .

Es ist naheliegend, die Persistenzhomologie auf andere grundlegende Konzepte der algebraischen Topologie auszudehnen, wie etwa Kohomologie und relative Homologie/Kohomologie. Eine interessante Anwendung ist die Berechnung von Kreiskoordinaten für einen Datensatz über die erste persistente Kohomologiegruppe.

Zirkuläre Beständigkeit

Normale Persistenzhomologie untersucht reellwertige Funktionen. Die kreiswertige Karte könnte nützlich sein, "die Persistenztheorie für kreiswertige Karten verspricht, die Rolle für einige Vektorfelder zu spielen, wie es die Standard-Persistenztheorie für skalare Felder tut", wie in Dan Burghelea et al. Der Hauptunterschied besteht darin, dass Jordan-Zellen (die im Format den Jordan-Blöcken in der linearen Algebra sehr ähnlich sind) in kreiswertigen Funktionen nicht trivial sind, was im reellwertigen Fall Null wäre, und die Kombination mit Barcodes die Invarianten einer zahmen Karte ergibt. unter gemäßigten Bedingungen.

Zwei Techniken, die sie verwenden, sind die Morse-Novikov-Theorie und die Graphendarstellungstheorie. Neuere Ergebnisse finden sich in D. Burghelea et al. Zum Beispiel kann die Zahmheitsforderung durch die viel schwächere Bedingung kontinuierlich ersetzt werden.

Beständigkeit bei Torsion

Der Beweis des Struktursatzes beruht darauf, dass die Basisdomäne ein Feld ist, daher wurden nicht viele Versuche zur Persistenzhomologie mit Torsion unternommen. Frosini hat für dieses spezielle Modul eine Pseudometrik definiert und seine Stabilität bewiesen. Eine seiner Neuheiten besteht darin, dass es nicht von einer Klassifikationstheorie abhängt, um die Metrik zu definieren.

Kategorisierung und Cosheaves

Ein Vorteil der Kategorientheorie ist ihre Fähigkeit, konkrete Ergebnisse auf ein höheres Niveau zu heben und Beziehungen zwischen scheinbar unverbundenen Objekten aufzuzeigen. Bubeniket al. bietet eine kurze Einführung in die Kategorientheorie, die für TDA geeignet ist.

Die Kategorientheorie ist die Sprache der modernen Algebra und wird häufig im Studium der algebraischen Geometrie und Topologie verwendet. Es wurde festgestellt, dass "die wichtigste Beobachtung darin besteht, dass das von diesem erzeugte Persistenzdiagramm nur von der algebraischen Struktur abhängt, die von diesem Diagramm getragen wird." Der Einsatz der Kategorientheorie in der TDA hat sich als fruchtbar erwiesen.

In Anlehnung an die Notationen von Bubenik et al. ist die Indexierungskategorie eine beliebige vorgeordnete Menge (nicht unbedingt oder ), die Zielkategorie ist eine beliebige Kategorie (anstelle der allgemein verwendeten ) und Funktoren werden in , over als generalisierte Persistenzmodule bezeichnet .

Ein Vorteil der Verwendung der Kategorientheorie in TDA ist ein klareres Verständnis von Konzepten und die Entdeckung neuer Beziehungen zwischen Beweisen. Nehmen Sie zur Veranschaulichung zwei Beispiele. Das Verständnis der Entsprechung zwischen Interleaving und Matching ist von enormer Bedeutung, da das Matching am Anfang die Methode war (modifiziert von der Morsetheorie). Eine Zusammenfassung der Arbeiten findet sich in Vin de Silva et al. Viele Sätze lassen sich in einer intuitiveren Umgebung viel einfacher beweisen. Ein weiteres Beispiel ist der Zusammenhang zwischen der Konstruktion verschiedener Komplexe aus Punktwolken. Es ist seit langem bekannt, dass die Komplexe Čech und Vietoris-Rips verwandt sind. Konkret, . Die wesentliche Beziehung zwischen Cech- und Rips-Komplexen kann in der kategorialen Sprache viel klarer gesehen werden.

Die Sprache der Kategorientheorie hilft auch, die Ergebnisse in Begriffe zu fassen, die für die breitere mathematische Gemeinschaft erkennbar sind. Der Flaschenhalsabstand wird in TDA aufgrund der Ergebnisse zur Stabilität in Bezug auf den Flaschenhalsabstand häufig verwendet. In der Tat ist die Verschachtelung Abstand die Klemmen Objekt in einer poset Kategorie von stabilen Metriken auf mehrdimensionale Persistenz - Module in einem Primfeld .

Garben , ein zentrales Konzept in der modernen algebraischen Geometrie , sind untrennbar mit der Kategorientheorie verbunden. Grob gesagt sind Garben das mathematische Werkzeug, um zu verstehen, wie lokale Informationen globale Informationen bestimmen. Justin Curry betrachtet die Persistenz des Level Sets als das Studium von Fasern mit kontinuierlichen Funktionen. Die von ihm untersuchten Objekte sind denen von MAPPER sehr ähnlich, jedoch mit der Garbentheorie als theoretischer Grundlage. Obwohl noch kein Durchbruch in der Theorie der TDA die Garbentheorie verwendet hat, ist sie vielversprechend, da es viele schöne Theoreme in der algebraischen Geometrie in Bezug auf die Garbentheorie gibt. Eine natürliche theoretische Frage ist zum Beispiel, ob unterschiedliche Filtermethoden zur gleichen Leistung führen.

Stabilität

Stabilität ist für die Datenanalyse von zentraler Bedeutung, da echte Daten Rauschen tragen. Bubenik et al. haben zwischen weichen und harten Stabilitätssätzen unterschieden und bewiesen, dass weiche Fälle formal sind. Insbesondere ist der allgemeine Arbeitsablauf von TDA

Daten topologisches Persistenzmodul algebraisches Persistenzmodul diskrete Invariante

Der weiche Stabilität Satz behauptet, ist Lipschitz - stetig , und die harte Stabilität Satz behauptet , dass Lipschitz - stetig.

Die Engpassdistanz wird in TDA häufig verwendet. Der Isometriesatz besagt, dass die Verschachtelungsdistanz gleich der Engpassdistanz ist. Bubeniket al. haben die Definition auf die zwischen Funktoren abstrahiert, wenn sie mit einer sublinearen Projektion oder einer superlinearen Familie ausgestattet sind, in der noch eine Pseudometrik verbleibt. In Anbetracht der großartigen Eigenschaften der Interleaving-Distanz führen wir hier die allgemeine Definition der Interleaving-Distanz (anstelle der zuerst eingeführten) ein: Sei (eine Funktion von to, die monoton ist und für alle erfüllt ). Eine Verschachtelung zwischen F und G besteht aus natürlichen Transformationen und , so dass und .

Die beiden wichtigsten Ergebnisse sind

  • Sei eine vorgeordnete Menge mit einer sublinearen Projektion oder einer superlinearen Familie. Sei ein Funktor zwischen beliebigen Kategorien . Dann für zwei beliebige functors , haben wir .
  • Sei ein Poset eines metrischen Raums , sei ein topologischer Raum. Und seien (nicht notwendigerweise stetig) Funktionen und das entsprechende Persistenzdiagramm. Dann .

Diese beiden Ergebnisse fassen viele Ergebnisse zur Stabilität verschiedener Persistenzmodelle zusammen.

Den Stabilitätssatz der mehrdimensionalen Persistenz finden Sie im Unterabschnitt Persistenz.

Struktursatz

Der Struktursatz ist für TDA von zentraler Bedeutung; wie von G. Carlsson kommentiert, "ist die Tatsache, dass es einen Klassifikationssatz für endlich erzeugte abelsche Gruppen gibt, was Homologie als Diskriminator zwischen topologischen Räumen nützlich macht." (siehe Fundamentalsatz der endlich erzeugten abelschen Gruppen ).

Das Hauptargument beim Beweis des ursprünglichen Struktursatzes ist der Standardstruktursatz für endlich erzeugte Module über einem idealen Hauptbereich . Dieses Argument schlägt jedoch fehl, wenn der Indexierungssatz .

Im Allgemeinen kann nicht jedes Persistenzmodul in Intervalle zerlegt werden. Es wurden viele Versuche unternommen, die Beschränkungen des ursprünglichen Struktursatzes zu lockern. Der Fall für punktweise endlich-dimensionale Persistenzmodule, die durch eine lokal endliche Teilmenge von indiziert sind, wird basierend auf der Arbeit von Webb gelöst. Das bemerkenswerteste Ergebnis stammt von Crawley-Boevey, der den Fall von gelöst hat . Der Satz von Crawley-Boevey besagt, dass jedes punktweise endlich-dimensionale Persistenzmodul eine direkte Summe von Intervallmodulen ist.

Um die Definition seines Theorems zu verstehen, müssen einige Konzepte eingeführt werden. Ein Intervall in ist definiert als eine Teilmenge mit der Eigenschaft, dass wenn und wenn es ein solches gibt , dann auch. Ein Intervallmodul weist jedem Element den Vektorraum und den Elementen in den Nullvektorraum zu . Alle Maps sind die Null-Map, außer und , in diesem Fall ist dies die Identitäts-Map. Intervallmodule sind unzerlegbar.

Obwohl das Ergebnis von Crawley-Boevey ein sehr mächtiger Satz ist, erstreckt er sich immer noch nicht auf den q-tame-Fall. Ein Persistenzmodul ist q-tame, wenn der Rang von endlich für alle ist . Es gibt Beispiele für q-tame-Persistenzmodule, die nicht punktweise endlich sind. Es stellt sich jedoch heraus, dass ein ähnlicher Struktursatz immer noch gilt, wenn die Merkmale entfernt werden, die nur an einem Indexwert existieren. Dies gilt, weil die unendlich dimensionalen Teile bei jedem Indexwert aufgrund der endlichen Rangbedingung nicht bestehen bleiben. Formal ist die beobachtbare Kategorie definiert als , in der die vollständige Unterkategorie bezeichnet, deren Objekte die ephemeren Module ( wann immer ) sind.

Beachten Sie, dass die hier aufgeführten erweiterten Ergebnisse nicht für die Zickzack-Persistenz gelten, da das Analogon eines Zickzack-Persistenzmoduls nicht sofort offensichtlich ist.

Statistiken

Reale Daten sind immer endlich, und daher erfordert ihre Untersuchung, dass wir die Stochastik berücksichtigen. Die statistische Analyse gibt uns die Möglichkeit, wahre Merkmale der Daten von Artefakten zu trennen, die durch zufälliges Rauschen verursacht werden. Persistente Homologie hat keinen inhärenten Mechanismus, um zwischen Merkmalen mit niedriger Wahrscheinlichkeit und Merkmalen mit hoher Wahrscheinlichkeit zu unterscheiden.

Eine Möglichkeit, Statistik auf die topologische Datenanalyse anzuwenden, besteht darin, die statistischen Eigenschaften topologischer Merkmale von Punktwolken zu untersuchen. Das Studium zufälliger simplizialer Komplexe bietet einen Einblick in die statistische Topologie. K. Turner et al. bietet eine Zusammenfassung der Arbeiten in diesem Sinne.

Eine zweite Möglichkeit besteht darin, Wahrscheinlichkeitsverteilungen im Persistenzraum zu untersuchen. Der Persistenzraum ist , wo ist der Raum aller Strichcodes mit genauen Intervallen und die Äquivalenzen sind wenn . Dieser Raum ist ziemlich kompliziert; Beispielsweise ist sie unter der Engpassmetrik nicht vollständig. Der erste Versuch, es zu untersuchen, ist von Y. Mileyko et al. Der Raum der Persistenzdiagramme in ihrer Arbeit ist definiert als

wo ist die diagonale linie in . Ein schönes Anwesen ist das komplett und trennbar in der Wasserstein-Metrik ist . Erwartung, Varianz und bedingte Wahrscheinlichkeit können im Sinne von Fréchet definiert werden . Dadurch können viele Statistiktools auf TDA portiert werden. Arbeiten an Nullhypothesen-Signifikanztests , Konfidenzintervallen und robusten Schätzungen sind bemerkenswerte Schritte.

Ein dritter Weg besteht darin, die Kohomologie des Wahrscheinlichkeitsraums oder statistischer Systeme direkt zu betrachten, die als Informationsstrukturen bezeichnet werden und im Wesentlichen aus dem Tripel ( ), Stichprobenraum, Zufallsvariablen und Wahrscheinlichkeitsgesetzen bestehen. Zufallsvariablen werden als Partitionen der n atomaren Wahrscheinlichkeiten (gesehen als Wahrscheinlichkeits-(n-1)-Simplex, ) auf dem Gitter der Partitionen ( ) betrachtet. Die Zufallsvariablen oder Module messbarer Funktionen liefern die Coketten-Komplexe, während die Coboundary als die allgemeine homologische Algebra angesehen wird, die zuerst von Hochschild mit einer linken Aktion entdeckt wurde, die die Aktion der Konditionierung implementiert. Die erste Kozykelbedingung entspricht der Kettenregel der Entropie, die es erlaubt, bis auf die multiplikative Konstante die Shannon-Entropie als erste Kohomologieklasse eindeutig abzuleiten. Die Betrachtung einer deformierten Linksbewegung verallgemeinert das Gerüst auf Tsallis-Entropien. Die Informationskohomologie ist ein Beispiel für beringte Topos. Multivariate k-

Mutual-Informationen erscheinen in Coboundary-Ausdrücken, und ihr Verschwinden in Bezug auf die Cocycle-Bedingung liefert äquivalente Bedingungen für statistische Unabhängigkeit. Minima gegenseitiger Information, auch Synergie genannt, führen zu interessanten Unabhängigkeitskonfigurationen analog zu homotopischen Verknüpfungen. Aufgrund seiner kombinatorischen Komplexität wurde nur der simpliziale Unterfall der Kohomologie und der Informationsstruktur an Daten untersucht. Auf Daten angewendet, quantifizieren diese kohomologischen Werkzeuge im multivariaten Fall statistische Abhängigkeiten und Unabhängigkeiten, einschließlich Markov-Ketten und bedingter Unabhängigkeit . Insbesondere verallgemeinern gegenseitige Informationen den Korrelationskoeffizienten und die Kovarianz auf nichtlineare statistische Abhängigkeiten. Diese Ansätze wurden unabhängig entwickelt und beziehen sich nur indirekt auf Persistenzmethoden, können aber im vereinfachten Fall mit dem Hu Kuo Tin Theorem grob verstanden werden, der eine Eins-zu-Eins-Entsprechung zwischen gegenseitigen Informationsfunktionen und endlich messbaren Funktionen einer Menge mit Schnittoperator herstellt , um das ech-Komplex- Skelett zu konstruieren . Die Informationskohomologie bietet einige direkte Interpretationen und Anwendungen in Bezug auf Neurowissenschaften (neurale Versammlungstheorie und qualitative Kognition), statistische Physik und tiefe neuronale Netze, für die die Struktur und der Lernalgorithmus durch den Komplex von Zufallsvariablen und die Informationskettenregel auferlegt werden.

Persistenzlandschaften, eingeführt von Peter Bubenik, sind eine andere Art der Darstellung von Barcodes, die einer statistischen Analyse zugänglicher sind. Die Persistenzlandschaft eines persistenten Moduls ist definiert als eine Funktion , , wobei die

erweiterte reale Zeile und bezeichnet wird . Der Raum der Persistenzlandschaften ist sehr schön: Er erbt alle guten Eigenschaften der Barcode-Darstellung (Stabilität, einfache Darstellung usw.), aber statistische Größen können leicht definiert werden, und einige Probleme in der Arbeit von Y. Mileyko et al., wie z wie die Nichteindeutigkeit von Erwartungen, überwunden werden kann. Effektive Algorithmen zur Berechnung mit Persistenzlandschaften stehen zur Verfügung. Ein anderer Ansatz besteht darin, eine überarbeitete Persistenz zu verwenden, d. h. Image-, Kernel- und Cokernel-Persistenz.

Anwendungen

Klassifizierung der Anwendungen

Es gibt mehr als eine Möglichkeit, die Anwendungen von TDA zu klassifizieren. Der vielleicht natürlichste Weg ist über das Feld. Eine sehr unvollständige Liste erfolgreicher Anwendungen umfasst Datenskelettierung, Formstudie, Graphrekonstruktion, Bildanalyse, Material, Progressionsanalyse von Krankheiten, Sensornetzwerk, Signalanalyse, kosmisches Netz, komplexes Netzwerk, fraktale Geometrie, virale Evolution, Ausbreitung von Ansteckungen in Netzwerken , Bakterienklassifizierung mittels Molekularspektroskopie, hyperspektrale Bildgebung in der physikalischen Chemie, Fernerkundung und Merkmalsauswahl.

Eine andere Möglichkeit besteht darin, die Techniken von G. Carlsson zu unterscheiden,

Eine davon ist das Studium homologischer Invarianten von Daten eines einzelnen Datensatzes, und die andere ist die Verwendung von homologischen Invarianten beim Studium von Datenbanken, bei denen die Datenpunkte selbst eine geometrische Struktur haben.

Eigenschaften von TDA in Anwendungen

Es gibt mehrere bemerkenswerte interessante Merkmale der jüngsten Anwendungen von TDA:

  1. Kombination von Werkzeugen aus mehreren Zweigen der Mathematik . Neben dem offensichtlichen Bedarf an Algebra und Topologie haben partielle Differentialgleichungen, algebraische Geometrie, Darstellungstheorie, Statistik, Kombinatorik und Riemannsche Geometrie alle Verwendung in TDA gefunden.
  2. Quantitative Analyse . Die Topologie gilt als sehr weich, da viele Konzepte unter Homotopie invariant sind. Die persistente Topologie ist jedoch in der Lage, die Geburt (Erscheinen) und den Tod (Verschwinden) von topologischen Merkmalen aufzuzeichnen, sodass zusätzliche geometrische Informationen darin eingebettet sind. Ein Beweis in der Theorie ist ein teilweise positives Ergebnis bezüglich der Einzigartigkeit der Rekonstruktion von Kurven; zwei in Anwendung sind die quantitative Analyse der Fulleren-Stabilität und die quantitative Analyse der Selbstähnlichkeit , getrennt.
  3. Die Rolle der kurzen Persistenz . Auch eine kurze Persistenz hat sich als nützlich erwiesen, obwohl allgemein angenommen wird, dass Rauschen die Ursache des Phänomens ist. Dies ist für die mathematische Theorie interessant.

Einer der Hauptbereiche der Datenanalyse ist heute das maschinelle Lernen . Einige Beispiele für maschinelles Lernen in TDA finden sich in Adcock et al. Eine Konferenz widmet sich der Verbindung zwischen TDA und Machine Learning. Um Werkzeuge aus dem maschinellen Lernen anzuwenden, sollten die aus TDA gewonnenen Informationen in Vektorform dargestellt werden. Ein fortlaufender und vielversprechender Versuch ist die oben diskutierte Persistenzlandschaft. Ein anderer Versuch verwendet das Konzept der Persistenzbilder. Ein Problem dieser Methode ist jedoch der Stabilitätsverlust, da das harte Stabilitätstheorem von der Barcodedarstellung abhängt.

Auswirkungen auf die Mathematik

Topologische Datenanalyse und persistente Homologie haben Auswirkungen auf die Morsetheorie . Die Morsetheorie hat in der TDA-Theorie eine sehr wichtige Rolle gespielt, einschließlich der Berechnung. Einige Arbeiten in der persistenten Homologie haben Ergebnisse über Morsefunktionen auf zähmende Funktionen oder sogar auf stetige Funktionen ausgedehnt. Ein vergessenes Ergebnis von R. Deheuvels lange vor der Erfindung der persistenten Homologie erweitert die Morsetheorie auf alle stetigen Funktionen.

Ein aktuelles Ergebnis ist, dass die Kategorie der Reeb-Graphen einer bestimmten Klasse von Cosheaf entspricht. Dies wird durch theoretische Arbeiten in TDA motiviert, da der Reeb-Graphen mit der Morsetheorie verwandt ist und MAPPER daraus abgeleitet wird. Der Beweis dieses Satzes beruht auf dem Verschachtelungsabstand.

Persistente Homologie ist eng mit Spektralsequenzen verwandt . Insbesondere der Algorithmus, der einen gefilterten Komplex in seine kanonische Form bringt, erlaubt eine viel schnellere Berechnung von Spektralsequenzen als das Standardverfahren, Gruppen Seite für Seite zu berechnen . Die Zickzack-Persistenz kann sich als von theoretischer Bedeutung für Spektralsequenzen erweisen.

Siehe auch

Verweise

Weiterlesen

Kurze Einleitung

Monographie

Videovortrag

Lehrbuch der Topologie

Andere Ressourcen von TDA