KI-Beschleuniger - AI accelerator

Ein KI-Beschleuniger ist eine Klasse von spezialisierten Hardwarebeschleunigern oder Computersystemen, die entwickelt wurden, um Anwendungen der künstlichen Intelligenz und des maschinellen Lernens zu beschleunigen , einschließlich künstlicher neuronaler Netze und maschineller Bildverarbeitung . Typische Anwendungen sind Algorithmen für die Robotik , Internet der Dinge , und andere Daten -intensive oder sensorgesteuerte Aufgaben. Sie sind oft Manycore- Designs und konzentrieren sich im Allgemeinen auf Arithmetik mit niedriger Genauigkeit , neuartige Datenflussarchitekturen oder In-Memory-Computing- Fähigkeiten. Ab 2018 enthält ein typischer KI - Chip mit integrierter Schaltung Milliarden von MOSFET- Transistoren. Für Geräte dieser Kategorie gibt es eine Reihe von herstellerspezifischen Begriffen, und es handelt sich um eine neue Technologie ohne dominantes Design .

Geschichte

Computersysteme haben die CPU häufig durch spezielle Beschleuniger für spezielle Aufgaben, sogenannte Coprozessoren, ergänzt . Bemerkenswerte anwendungsspezifische Hardwareeinheiten umfassen Grafikkarten für Grafiken , Soundkarten , Grafikprozessoren und digitale Signalprozessoren . Als in den 2010er Jahren Deep Learning und künstliche Intelligenz Workloads an Bedeutung gewannen, wurden spezielle Hardwareeinheiten entwickelt oder aus bestehenden Produkten angepasst, um diese Aufgaben zu beschleunigen .

Frühe Versuche

Erste Versuche wie Intels ETANN 80170NX beinhalteten analoge Schaltungen zur Berechnung neuronaler Funktionen. Ein weiteres Beispiel für Chips dieser Kategorie ist ANNA, ein von Yann LeCun entwickelter CMOS- Beschleuniger für neuronale Netze . Später folgten alle digitalen Chips wie Nestor/Intel Ni1000 . Bereits 1993 wurden digitale Signalprozessoren als Beschleuniger für neuronale Netze eingesetzt, zB um Software zur optischen Zeichenerkennung zu beschleunigen . In den 1990er Jahren gab es auch Versuche, parallele Hochdurchsatzsysteme für Workstations zu schaffen, die auf verschiedene Anwendungen abzielten, einschließlich neuronaler Netzsimulationen. FPGA- basierte Beschleuniger wurden auch erstmals in den 1990er Jahren sowohl für Inferenz als auch für Training untersucht. Smartphones begannen mit dem Qualcomm Snapdragon 820 im Jahr 2015, KI-Beschleuniger zu integrieren .

Heterogenes Computing

Heterogenes Computing bezieht sich auf die Integration einer Reihe spezialisierter Prozessoren in ein einzelnes System oder sogar einen einzelnen Chip, die jeweils für eine bestimmte Art von Aufgabe optimiert sind. Architekturen wie der Cell-Mikroprozessor haben Funktionen, die sich deutlich mit KI-Beschleunigern überschneiden, darunter: Unterstützung für gepackte Arithmetik mit niedriger Genauigkeit, Datenflussarchitektur und Priorisierung von "Durchsatz" gegenüber Latenz. Der Cell-Mikroprozessor wurde anschließend auf eine Reihe von Aufgaben einschließlich der KI angewendet.

In den 2000er Jahren gewannen CPUs auch immer breitere SIMD- Einheiten, angetrieben durch Video- und Gaming-Workloads; sowie Unterstützung für gepackte Datentypen mit niedriger Genauigkeit . Aufgrund der steigenden Leistung von CPUs werden sie auch für die Ausführung von KI-Workloads verwendet. CPUs sind für DNNs mit DNNs mit kleiner oder mittlerer Parallelität, für DNNs mit geringer Dichte und in Szenarien mit geringer Stapelgröße überlegen .

Verwendung von GPU

Grafikprozessoren oder GPUs sind spezialisierte Hardware für die Manipulation von Bildern und die Berechnung lokaler Bildeigenschaften. Die mathematische Grundlage neuronaler Netze und Bildmanipulation sind ähnliche, peinlich parallele Aufgaben mit Matrizen, was dazu führt, dass GPUs zunehmend für maschinelle Lernaufgaben verwendet werden. Seit 2016 sind GPUs beliebt für KI-Arbeiten und sie entwickeln sich weiter in Richtung des Ermöglichens von Deep Learning, sowohl für das Training als auch für die Inferenz in Geräten wie selbstfahrenden Autos . GPU-Entwickler wie Nvidia NVLink entwickeln zusätzliche Verbindungsfähigkeiten für die Art von Datenfluss-Workloads, von denen die KI profitiert. Da GPUs zunehmend auf AI Beschleunigung angewendet wurde, haben GPU - Hersteller eingebaut neuronales Netz - spezifische Hardware auf , diese Aufgaben zu beschleunigen. Tensor Kerne sollen die Ausbildung von neuronalen Netzen beschleunigen.

Verwendung von FPGAs

Deep-Learning-Frameworks befinden sich noch in der Entwicklung, was es schwierig macht, benutzerdefinierte Hardware zu entwickeln. Rekonfigurierbare Geräte wie feldprogrammierbare Gate-Arrays (FPGA) erleichtern die parallele Entwicklung von Hardware, Frameworks und Software .

Microsoft hat FPGA-Chips verwendet, um die Inferenz zu beschleunigen .

Entstehung dedizierter KI-Beschleuniger-ASICs

Während GPUs und FPGAs bei KI-bezogenen Aufgaben weitaus besser abschneiden als CPUs, kann mit einem spezifischeren Design über eine anwendungsspezifische integrierte Schaltung (ASIC) ein Faktor von bis zu 10 Effizienz erreicht werden . Diese Beschleuniger verwenden Strategien wie eine optimierte Speichernutzung und die Verwendung von Arithmetik mit geringerer Genauigkeit , um die Berechnung zu beschleunigen und den Rechendurchsatz zu erhöhen . Einige angenommene Gleitkommaformate mit niedriger Genauigkeit , die die KI-Beschleunigung verwenden, sind halbe Genauigkeit und das Gleitkommaformat bfloat16 . Unternehmen wie Google, Qualcomm, Amazon, Apple, Facebook, AMD und Samsung entwickeln alle ihre eigenen KI-ASICs.

In-Memory-Computing-Architekturen

Im Juni 2017 kündigten IBM- Forscher eine Architektur im Gegensatz zur Von-Neumann-Architektur an, die auf In-Memory-Computing und Phase-Change-Memory- Arrays für die zeitliche Korrelationserkennung basiert , um den Ansatz für heterogenes Computing und massiv parallele Systeme zu verallgemeinern . Im Oktober 2018 kündigten IBM-Forscher eine Architektur an, die auf In-Memory-Processing basiert und dem synaptischen Netzwerk des menschlichen Gehirns nachempfunden ist , um tiefe neuronale Netze zu beschleunigen . Das System basiert auf Phasenwechselspeicherarrays .

In-Memory-Computing mit analogen resistiven Speichern

Im Jahr 2019 fanden Forscher des Politecnico di Milano einen Weg, lineare Gleichungssysteme in wenigen zehn Nanosekunden durch eine einzige Operation zu lösen. Ihr Algorithmus basiert auf In-Memory-Computing mit analogen resistiven Speichern, das mit hoher Zeit- und Energieeffizienz arbeitet, indem eine Matrix-Vektor-Multiplikation in einem Schritt unter Verwendung des Ohmschen Gesetzes und des Kirchhoffschen Gesetzes durchgeführt wird. Die Forscher zeigten, dass eine Rückkopplungsschaltung mit Cross-Point-Widerstandsspeichern algebraische Probleme wie lineare Gleichungssysteme, Matrix-Eigenvektoren und Differentialgleichungen in nur einem Schritt lösen kann. Ein solcher Ansatz verbessert die Rechenzeiten im Vergleich zu digitalen Algorithmen drastisch.

Atomar dünne Halbleiter

Im Jahr 2020 haben Marega et al. veröffentlichten Experimente mit einem großflächigen aktiven Kanalmaterial zur Entwicklung von Logik-im-Speicher-Bauelementen und -Schaltungen auf Basis von Floating-Gate -Feldeffekttransistoren (FGFETs). Solche atomar dünnen Halbleiter gelten als vielversprechend für energieeffiziente Anwendungen des maschinellen Lernens , bei denen die gleiche grundlegende Gerätestruktur sowohl für logische Operationen als auch für die Datenspeicherung verwendet wird. Die Autoren verwendeten zweidimensionale Materialien wie halbleitendes Molybdändisulfid .

Integrierter photonischer Tensorkern

2021 haben J. Feldmann et al. einen integrierten photonischen Hardwarebeschleuniger für die parallele Faltungsverarbeitung vorgeschlagen. Die Autoren identifizieren zwei wichtige Vorteile des integrierten Photonics über sein elektronisches Pendants: (1) massiv parallele Datenübertragung durch Wellenlängenteilungsmultiplexen in Verbindung mit Frequenzkämmen , und (2) ein extrem hohe Datenmodulationsgeschwindigkeiten. Ihr System kann Billionen von mehrfach akkumulierten Operationen pro Sekunde ausführen, was auf das Potenzial integrierter Photonik in datenintensiven KI-Anwendungen hindeutet .

Nomenklatur

Ab 2016 ist das Feld immer noch im Fluss und Anbieter forcieren ihren eigenen Marketingbegriff für einen "KI-Beschleuniger", in der Hoffnung, dass ihre Designs und APIs das dominierende Design werden . Es gibt keinen Konsens über die Grenze zwischen diesen Geräten oder die genaue Form, die sie annehmen werden; mehrere Beispiele zielen jedoch eindeutig darauf ab, diesen neuen Raum zu füllen, wobei sich die Fähigkeiten ziemlich überschneiden.

In der Vergangenheit, als Consumer- Grafikbeschleuniger aufkamen, übernahm die Industrie schließlich Nvidias selbst vergebenen Begriff "die GPU" als Sammelbegriff für "Grafikbeschleuniger", der viele Formen angenommen hatte, bevor sie sich auf eine Gesamtpipeline zur Implementierung eines Modells festlegte präsentiert von Direct3D .

Anwendungsmöglichkeiten

Siehe auch

Verweise

Externe Links