Hierarchische Speicherverwaltung - Hierarchical storage management

Hierarchical Storage Management ( HSM ) ist eine Datenspeichertechnik , die Daten automatisch zwischen teuren und kostengünstigen Speichermedien verschiebt . HSM-Systeme existieren, weil Hochgeschwindigkeitsspeichergeräte, wie beispielsweise Solid-State-Drive- Arrays, teurer sind (pro gespeichertem Byte ) als langsamere Geräte, wie Festplattenlaufwerke , optische Disks und Magnetbandlaufwerke . Es wäre zwar ideal, alle Daten jederzeit auf Hochgeschwindigkeitsgeräten verfügbar zu haben, aber dies ist für viele Unternehmen unerschwinglich. Stattdessen speichern HSM-Systeme den Großteil der Unternehmensdaten auf langsameren Geräten und kopieren die Daten dann bei Bedarf auf schnellere Festplatten. Tatsächlich verwandelt HSM die schnellen Plattenlaufwerke in Caches für die langsameren Massenspeichergeräte. Das HSM-System überwacht die Art und Weise, wie Daten verwendet werden, und schätzt am besten, welche Daten sicher auf langsamere Geräte verschoben werden können und welche Daten auf den schnellen Geräten verbleiben sollten.

HSM kann auch verwendet werden, wenn ein robusterer Speicher für die Langzeitarchivierung verfügbar ist, der jedoch langsam zugänglich ist. Dies kann so einfach sein wie eine externe Sicherung zum Schutz vor einem Gebäudebrand.

HSM ist ein seit langem etabliertes Konzept, das bis in die Anfänge der kommerziellen Datenverarbeitung zurückreicht. Die verwendeten Techniken haben sich jedoch mit dem Aufkommen neuer Technologien erheblich verändert, sowohl für die Speicherung als auch für die Fernkommunikation großer Datensätze. Der Umfang von Maßnahmen wie „Größe“ und „Zugriffszeit“ hat sich dramatisch verändert. Trotzdem kehren viele der zugrunde liegenden Konzepte Jahre später immer wieder zu Gunsten zurück, wenn auch in viel größeren oder schnelleren Maßstäben.

Implementierung

In einem typischen HSM-Szenario werden häufig verwendete Datendateien auf Plattenlaufwerken gespeichert, aber schließlich auf Band migriert , wenn sie für einen bestimmten Zeitraum, typischerweise einige Monate, nicht verwendet werden. Wenn ein Benutzer eine Datei auf Band wiederverwendet, wird sie automatisch zurück in den Plattenspeicher verschoben. Der Vorteil besteht darin, dass die Gesamtmenge der gespeicherten Daten viel größer sein kann als die Kapazität des verfügbaren Plattenspeichers, aber da nur selten verwendete Dateien auf Band liegen, werden die meisten Benutzer in der Regel keine Verlangsamung bemerken.

HSM wird manchmal auch als Tiered Storage bezeichnet .

Der Hierarchical Storage Manager (HSM, dann DFHSM und schließlich DFSMShsm ) wurde erstmals am 31. März 1978 von IBM für MVS implementiert , um die Kosten für die Datenspeicherung zu senken und das Abrufen von Daten von langsameren Medien zu vereinfachen. Der Benutzer muss nicht wissen, wo die Daten gespeichert sind und wie er sie zurückbekommt; der Computer würde die Daten automatisch abrufen. Der einzige Unterschied für den Benutzer war die Geschwindigkeit, mit der Daten zurückgegeben wurden. HSM konnte ursprünglich Datasets nur auf Platten-Volumes und virtuelle Volumes auf einer IBM 3850- Massenspeichereinrichtung migrieren , aber eine neuere Version unterstützte Magnetband-Volumes für Migrationsstufe 2 (ML2).

Später portierte IBM HSM auf sein AIX-Betriebssystem und dann auf andere Unix-ähnliche Betriebssysteme wie Solaris , HP-UX und Linux .

Die Division of Computing Research von CSIRO Australia implementierte in den 1960er Jahren ein HSM in ihrem Betriebssystem DAD (Drums and Display) mit seiner Document Region, wobei Kopien von Dokumenten auf 7-Spur-Band geschrieben und beim Zugriff auf die Dokumente automatisch abgerufen wurden.

HSM wurde auch auf den DEC VAX/VMS- Systemen und den Alpha/VMS-Systemen implementiert. Das Datum der ersten Implementierung sollte leicht aus den VMS-Systemimplementierungshandbüchern oder den VMS-Produktbeschreibungsbroschüren bestimmt werden.

In letzter Zeit hat die Entwicklung von Serial ATA (SATA)-Festplatten einen bedeutenden Markt für dreistufiges HSM geschaffen: Dateien werden von Hochleistungs- Fibre-Channel- Storage-Area-Network- Geräten auf etwas langsamere, aber viel billigere SATA- Festplatten-Arrays mit insgesamt mehreren Terabyte oder mehr migriert. und dann schließlich von den SATA-Festplatten auf Band.

Die neueste Entwicklung bei HSM sind Festplatten und Flash-Speicher , wobei Flash-Speicher über 30-mal schneller als Festplatten sind, aber Festplatten erheblich billiger sind.

Vom Konzept her entspricht HSM dem Cache der meisten Computer- CPUs , bei dem kleine Mengen an teurem SRAM- Speicher mit sehr hoher Geschwindigkeit verwendet werden, um häufig verwendete Daten zu speichern, aber die am wenigsten verwendeten Daten werden in den langsameren, aber viel größeren Haupt- DRAM verschoben Speicher, wenn neue Daten geladen werden müssen.

In der Praxis wird HSM in der Regel von dedizierter Software wie IBM Tivoli Storage Manager , SAM-QFS von Oracle , Versity Storage Manager , Quantum , Novell Dynamic Storage Technology (DST) auf Open Enterprise Server (OES) Linux Platform, HPE Data Management Framework . ausgeführt (DMF, ehemals SGI Data Migration Facility), StorNext oder EMC Legato OTG DiskXtender .

Das Löschen von Dateien von einer höheren Ebene der Hierarchie (zB Magnetplatte) nachdem sie auf eine niedrigere Ebene (zB optische Medien) verschoben wurden, wird manchmal als Dateipflege bezeichnet .

Anwendungsfälle

HSM wird häufig für die tiefe Archivierung von Daten verwendet, die langfristig und kostengünstig aufbewahrt werden sollen. Automatisierte Bandroboter können große Datenmengen effizient mit geringem Stromverbrauch silosieren.

Bei einigen HSM-Softwareprodukten kann der Benutzer Teile von Datendateien im Hochgeschwindigkeits-Disk-Cache und den Rest auf Band ablegen. Dies wird in Anwendungen verwendet, die Videos über das Internet streamen – der erste Teil eines Videos wird sofort von der Festplatte geliefert, während ein Roboter den Rest der Datei findet, einhängt und an den Endbenutzer streamt. Ein solches System reduziert die Plattenkosten für große Inhaltsbereitstellungssysteme stark.

Algorithmen

Der Schlüsselfaktor hinter HSM ist eine Datenmigrationsrichtlinie, die die Dateiübertragungen im System steuert. Genauer gesagt entscheidet die Richtlinie, in welcher Ebene eine Datei gespeichert werden soll, damit das gesamte Speichersystem gut organisiert werden kann und eine kürzeste Reaktionszeit auf Anfragen hat. Es gibt mehrere Algorithmen, die diesen Prozess realisieren, wie z. B. Least Latest Used Replacement (LRU), Size-Temperature Replacement (STP), Heuristic Threshold (STEP) usw. In der Forschung der letzten Jahre gibt es auch einige intelligente Richtlinien durch den Einsatz von Maschinen Lerntechnologien.

Gestaffelter Speicher

Tiered Storage ist eine Computerdatenspeichermethode , bei der Datenkategorien verschiedenen Datenspeichermedien zugewiesen werden , um die Gesamtspeicherkosten, die E/A-Leistung , die Zuverlässigkeit, die Verfügbarkeit und die Wartungsfreundlichkeit zu reduzieren . Die Daten werden Tiered in verschiedene Medium auf der Basis von systemkritischen und geschäftskritische Merkmale, so dass die Systemsoftware und Business - Anwendungen werden priorisiert. Anwendungen, die eine hohe E/A-Leistung erfordern , speichern Daten auf Solid-State-Laufwerken , während Anwendungen, die eine mäßige Leistung erfordern, und unkritische Daten auf Nearline-Speichermedien wie SAS 10k oder 10K RPM bzw. 7,2 K RPM HHD-Laufwerken aufbewahrt werden. Die Grundidee ist, dass geschäftskritische Daten mit hohem Zugriff oder "heißen" Daten in teuren Medien wie SSDs gespeichert werden, um die hohe I/O-Leistung zu nutzen, während Nearline- oder selten abgerufene oder "kalte" Daten in Nearline-Speichermedien gespeichert werden wie HHD und Bänder, die kostengünstig sind. Somit bestimmen die "Datentemperatur" oder Aktivitätsniveaus die primäre Speicherhierarchie .

Beispiele:

  • Platte und Band : zwei separate Speicherebenen, die durch Unterschiede in allen vier definierenden Attributen identifiziert werden.
  • Datenträger mit alter Technologie und Datenträger mit neuer Technologie: zwei separate Speicherebenen, die durch Unterschiede in einem oder mehreren der Attribute identifiziert werden.
  • Leistungsstarker Festplattenspeicher und kostengünstigere, langsamere Festplatte gleicher Kapazität und Funktion: zwei separate Tiers.
  • Identische Festplatte der Enterprise-Klasse, die für die Nutzung verschiedener Funktionen wie RAID- Level oder Replikation konfiguriert ist : eine separate Speicherebene für jeden Satz einzigartiger Funktionen.

Hinweis: Speicherstufen werden nicht durch Unterschiede in Anbieter, Architektur oder Geometrie abgegrenzt, es sei denn, diese Unterschiede führen zu klaren Änderungen bei Preis, Leistung, Kapazität und Funktion.

Implementierungen

Siehe auch

Verweise