Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit - Reliability, availability and serviceability

Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit ( RAS ), auch als Zuverlässigkeit, Verfügbarkeit und Wartbarkeit ( RAM ) bezeichnet, ist ein Begriff für Computerhardware- Engineering, der Zuverlässigkeitstechnik , Hochverfügbarkeit und Wartungsfreundlichkeit umfasst . Der Ausdruck wurde ursprünglich von International Business Machines ( IBM ) als Begriff verwendet, um die Robustheit ihrer Mainframe-Computer zu beschreiben .

Computer mit höheren RAS-Werten verfügen über viele Funktionen, die die Datenintegrität schützen und ihnen helfen, über einen langen Zeitraum ohne Fehler verfügbar zu bleiben. Diese Datenintegrität und -verfügbarkeit ist ein besonderes Verkaufsargument für Mainframes und fehlertolerante Systeme .

Definitionen

Während RAS als hardwareorientierter Begriff entstanden ist, hat das Systemdenken das Konzept der Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit auf Systeme im Allgemeinen, einschließlich Software, ausgedehnt .

  • Zuverlässigkeit kann als die Wahrscheinlichkeit definiert werden, dass ein System bis zu einem bestimmten Zeitpunkt t korrekte Ausgaben erzeugt . Die Zuverlässigkeit wird durch Funktionen verbessert, mit denen Hardwarefehler vermieden, erkannt und repariert werden können. Ein zuverlässiges System fährt nicht stillschweigend fort und liefert Ergebnisse, die nicht korrigierte beschädigte Daten enthalten. Stattdessen erkennt es die Beschädigung und korrigiert sie, wenn möglich, indem beispielsweise eine Operation für vorübergehende ( weiche ) oder intermittierende Fehler oder für nicht korrigierbare Fehler wiederholt wird , der Fehler isoliert und an übergeordnete Wiederherstellungsmechanismen gemeldet wird (welche) Möglicherweise Failover auf redundante Ersatzhardware usw.) oder durch Anhalten des betroffenen Programms oder des gesamten Systems und Melden der Beschädigung. Die Zuverlässigkeit kann als mittlere Zeit zwischen Ausfällen (MTBF) mit Zuverlässigkeit = exp (-t / MTBF) charakterisiert werden .
  • Verfügbarkeit bedeutet die Wahrscheinlichkeit, dass ein System zu einem bestimmten Zeitpunkt betriebsbereit ist, dh die Zeit, die ein Gerät tatsächlich in Betrieb ist, als Prozentsatz der Gesamtzeit, die es in Betrieb sein sollte. Hochverfügbarkeitssysteme können die Verfügbarkeit in Minuten oder Stunden Ausfallzeit pro Jahr angeben. Durch die Verfügbarkeitsfunktionen bleibt das System auch dann betriebsbereit, wenn Fehler auftreten. Ein hochverfügbares System würde den fehlerhaften Teil deaktivieren und mit reduzierter Kapazität weiterarbeiten. Im Gegensatz dazu kann ein weniger leistungsfähiges System abstürzen und völlig funktionsunfähig werden. Die Verfügbarkeit wird normalerweise als Prozentsatz der Zeit angegeben, in der ein System voraussichtlich verfügbar sein wird, z. B. 99,999 Prozent (" fünf Neunen ").
  • Servicefreundlichkeit oder Wartbarkeit ist die Einfachheit und Geschwindigkeit, mit der ein System repariert oder gewartet werden kann. Wenn sich die Zeit für die Reparatur eines ausgefallenen Systems verlängert, verringert sich die Verfügbarkeit. Die Wartungsfreundlichkeit umfasst verschiedene Methoden zur einfachen Diagnose des Systems bei auftretenden Problemen. Durch frühzeitiges Erkennen von Fehlern können Systemausfallzeiten verringert oder vermieden werden. Beispielsweise können einige Unternehmenssysteme automatisch ein Servicecenter anrufen (ohne menschliches Eingreifen), wenn im System ein Systemfehler auftritt. Der traditionelle Fokus lag darauf, die richtigen Reparaturen mit möglichst geringer Störung des normalen Betriebs durchzuführen.

Beachten Sie die Unterscheidung zwischen Zuverlässigkeit und Verfügbarkeit: Zuverlässigkeit misst die Fähigkeit eines Systems, ordnungsgemäß zu funktionieren, einschließlich der Vermeidung von Datenkorruption, während Verfügbarkeit die Häufigkeit misst, mit der das System zur Verwendung verfügbar ist, auch wenn es möglicherweise nicht ordnungsgemäß funktioniert. Beispielsweise kann ein Server für immer ausgeführt werden und daher eine ideale Verfügbarkeit aufweisen, jedoch unzuverlässig sein und häufig Daten beschädigen.

Fehlertypen

Physikalische Fehler können vorübergehend oder dauerhaft sein.

  • Permanenter Fehler führen zu einem anhaltenden Fehler und sind in der Regel aufgrund einer gewissen physischen Versagen wie Metall Elektromigration oder dielektrischen Durchschlag.
  • Temporäre Fehler umfassen vorübergehende und intermittierende Fehler.
    • Vorübergehende (auch als weich bezeichnete ) Fehler führen zu unabhängigen einmaligen Fehlern und sind nicht auf permanente Hardwarefehler zurückzuführen. Beispiele hierfür sind Alpha-Partikel, die ein Speicherbit umdrehen, elektromagnetisches Rauschen oder Schwankungen der Stromversorgung.
    • Zeitweise auftretende Fehler treten aufgrund einer schwachen Systemkomponente auf, z. B. aufgrund einer Verschlechterung der Schaltungsparameter, was zu Fehlern führt, die wahrscheinlich erneut auftreten.

Fehlerantworten

Vorübergehende und intermittierende Fehler können typischerweise durch Erkennen und Korrigieren durch z. B. ECC-Codes oder Befehlswiedergabe behandelt werden (siehe unten). Permanente Fehler führen zu nicht korrigierbaren Fehlern, die durch Ersetzen durch doppelte Hardware, z. B. Prozessorschonung, oder durch Weitergabe des nicht korrigierbaren Fehlers an Wiederherstellungsmechanismen auf hoher Ebene behoben werden können. Ein erfolgreich korrigierter intermittierender Fehler kann auch dem Betriebssystem (OS) gemeldet werden , um Informationen für die prädiktive Fehleranalyse bereitzustellen .

Hardwarefunktionen

Beispiele für Hardwarefunktionen zur Verbesserung von RAS sind die folgenden, nach Subsystemen aufgelisteten:

Fehlertolerante Designs erweiterten die Idee, indem sie RAS zum bestimmenden Merkmal ihrer Computer für Anwendungen wie Börsen oder Flugsicherung machten , bei denen Systemabstürze katastrophal wären. Fehlertolerante Computer (siehe z. B. Tandemcomputer und Stratus-Technologien ), bei denen aus Gründen der Zuverlässigkeit in der Regel doppelte Komponenten im Sperrschritt ausgeführt werden, sind aufgrund ihrer hohen Kosten weniger beliebt. Hochverfügbarkeitssysteme , die verteilte Computertechniken wie Computercluster verwenden , werden häufig als billigere Alternativen verwendet.

Siehe auch

Verweise

Externe Links