Intermittierender Fehler - Intermittent fault

Ein intermittierender Fehler , der oft einfach als "intermittierend" bezeichnet wird, ist eine Fehlfunktion eines Geräts oder Systems, die in Intervallen, normalerweise unregelmäßig, in einem Gerät oder System auftritt, das zu anderen Zeiten normal funktioniert. Intermittierende Fehler sind zu allen Zweigen der gemeinsamen Technologie , einschließlich Computer - Software . Ein intermittierender Fehler wird durch mehrere Faktoren verursacht, von denen einige effektiv zufällig sein können und die gleichzeitig auftreten. Je komplexer das System oder der Mechanismus ist, desto größer ist die Wahrscheinlichkeit eines zeitweiligen Fehlers.

Intermittierende Fehler sind aufgrund ihrer komplizierten Verhaltensmuster nicht leicht zu wiederholen. Diese werden manchmal auch als „weiche“ Fehler bezeichnet, da sie sich nicht immer manifestieren und auf unvorhersehbare Weise verschwinden. Im Gegensatz dazu sind „harte“ Fehler dauerhafte Fehler, die über einen bestimmten Zeitraum auftreten (oder manchmal sofort auftreten). Sie haben eine bestimmte Fehlerstelle (Fehlerstelle), einen bestimmten Modus (wie sich der Fehler manifestiert) und einen bestimmten Mechanismus, und es gibt keine unvorhersehbare Wiederherstellung für das ausgefallene System. Da intermittierende Fehler nicht leicht wiederholbar sind, ist es schwieriger, eine Fehleranalyse für sie durchzuführen, ihre Grundursachen zu verstehen oder ihre Fehlerstelle zu isolieren, als dies bei dauerhaften Fehlern der Fall ist.

Intermittierende Ausfälle können eine Ursache für das Auftreten von NFF -Fehlern ( No-Fault-Found ) in elektronischen Produkten und Systemen sein. NFF impliziert, dass während der Verwendung eines Produkts ein Fehler (Fehler) aufgetreten ist oder gemeldet wurde. Das Produkt wurde analysiert oder getestet, um den Fehler zu bestätigen, es konnte jedoch kein „Fehler oder Fehler“ gefunden werden. Ein häufiges Beispiel für das NFF-Phänomen tritt auf, wenn Ihr Computer auflegt. Es ist klar, dass ein „Fehler“ aufgetreten ist. Wenn der Computer jedoch neu gestartet wird, funktioniert er häufig erneut. Die Auswirkungen von NFF und zeitweiligen Ausfällen können tiefgreifend sein. Aufgrund ihrer Eigenschaften können Hersteller eine Ursache (n) annehmen, anstatt Zeit und Kosten für die Ermittlung einer Grundursache aufzuwenden. Beispielsweise behauptete ein Festplattenlieferant, NFFs seien keine Fehler, und erlaubte die Rückgabe aller NFF-Produkte an das Feld. Später wurde festgestellt, dass diese Produkte eine signifikant höhere Rücklaufquote aufwiesen, was darauf hindeutet, dass der NFF-Zustand tatsächlich auf zeitweise auftretende Fehler im Produkt zurückzuführen ist. Das Ergebnis waren erhöhte Wartungskosten, verringerte Geräteverfügbarkeit, erhöhte Unannehmlichkeiten für Kunden, verringertes Kundenvertrauen, beschädigter Ruf des Unternehmens und in einigen Fällen potenzielle Sicherheitsrisiken.

Ein einfaches Beispiel für eine effektiv zufällige Ursache in einem physikalischen System ist eine elektrische Grenzverbindung in der Verkabelung oder einer Komponente eines Stromkreises , bei der ( Ursache 1 , die Ursache, die identifiziert und behoben werden muss) zwei Leiter sich berühren können ( Ursache 2) (die nicht identifiziert werden müssen) eine geringfügige Änderung von Temperatur, Vibration, Ausrichtung, Spannung usw. (Manchmal wird dies eher als "intermittierende Verbindung" als als "Fehler" beschrieben.) In Computersoftware kann ein Programm ( Ursache 1 ) fehlschlagen eine Variable zu initialisieren , die anfänglich Null sein muss; Wenn das Programm unter Umständen ausgeführt wird, bei denen der Speicher vor dem Start fast immer frei ist, kommt es in den seltenen Fällen zu Fehlfunktionen, dass ( Ursache 2 ) der Speicher, in dem die Variable gespeichert ist, zuvor ungleich Null war.

Intermittierende Fehler sind bekanntermaßen schwer zu identifizieren und zu reparieren (" Fehlerbehebung "), da nicht jeder einzelne Faktor das Problem alleine verursacht, sodass die Faktoren nur identifiziert werden können, während die Fehlfunktion tatsächlich auftritt. Die Person, die das Problem identifizieren und lösen kann, ist selten der übliche Bediener. Da der Zeitpunkt der Fehlfunktion ist unberechenbar, und beide Gerät oder System Ausfallzeiten und Zeit incur Ingenieure Kosten wird der Fehler oft nur geduldet , wenn nicht zu häufig , wenn es nicht akzeptabel Probleme oder Gefahren verursacht. Beispielsweise können einige zeitweise auftretende Fehler in kritischen Geräten, wie z. B. Geräten zur medizinischen Lebenserhaltung, zum Töten eines Patienten oder in der Luftfahrt dazu führen, dass ein Flug abgebrochen wird oder in einigen Fällen abstürzt.

Wenn ein intermittierender Fehler während der Fehlerbehebung lange genug auftritt, kann er auf die übliche Weise identifiziert und behoben werden.

Techniken zur Fehlerbehebung

Einige Techniken zur Behebung intermittierender Fehler sind:

  • Die automatische Protokollierung relevanter Parameter über einen ausreichend langen Zeitraum, damit sich der Fehler manifestiert, kann hilfreich sein. Parameterwerte zum Zeitpunkt des Fehlers können die Ursache identifizieren, sodass geeignete Abhilfemaßnahmen ergriffen werden können.
  • Ändern der Betriebsbedingungen, während der Fehler vorliegt, um festzustellen, ob der Fehler vorübergehend behoben wird. Zum Beispiel Gewindebohren, Abkühlen mit Gefrierspray, Erhitzen. Durch Schlagen auf den Schrank kann der Fehler vorübergehend behoben werden.
  • eine Datenbank mit ähnlichen Fehlern, die in identischen oder ähnlichen Geräten behoben wurden
  • Vorsichtsmaßnahmen, ohne zu versuchen, den Fehler zu lokalisieren. Zum Beispiel können Elektrolytkondensatoren , die hohen Welligkeitsströmen ausgesetzt sind, routinemäßig geändert werden, ohne sich die Mühe zu machen, den Fehler überhaupt zu beheben. Steckverbinder können getrennt und neu eingesetzt werden. Dies ist manchmal ein Maß an Verzweiflung; Dinge werden geändert, bis der Fehler nicht mehr auftritt, und es wird gehofft, dass er tatsächlich behoben wird und nicht inaktiv ist.
  • In elektrischen Systemen und Kabelsystemen können Zeitbereichsreflektometrietechniken verwendet werden: Impulse werden über elektrische Leitungen gesendet und die zurückreflektierten Impulse werden auf Anomalien untersucht, beispielsweise auf intermittierende Leckage während der Belastungen des Flugzeugbetriebs; Dies kann jeweils nur für einen Testkanal durchgeführt werden und ist im Allgemeinen auf intermittierende Fehler> 100 Millisekunden beschränkt.
  • In komplexen Mehrkanalsystemen, in denen sich der / die Fehler in einer Verbindung befinden könnten, besteht die ideale Methode zum Auffinden eines intermittierenden Fehlers darin, alle Kanäle oder elektrischen Pfade kontinuierlich und gleichzeitig überwachen, erkennen und isolieren zu können. Diese Methodik ermöglicht es dem zu testenden System, von einer kontinuierlichen und vollständigen Testabdeckung zu profitieren, während jegliche Umweltbelastung des Systems durchgeführt wird. Dieser Typ kann nicht mit der Scan-Testtechnologie durchgeführt werden, sondern muss über ein elektronisches neuronales Netzwerk verfügen, das diese Tests ohne Scannen und / oder digitale Mittelwertbildung durchführen kann. Dieses Testregime wird durch das im März 2015 veröffentlichte MIL-PRF-32516 des Verteidigungsministeriums abgedeckt. Es fordert, dass die Testtechnologie in der Klasse 1 betrieben wird, um zeitweise auftretende Fehler wirksam zu bekämpfen.
  • Drei Hauptmethoden zur Minderung des intermittierenden Verhaltens in integrierten Schaltkreisen sind dynamische Befehlsverzögerung, Kernfrequenzskalierung und Thread-Migration. Wenn der Prozessor mehr als die erwartete Zeit zum Ausführen eines Prozesses benötigt, treten Zeitverzögerung und Zeitverletzung auf. Dieser Fehler kann durch Verwendung von Techniken wie dynamischer Befehlsverzögerung vermieden werden. Dies ist eine Art Algorithmus, der die Planungsprioritäten während der Ausführung des Systems berechnet. Ziel ist es, dynamisch auf die sich ändernden Bedingungen zu reagieren und eine autarke, optimierte Konfiguration zu bilden. Ein weiterer Ansatz zur Verringerung der Verzögerung ist die Kernfrequenzskalierung, bei der die Leistung der CPU auf eine niedrigere Frequenz reduziert wird, wenn weniger benötigt wird, und auf eine höhere Frequenz skaliert wird, wenn mehr benötigt wird. Die Thread-Migration ist eine weitere Technik zur Überwindung von zeitweiligen Fehlern. Ein Thread ist ein geordneter Befehlssatz, der einem Computer genau sagt, was zu tun ist. Wenn ein bestimmter Thread auf Fehler stößt, wird der Inhalt des Threads innerhalb des fehlerhaften Computerkerns auf einen anderen Thread innerhalb eines Leerlaufkerns übertragen, wo das Problem behoben und behoben wird.

Verweise

  1. ^ a b Bakhshi, Roozbeh; Kunche, Surya; Pecht, Michael (18.02.2014). "Intermittierende Fehler in Hardware und Software". Zeitschrift für elektronische Verpackung . 136 (1): 011014. doi : 10.1115 / 1.4026639 . ISSN  1043-7398 .
  2. ^ Qi, H.; Ganesan, S.; Pecht, M. (Mai 2008). "Keine Fehler gefunden und zeitweise Fehler in elektronischen Produkten". Zuverlässigkeit der Mikroelektronik . 48 (5): 663–674. doi : 10.1016 / j.microrel.2008.02.003 .
  3. ^ Beispiel eines intermittierenden TV-Fehlers in einer Datenbank "Archivierte Kopie" . Archiviert vom Original am 13.04.2009 . Abgerufen am 19.07.2010 .CS1-Wartung: Archivierte Kopie als Titel ( Link ): "Z3T-FAHRGESTELL - KEIN START - UNTERBROCHEN. D1124 (5,1 V) ZENER LEAKY"
  4. ^ "Spread Spectrum Time Domain Reflectometry zur Lokalisierung intermittierender Fehler, archiviert am 01.05.2010 bei Archive.today " Furse, Cynthia; Smith, Paul; IEEE SENSORS JOURNAL, VOL. 5, NO. 6, DEZEMBER 2005 "
  5. ^ "Kein Fehler gefunden, erneuter Test OK, kann nicht dupliziert werden oder Fehler nicht gefunden? - Auf dem Weg zu einer standardisierten Taxonomie [1] " Samir Khan, Paul Phillips, Chris Hockley, Ian Jennions "

Externe Links