Problemmanagement - Problem management

Problem Management ist der Prozess, der für die Verwaltung des Lebenszyklus aller Probleme verantwortlich ist, die in einem IT-Service auftreten oder auftreten könnten. Die Hauptziele des Problemmanagements sind die Verhinderung von Problemen und daraus resultierenden Vorfällen, die Beseitigung wiederkehrender Vorfälle und die Minimierung der Auswirkungen von Vorfällen, die nicht verhindert werden können. ITIL definiert ein Problem als Ursache für einen oder mehrere Vorfälle .

Umfang

Das Problemmanagement umfasst die Aktivitäten, die erforderlich sind, um die Hauptursache von Vorfällen zu diagnostizieren, die durch den Incident Management- Prozess identifiziert wurden, und um die Lösung für diese Probleme zu ermitteln. Es ist auch dafür verantwortlich, dass die Lösung durch die entsprechenden Kontrollverfahren, insbesondere Change Management und Release Management, umgesetzt wird .

Das Problemmanagement verwaltet auch Informationen zu Problemen sowie die entsprechenden Problemumgehungen und Lösungen, damit die Organisation die Anzahl und die Auswirkungen von Vorfällen im Laufe der Zeit reduzieren kann. In dieser Hinsicht verfügt das Problem Management über eine starke Schnittstelle zum Wissensmanagement , und Tools wie die Datenbank für bekannte Fehler werden für beide verwendet. Obwohl Incident Management und Problem Management separate Prozesse sind, sind sie eng miteinander verbunden und verwenden in der Regel dieselben Tools. Möglicherweise werden ähnliche Kategorisierungs-, Auswirkungs- und Prioritätscodierungssysteme verwendet. Dies gewährleistet eine effektive Kommunikation bei der Behandlung verwandter Vorfälle und Probleme.

Wert für das Geschäft

Problem Management arbeitet mit Incident Management und Change Management zusammen, um sicherzustellen, dass die Verfügbarkeit und Qualität von IT-Services erhöht wird. Wenn Vorfälle behoben werden, werden Informationen zur Lösung aufgezeichnet. Mit der Zeit werden diese Informationen verwendet, um die Lösungszeit zu verkürzen und dauerhafte Lösungen zu identifizieren, wodurch die Anzahl und die Lösungszeit von Vorfällen verringert werden. Dies führt zu weniger Ausfallzeiten und weniger Störungen bei geschäftskritischen Systemen.

Prozessaktivitäten, Methoden und Techniken

Das Problemmanagement besteht aus zwei Hauptprozessen:

Problemerkennung

  • Verdacht oder Erkennung einer Ursache für einen oder mehrere Vorfälle durch den Service Desk , was dazu führt, dass ein Problemdatensatz erstellt wird - Service Desk hat den Vorfall möglicherweise behoben, jedoch keine endgültige Ursache ermittelt und vermutet, dass er wahrscheinlich erneut auftritt.
  • Analyse eines Vorfalls durch eine technische Support-Gruppe, aus der hervorgeht, dass ein zugrunde liegendes Problem vorliegt oder wahrscheinlich besteht.
  • Automatische Erkennung eines Infrastruktur- oder Anwendungsfehlers mithilfe von Ereignis- / Alarmtools, um automatisch einen Vorfall auszulösen, der möglicherweise die Notwendigkeit eines Problemdatensatzes aufzeigt .
  • Eine Benachrichtigung eines Lieferanten oder Auftragnehmers, dass ein Problem vorliegt, das behoben werden muss.
  • Analyse von Vorfällen im Rahmen eines proaktiven Problemmanagements: Watch-Bulletins, Veröffentlichungen, relevante Dokumente

Problemprotokollierung

Alle relevanten Details des Problems müssen aufgezeichnet werden, damit eine vollständige historische Aufzeichnung vorhanden ist. Dies muss mit Datums- und Zeitstempel versehen sein, um eine angemessene Kontrolle und Eskalation zu ermöglichen. Es muss ein Querverweis auf die Vorfälle gemacht werden, die den "Problem Record" ausgelöst haben:

  • Servicedetails
  • Ausrüstungsdetails
  • Datum / Uhrzeit der ersten Protokollierung
  • Prioritäts- und Kategorisierungsdetails
  • Beschreibung des Vorfalls
  • Details zu allen durchgeführten Diagnose- oder Wiederherstellungsversuchen.

Problempriorisierung

Probleme können auf die gleiche Weise wie Vorfälle nach ihrer Schwere und Priorität kategorisiert werden, um ihre Verfolgung zu erleichtern, wobei die Auswirkungen der damit verbundenen Vorfälle und ihre Häufigkeit des Auftretens berücksichtigt werden. Aus infrastruktureller Sicht kann man fragen:

  • Kann das System wiederhergestellt werden oder muss es ersetzt werden?
  • Wie viel wird es kosten?
  • Wie viele Personen werden benötigt, um das Problem zu beheben?
  • Wie lange dauert es, um das Problem zu beheben?
  • Wie viele zusätzliche Ressourcen werden beteiligt sein?
  • Welche Auswirkungen hat es, wenn das Problem nicht gelöst wird?

Problemuntersuchung und Diagnose

Das Ergebnis einer Untersuchung auf ein Problem ist eine Grunddiagnose oder ein RCA-Bericht. Die Entschließung sollte die Summe der angemessenen Ressourcen und Fähigkeiten sein, die verwendet werden, um sie zu finden. Es gibt eine Reihe nützlicher Problemlösungstechniken, die zur Diagnose und Lösung von Problemen verwendet werden können.

  • Das Configuration Management System (CMS) muss verwendet werden, um das Ausmaß der Auswirkungen zu bestimmen und den Fehlerpunkt zu lokalisieren.
  • Auf die Datenbank für bekannte Fehler oder KEDB sollte zugegriffen und überprüft werden, um festzustellen, ob das Problem in der Vergangenheit aufgetreten ist. In diesem Fall sollte bereits eine Lösung vorhanden sein.
  • Die chronologische Analyse der Ereignisse, die das Problem ausgelöst haben, wird in chronologischer Reihenfolge überprüft, um eine Zeitleiste der Ereignisse zu erhalten. Der Zweck besteht darin, zu sehen, welches Ereignis das nächste Ereignis usw. auslöst, oder einige mögliche Ereignisse auszuschließen.

Die Schmerzwertanalyse enthält eine breitere Sicht auf die Auswirkungen eines Vorfalls oder eines Problems auf das Unternehmen. Anstatt die Anzahl der Vorfälle / Probleme eines bestimmten Typs in einem bestimmten Zeitintervall zu analysieren, konzentriert sich die Technik auf eine eingehende Analyse, welche Schmerzen durch diese Vorfälle / Probleme für das Unternehmen verursacht wurden. Eine Formel zur Berechnung des Schmerzniveaus sollte Folgendes berücksichtigen:

  • die Anzahl der Betroffenen
  • die Dauer der verursachten Ausfallzeit
  • die Kosten für das Geschäft

Die Kepner- und Tregoe- Methode wird verwendet, um tief verwurzelte Probleme zu untersuchen. Sie definierten die folgenden Stufen:

  • das Problem definieren
  • Beschreibung des Problems in Bezug auf Identität, Ort, Zeit (Dauer) und Größe (Auswirkung)
  • Feststellung möglicher Ursachen
  • Testen der wahrscheinlichsten Ursache
  • Überprüfung der wahren Ursache

Die Pareto-Analyse oder das Pareto-Diagramm ist eine Technik zum Trennen wichtiger potenzieller Ursachen von trivialen Problemen. Folgende Schritte sollten unternommen werden:

  1. Bilden Sie eine Tabelle, in der die Ursachen und ihre Häufigkeit in Prozent aufgeführt sind
  2. Ordnen Sie die Zeilen in absteigender Reihenfolge der Wichtigkeit der Ursachen an (die wichtigste Ursache zuerst).
  3. Fügen Sie der Tabelle eine Spalte mit kumulativen Prozentsätzen hinzu
  4. Erstellen Sie ein Balkendiagramm mit den Ursachen in der Reihenfolge ihres Gesamtprozentsatzes
  5. Zeichnen Sie eine Linie mit 80% auf der Y-Achse und lassen Sie die Linie am Schnittpunkt mit der X-Achse fallen. In der Tabelle sehen Sie die Hauptursachen für die Netzwerkfehler. Diese sollten zuerst gezielt werden.
Netzwerkfehler
Ursachen Prozentsatz der Gesamtmenge Berechnung%
Netzwerk-Controller 35 0 + 35% = 35%
Dateibeschädigung 26 35% + 26% = 61%
Server-Betriebssystem 6 61% + 6% = 67%

Bekannte Fehleraufzeichnung

Nachdem die Untersuchung abgeschlossen ist und eine Problemumgehung (oder sogar eine dauerhafte Lösung) gefunden wurde, muss ein Datensatz für bekannte Fehler erstellt und in die Datenbank für bekannte Fehler gestellt werden, um weitere ähnliche Probleme zu identifizieren und zu beheben. Der Hauptzweck besteht darin, den betroffenen Dienst so schnell wie möglich mit minimalen Auswirkungen auf das Geschäft wiederherzustellen.

Eine gute Praxis wäre es, so früh wie möglich in der Untersuchung einen bekannten Fehlerbericht zu erstellen. Sobald eine Problemumgehung erfolgreich getestet oder eine Grundursache identifiziert wurde.

Hauptproblemüberprüfung

Es empfiehlt sich, alle wichtigen Probleme zu überprüfen. Das verursacht aber Kosten. Die Überprüfung sollte prüfen:

  • Die richtigen Schritte unternommen
  • Die Probleme bei der Implementierung der Lösung
  • Die Notwendigkeit, sich zu verbessern
  • Verhindern Sie das Wiederauftreten weiterer ähnlicher Vorfälle
  • An der Implementierung beteiligter Dritter / Anbieter / Lieferant

Das aus der Überprüfung gewonnene Wissen sollte in eine Serviceüberprüfung mit dem Geschäftskunden einbezogen werden, um sicherzustellen, dass der Kunde über die ergriffenen Maßnahmen und die Pläne zur Verhinderung künftiger ähnlicher Vorfälle informiert ist. Dies trägt zur Verbesserung der Kundenzufriedenheit bei und stellt sicher, dass Service Operations wichtige Vorfälle verantwortungsbewusst behandelt und aktiv daran arbeitet, künftige Wiederholungen zu verhindern.

Siehe auch

Verweise

  • Der neue Rational Manager - beschreibt KT-Problemlösung und Entscheidungsfindung (PSDM)
  • Offord, Paul (2011). RPR: Eine Problemdiagnosemethode für IT-Experten . Essex, England: Advance Seven Limited. ISBN   978-1-4478-4443-3 .