MTTR – Mean Time to Recovery
Inhaltsverzeichnis
Die Bedeutung der Mean Time to Recovery
Mit MTTR wird die Zeit gemessen, die benötigt wird, bis sich eine Anlage o.ä. nach Erkennung eines Geräteausfalls erholt hat. „Erholt“ bezieht sich in diesem Zusammenhang auf die Benutzererfahrung. Erst wenn die Benutzer das System wieder verwenden können, ist das System erholt.
Die MTTR-Metrik ist eine gute Möglichkeit, die Fähigkeiten und Flexibilität der Unternehmensorganisation zu messen. Logischerweise ist die MTTR besser, je kürzer die Zeit zur vollständigen Erholung ausfällt. Durch gewonnene Routine in den Reparaturabläufen sollte sich die Mean Time to Recovery mit der Zeit verkürzen.
Wie dokumentiert Ihr Unternehmen einen Fehler?
Viele Unternehmen verwenden IT Service Management Tools, um sog. Tickets zu erstellen, wenn ein Fehler gemeldet werden soll. Tickets werden in der Regel von einer zuständigen Person erstellt oder die Ticketerstellung kann durch Überwachungssysteme automatisiert werden.
Ganz egal welchen Vorgang Ihr Unternehmen bevorzugt, die „Uhr“ der MTTR-Rechnung startet bei er ersten Erkennung und Aufzeichnung eines Problems eines jeden einzelnen Ausfallereignis.
Gleichzeitig ist es wichtig, dass die Aufzeichnungsuhr stoppt, sobald das Problem gelöst wurde. Dabei sollte für die Fehler- und die Lösungsmeldung das gleiche Ticketsystem verwendet werden. Wenn MTTR nicht bewusst und korrekt gemisst wird, besitzen Unternehmen keinen klaren Überblick über potenzielle Verbesserung und Prozessentwicklung.
Warum ist eine MTTR-Messung so wichtig?
Es gibt zwei wichtige Argumente, die dafür sprechen, die MTTR in den Fokus einer Instandhaltungsstrategie zu stellen:
Leistungseinbußen und Totalausfälle
Unternehmenskritische Systeme müssen überwacht werden, um auf Leistungseinbußen und Totalausfälle reagieren zu können. Dabei sind Kennzahlen wie Reaktionszeiten, Fehler und Anforderungen pro Zeit bedeutend für die Messung. Diese Kennzahlen liefern den Teams Informationen, die zur Verbesserung der Leistung und Zuverlässigkeit genutzt werden können.
Betriebs- und Entwicklungsteams nutzen die MTTR zur Unterstützung von Verträgen wie Service Level Agreements. SLAs können nur durchgeführt werden, wenn die Verfügbarkeit gemessen wird. Es ist demnach unmöglich, die Verfügbarkeit zu verbessern, wenn sie im Vorfeld nicht gemessen wird.
Wahrnehmung der Kunden
Im Vergleich zu anderen ebenfalls wichtigen KPI in der Instandhaltung wie MTBF usw. ist Mean Time To Recovery hinsichtlich der Kundenzufriedenheit am effizientesten, da kürzere Störungen weniger auffällig sind:
Wenn WhatsApp beispielsweise alle drei Jahre einmal down war, aber es einen ganzen Tag lang dauerte, bis die Ursache erfolgreich behoben werden konnte, werden sich die Verbraucher für die 3 Jahre mit reibungslosem Ablauf wenig interessieren. Alles worüber gesprochen wird, ist die lange Erholungszeit.
Wenn WhatsApp jedoch dreimal am Tag für weniger als 30 Sekunden ausfallen würde, wäre dies kaum bemerkbar.
Wenn Sie die Erholungszeiten nach einem Systemausfall langfristig minimieren, wird das die Kundenzufriedenheit maßgeblich fördern.
Berechnung der Mean Time to Recovery
Angenommen, ein System hat 18 Ausfälle in einem Zeitraum von 90 Tagen (siehe Diagramm unten).
Die mittlere bzw. die durchschnittliche Zeit zwischen Erkennung und Erholung beträgt 51 Minuten, sodass die MTTR für diesen 90-tägigen Zeitraum 51 Minuten beträgt.
MTTR = Gesamtzeit (Erkennung bis Erholung) / Anzahl der Anlagenausfälle
Verbesserung der MTTR
Messungen
Der erste Schritt zur Verbesserung der MTTR ist die Messung. Nur ein ausreichend großer Datensatz, einschließlich Ausfälle im Laufe der Zeit, liefert ein genaues Bild der MTTR.
Dokumentationen
Das Wichtige an Mean Time to Recovery-Kennzahlen ist, dass Ausfall- und Wiederherstellungszeiten für die Komponenten erfasst und dokumentiert werden. Ohne Messungen kann keine Verbesserung erfolgen. Es muss demnach sichergestellt werden, dass die MTTRs korrekt definiert und dokumentiert sind! Der beste Weg, die MTTR insgesamt zu verbessern, ist einen Ausfall nach dem anderen zu betrachten.
Jeder Ausfall ist ein individuelles Ereignis, kann jedoch eine gemeinsame Grundursache besitzen. Demnach sollten der Fehler und alle Details, die ihn umgeben, in die Dokumentation mit aufgenommen werden. Die Schritte, die zur Lösung des Problems verwendet wurden, können ebenfalls ein nützlicher Zusatz in der Dokumentation darstellen.
Interne Betriebsabläufe
Das interne Unternehmensteam sollte über die Bandbreite verfügen, um Fehler zu lösen, sobald sie auftreten. Wenn die eigenen DevOps-Teams überlastet sind, können diese nicht schnell auf kritische Warnmeldungen reagieren und die MTTR wird sich verschlechtern.
Vorsicht: Verwechslungsgefahr!
Es ist wichtig zu verstehen, dass es verschiedene Bedeutungen für das Akronym MTTR gibt:
- Mittlere Reparaturzeit – Mean Time To Repair
- Mittlere Reaktionszeit – Mean Time To Respond
Mean Time To Repair bezieht sich dabei auf die Zeit, die benötigt wird, ein System zu reparieren und die volle Funktionalität wiederherzustellen.
Die mittlere Reaktionszeit (Mean Time To Respond) bezieht sich in der Regel auf die Zeit, bevor Ihre Instandhaltungsorganisation jemanden entsendet, der sich mit dem Problem befasst. Mean Time To Respond ist bei Standardwartungsverträgen für Geräte wie Drucker, bei denen der Zusteller beispielsweise verspricht, dass jemand Ihr Problem innerhalb von 4 Stunden untersuchen wird.
Messung der MTTR als erster Schritt zur Verbesserung
Es ist nicht möglich, etwas zu verbessern, was nicht gemessen wird. Ohne Instandhaltungs-KPIs sind Unternehmen blind gegenüber Verbesserungen und Prozessentwicklungen. Aufgrund fehlender Metriken haben Sie keine Kenntnis darüber, ob Ihre DevOps-Initiative tatsächlich dazu beiträgt, was Sie von Ihr erwarten. Gleichzeitig werden sie eventuell nicht wissen, ob Problembereiche existieren, die dringend Ihre Aufmerksamkeit erfordern. Bevor Sie Ihre Kennzahlen also auswählen, sollten Sie sich einen Überblick verschaffen, welche für Ihr Unternehmen am relevantesten sind.
Die Messung von MTTR ist der erste Schritt zur Verbesserung, um die individuellen Ausfallzeiten langfristig zu verkürzen. MTTR wird natürlich auch unter Berücksichtigungen wie der Komplexität der Codebasis, der Anzahl potenzieller hinzu gekommener Funktionen oder operativen Änderungen usw. beeinflusst.
Fazit
Die Mean Time To Recovery (MTTR) ist ein wichtiger Instandhaltungs-KPI, der die Zeit zwischen dem Erkennen eines Ausfalls und der vollständigen Wiederherstellung misst. Besonders im Rahmen von Service Level Agreements und Wartungsverträgen ist die MTTR eine bedeutende Metrik. Sie dient dazu, die Fähigkeiten und Flexibilität eines Unternehmens zu bewerten und die Effizienz der Reparaturprozesse zu messen.
Hierbei deutet eine kürzere MTTR auf eine schnellere Wiederherstellung hin. Die Messung und Dokumentation der Ausfall- und Wiederherstellungszeiten ist entscheidend, um die MTTR korrekt zu erfassen. Insgesamt können Unternehmen die MTTR nutzen, um die Kundenzufriedenheit zu verbessern, da kürzere Ausfallzeiten weniger auffällig sind. Des Weiteren ist wichtig, die MTTR nicht mit der mittleren Reaktionszeit (Mean Time To Respond) zu verwechseln.
Die Verbesserung der MTTR erfordert eine umfassende Messung, eine effiziente interne Organisation und eine gezielte Analyse von Einzelfällen. Daher sollten Unternehmen die MTTR als Teil ihrer Instandhaltungsstrategie betrachten und kontinuierlich nach Möglichkeiten zur Verbesserung suchen.
FAQ
Was bedeutet MTTR?
Mean Time To Repair oder auch Mean Time To Recover (MTTR) bezeichnet eine zentrale Kennzahl in der Instandhaltung, welche die durchschnittliche Zeit misst, die für die Fehlersuche samt Reparatur einer ausgefallenen Maschine bzw. technischen Anlage angefallen ist.
Wie wird MTTR berechnet?
MTTR ergibt sich aus der Division der gesamten Ausfallzeit, die für eine Anlage innerhalb einer Laufzeit angefallen ist und der Gesamtanzahl der Ausfälle, die diese Anlage innerhalb des gleichen Zeitraums erlebt hat. Sprich, MTTR = (Gesamtaufallzeit / Anzahl der Ausfälle).
Warum ist MTTR wichtig?
MTTR kann als Indikator verwendet werden, um Entscheidungen über die Reparatur oder den Ersatz einer Maschine bzw. Anlage zu treffen. Gleichzeitig dient die Metrik als Grundlage für die Effizienzsteigerung von Maschinen sowie technischen Anlagen.
Wie kann MTTR reduziert werden?
MTTR liefert Hinweise auf Prozessverbesserungen, die wiederum durch die Beschleunigung der Reparaturen und ein besseres Störungsmanagement erreicht werden können.
Wie wird MTTR gemessen?
Das Ergebnis der MTTR wird in der Regel in Stunden ausgegeben. Dabei beginnt die Zeiterfassung mit der Reparatur und endet, wenn der Betrieb wieder komplett aufgenommen wird. Die Kennzahl beinhaltet somit neben der Reparaturzeit auch die Prüfzeit und die Zeit für die Rückkehr in den gewöhnlichen Betriebszustand.
Websession: MTTR – Mean Time to Recovery
Sie haben Fragen oder möchten mehr über MTTR erfahren? Vereinbaren Sie eine kostenlose Websession mit uns. Ich freue mich auf den Austausch mit Ihnen.