Adaptive Cruise Control (ACC) SSC-Services ist für die Entwicklung und den produktiven Betrieb einer Vielzahl von Softwarekomponenten verantwortlich. Dabei kommen umfangreiche Monitoring-Lösungen zum Einsatz, sodass eine Person meist für viele Systeme verantwortlich ist. Im Zuge dessen muss viel Zeit für die Pflege von Alerting-Regeln aufgewendet werden, um etwaige Probleme bzgl. der Systemstabilität abzudecken.
Dieses Problem lässt sich als Anomalie-Erkennung formulieren und so bspw. mit der automatischen Erkennung von Kreditkartenbetrug vergleichen. Aufgrund der großen verfügbaren Datenmenge ist das Problem ideal für Machine Learning (ML) geeignet.
In diesem Quick Check wurden verschiedene Machine-Learning-Ansätze und Methoden zur Anomalie-Erkennung erprobt und miteinander verglichen.
Anhand der durch das Monitoring-System aufgezeichneten Daten, wie CPU-Auslastung oder Festplattenaktivität, ist ein reichhaltiger Zeitreihendatensatz entstanden: In gesetzten Zeitintervallen sind diverse Informationen über den Systemzustand vorhanden.
Da sich Systemabstürze schon im Voraus in Systemdaten widerspiegeln, oft nach denselben Mustern, soll durch ML, ein Systemabsturz so lange wie möglich im Voraus prädiziert werden.
Konkret werden drei Ansätze erprobt:
SSC-Services lieferte Zeitstempel, die ungewollte Systemzustände beschreiben. Aus diesen wurden Remaining Useful Lifetime-Label (RUL) erstellt. Die RUL beschreibt die Zeitschritte im Datensatz, bis zu einem ungewollten Systemzustand. Die Supervised und Deep Learning Modelle wurden anhand ihres Vermögens die RUL zu prädizieren, evaluiert. Der Unsupervised Ansatz benötigt keine Labels und wurde anhand des Rekonstruktionsfehlers evaluiert.
Aus Zeitintervallen von einer Stunde konnten die Modelle keine zuverlässigen Prädiktionen liefern. Allerdings konnte auf einem Referenzdatensatz in 5-min. Intervallen gezeigt werden, dass die Modelle besser abschneiden würden. SSC-Services wird daher Systemdaten in einer 5-min. Zeitauflösung aufnehmen. In einem Exploring Project werden die besser abschneidenden Modelle anschließend weiterentwickelt.
Eine Monitoringlösung mit Frühwarnsystem kann softwareunabhängig auf Systeminfrastrukturen eingesetzt werden und verhindert kostennegative Totalausfälle des Systems. Ebenso besteht eine bessere Skalierbarkeit sowie die Absicherung vor menschlichen Fehlern. Weiterhin kommt es zu einer Arbeitsentlastung, da falsch-positive Alert-Nachrichten aus bisherigen Monitoringsystemen umgangen werden können. Ebenso können unattraktive Arbeiten, wie das händische Überwachen, vermieden werden.