Aktuelles Thema: Performance Monitoring

Die Kunst beim Monitoring liegt darin, mit wenigen Schlüsselinformationen die wesentlichen Fragen zu beantworten. Für unsere Produkte haben wir uns daher genau angeschaut, welche Daten relevant sind, um einen aus mehreren Rechnern bestehenden Cluster mit vielen verschiedenen Anwendungen zu analysieren. Anhand der daraus entwickelten Werkzeuge bekommen Sie schnell eine Übersicht, ob und wie die Anwendungen funktionieren bzw. was bei Ausfällen passiert ist.

Sowohl OSL Storage Cluster (SC) als auch OSL Unified Virtualisation Environment (UVE) sind mit integrierten Performance-Monitoring-Tools ausgerüstet. Diese verhalten sich im Wesentlichen ähnlich. Die OSL-Performance-Monitoring-Werkzeuge sind auf die Besonderheiten der OSL-Clusterengine optimal abgestimmt.

Vorteile des OSL-Performance-Monitorings

  • ausführliche Datenerfassung

  • langfristige Speicherung in speicherschonenden Formaten

  • performante Abfragen

  • Darstellung im CLI und GUI-Interface

  • automatische Datensammlung

  • kurze Zeitintervalle

Einrichtung und Funktionsweise

Weder im OSL Storage Cluster noch in der UVE müssen zusätzliche Softwarepakete oder Agenten installiert werden. Live-Daten (die letzten 60 Minuten) sind mit einer Auflösung von 2 bzw. 4 Sekunden im Rahmen der WebGUI-Applikation zugreifbar; für die langfristige Aggregation und Archivierung von Daten muss einmalig ein dediziertes Application Volume für die Datenablage konfiguriert werden. Die Performancedaten werden von allen Knoten durch die Clusterengine permanent bereitgestellt. Sie „verfallen“, sobald sie nicht abgegriffen werden. Dieses Abgreifen erfolgt durch die bereits erwähnte WebGUI-Anwendung uvs-net (UVE) bzw. sc-wui (SC). Die Live-Daten für die letzte Stunde sind dabei flüchtig, die für die Langfristarchivierung vorgesehen Daten werden mit einer Auflösung von 60 Sekunden auf dem dafür vorgesehen Volume in einem optimierten Binärformat gespeichert.

Sammelintervalle und Abfragemöglichkeiten

Hier wird zwischen der Häufigkeit der Messungen (measurement frequency) und den Sammelintervallen (collection intervals) unterschieden. Typischerweise werden die Performancedaten in bestimmten vordefinierten Abständen gesammelt. Danach werden sie aggregiert, aufbereitet und archiviert. Die Archivlänge ist abhängig von der Speicherdauer und dem Datenumfang. Wenn es um die Daten für eine Minute geht, können die Messwerte für einen Endwert aus 60 einzelnen einmal pro Sekunde gemessenen Werten entstehen. Alternativ wird eine einmalige Stichprobe genommen.

Bei OSL werden für die Analyse der Daten zwei Arten zur Verfügung gestellt:

  1. Live-Daten: Diese sind für die Beurteilung der aktuellen Situation auf dem jeweiligen System gedacht. Dafür stehen für die letzte Stunde Daten mit sehr hoher Auflösung zur Verfügung. Im OSL SC beträgt das Messintervall zwei Sekunden und im OSL UVE vier Sekunden.

  2. History-Daten: Um etwaige Problemsituationen in der Vergangenheit analysieren zu können, werden diese Daten für eine langen Zeitraum gespeichert. Die Speicherung der History-Daten erfolgt dabei in einem speicherschonenden und schnell zugreifbaren Binärformat.
    Dafür werden die Daten zu Datensätzen mit einer Auflösung von einer Minute zusammengefasst. Er besteht aus den Minimal-, Maximal- und Durchschnittswerten, so dass auch das Problem der im "durchschnittlich nur 40 cm tiefen Teich ertrunkenen Kuh" erfasst werden kann. Diese Langfristdaten beinhalten die minütlichen Performancewerte seit Beginn der Aufzeichnung und können mehrere Jahren umfassen.

So kann ein RZ-Administrator die Performancedaten nicht nur live mitverfolgen, sondern ist außerdem in der Lage, diese zu jedem späteren Zeitpunkt graphisch aufbereitet oder auf der Kommandozeile nachzuvollziehen.

Die Bedienung über die WebGUI erlaubt die Auswahl verschiedener Zeitabschnitte:

  • Live: 1 Stunde, 20 oder 10 Min

  • History: 5 Stunden, 1 Tag, 1 Woche, 1 Monat, 1 Jahr oder benutzerdefiniert.

Metrikgruppen und Objekte des Monitorings

Die Performancestatistiken werden für verschiedene Metrikgruppen erfasst. Zu den typischen Metrikgruppen gehören die Prozessor- und Memory-Auslastung, Netzwerk- und I/O-Durchsätze. Objekte für die Performancestatistiken können beispielsweise Knoten, VMs, physikalische Festplatten, Netzwerkadapter, Volumes oder ganze Cluster sein. Die Datenquelle kann beispielsweise aus einem Hardware-Performance-Monitor oder aus einer Clusterengine kommen.

Im SC werden Performancestatistiken für alle Clusterknoten aufgezeichnet. In den UVE-Umgebungen werden diese um Performancedaten für die virtuellen Maschinen erweitert. Die Messdaten sowohl für Knoten als auch für VMs enthalten die Werte zu:

  • CPU-Auslastung in %
  • Memory-Auslastung in %
  • Block-I/O in Blöcken/s
  • Netzdurchsatz in Kbytes/s

Was die Performancestatistiken für virtuelle Maschinen angeht, so ist zu beachten, dass das OSL-Monitoring die Auslastung der im Hypervisor konfigurierten Ressourcen aus der Sicht des Hypervisor-Betriebssystems anzeigt. Es ist also die Perspektive des Knotens, auf dem die VM läuft, und nicht die Perspektive des Gastbetriebssystems der VM. Insbesondere beim Memory kann das weit auseinander laufen.

Datenvisualisierung

In den Performance Charts der OSL WebGUI teilen sich virtuelle Maschinen ein Diagramm und können somit einzeln als auch kommulativ analysiert werden. Des Weiteren gibt es die Möglichkeit den Betrachtungszeitraum zu ändern, um einen größeren Überblick oder aber eine genauere Auflösung zu erhalten. Insbesondere die grafische Visualisierung der Performance lässt oft eine intuitive Erfassung von Problemsituationen zu.