SunFire T5140 im Kurztest

Auf unseren in diesem Monat stattfindenden Technologietagen wird sie zu sehen sein: die SunFire T5140 aus der aktuellen SPARC Enterprise Server-Reihe. Bereits im Vorfeld hatten wir Gelegenheit, einige kurze Tests zum Handling durchzuführen und uns einen Eindruck von der Performance des Systems zu verschaffen.
Herzstück dieser Server-Reihe sind UltraSPARC T2 Plus Prozessoren der dritten Generation. Zwei Chips sind auf dem Motherboard des T5140 gesteckt. Jeder Prozessor hat 8 Kerne und Gleitkomma-Einheiten sowie 64 Ausführungsthreads und 4 MB Level 2 Cache. Welchen Eindruck das System sonst hinterlassen hat, nachfolgend in aller Kürze:

Das Gehäuse

Für den Einbau des Servers wird nur eine Höheneinheit im Rack benötigt. Das Metallgehäuse macht einen durch und durch soliden Eindruck. Leicht abbrechende Plastikteile (Blenden, Türen etc.) sind nicht aufgefallen. Frontseitig zugreifbar sind die internen Platten, das DVD-Laufwerk und zwei der vier USB 2.0 Ports.

Auch die Rückseite wirkt sehr aufgeräumt. Sie bietet folgende Schnittstellen bzw. Steckplätze:

  • 4 x Ethernet (10/100/1000)
  • 1 x seriell DB9
  • Expansion Slots (alle niedrige Bauhöhe):
    • 1 x PCIe mit 8 Lanes dediziert
    • 2 x PCIe mit 8 Lanes insgesamt oder 2 x XAUI Slots*
  • 2 x USB 2.0
  • ILOM (seriell und Ethernet)

Die USB-Ports sind nun auch bei Sun endlich 2.0-Ports. Ganz links im Bild die beiden leicht zu wechselnden Netzteile (siehe auch rechts unten).
*Mit XAUI lassen sich (max.) 2 x 10 GbE realisieren. Allerdings wird pro eingesteckter XAUI-Karte einer der 4 Ethernet-Ports automatisch abgeschaltet.

Das Gehäuse lässt sich sehr einfach und ohne Werkzeuge öffnen. Inzwischen bei Sun eine hilfreiche Tradition: Auf und unter der Abdeckung finden sich Skizzen, die die wichtigsten Handgriffe veranschaulichen (linkes Bild). Etliche Teile, so z. B. Lüfter (unten), Stromversorgungen (rechts) und die internen Platten lassen sich ohne Werkzeug tauschen. Besonders hervorzuheben: Das hervorragend gelöste Handling der redundant ausgelegten Stromversorgungen.
Leider fällt auch bei diesem Server das Arbeitsgeräusch der Lüfter, die doch des öfteren mit höheren Drehzahlen laufen, unangenehm auf. Im Rechenzentrum ist das tolerierbar, jedoch trotzdem unschön. Insbesondere ein relativ hohes "Fiepen" ist akustisch anstrengend. Vielleicht findet aber eines Tages deutsche Ingenieurskunst auf dem Gebiet von Elektromotoren und Aerodynamik den Weg zu Suns Entwicklungslabors, so dass auch bei niedriger Bauhöhe und kleinen Lüfterdurchmessern der Geräuschpegel etwas niedriger ausfallen kann.

Der ILOM

Auch bei der T5140 wird die bereits bekannte Remote-Management-Facility "ILOM (Integrated Lights Out Management)" in der Version 2.0 von Sun verwendet. Um alle Funktionalitäten zu verstehen, ist es in jedem Falle sinnvoll, die Dokumentation zur Hand zu haben. Der ILOM kann entweder direkt via Ethernet oder auch über V24 angeschlossen werden. Im Foto oben sind die Schnittstellen mit "SER MGT" bzw. "NET MGT" gekennzeichnet. Mitgeliefert werden passende Adapter RJ-45 auf DB-9 sowie auf DB-25, da der "SER MGT" Port nicht standardisiert ist.
Einmal konfiguriert kommt dann Freude auf. Die komplette Bedienung aus der Ferne inkl. Power-On/Off ist problemlos über den "NET MGT" Port möglich:

  • Anschalten des Systems: start /SYS
  • Ausschalten des Systems: stop /SYS
  • System-Konsole starten: start /SP/console


Auf der rechten Seite nochmals ein Bild der SunFire T5140 von oben mit geöffnetem Deckel.

Interne Platten

Bis zu 4 Platten lassen sich einbauen. Im Testsystem waren es zwei mit je 146 GB Kapazität.
Zum Einsatz kommen SAS-Platten im 2,5"-Format. Die Verwendung dieser Platten in Servern ist immer öfter zu beobachten. Die Platten sitzen trotz der bequemen Austauschbarkeit fest und sicher.
Dagegen wahrscheinlich nicht jedermanns Sache: Der "Einwurfschlitz" des DVD/CD Laufwerkes (siehe erstes Bild oben).

Installation und Test OSL Storage Cluster

Die Installation des OSL Storage Cluster war in 3 Minuten erledigt und verlief völlig problemlos. Ein erster Blick mit ndinfo zeigte uns dann auch die 128 CPUs an:

 

# ndinfo
DVSC node name:      big-5
OS node name:        big-5
Operating System:    SunOS
OS release:          5.10
hardware vendor:     Sun_Microsystems
hardware serial:     2229843062
CPU licence units:   10
number of (v)CPU's:  128
number of cores:     16
number of chips:     2
CPU  ISA:            sparcv9
CPU Type:            sparcv9
FPU Type:            sparcv9
CPU Clock (MHz):     1167
main memory (MByte): 32544
total swap  (MByte): 4104
offline method:      0
offline arguments:   ""

 

Der Server kam vorinstalliert mit Solaris 10 Update 4. Mit diesem Stand war auch das Auslesen der physikalischen Chip-Anzahl möglich.

Ein zweiter Blick auf die Knotenliste des Clusters zeigt das Testsystem "big-5" im trauten Verbund mit weiteren Systemen von Sun (big-3 und big-4) sowie FSC (big-1). Es fällt ein weiteres (für die allermeisten Anwendungen aber unerhebliches) Detail auf: Auch der T2-Prozessor beherrscht nicht die vis/vis2-Erweiterungen im Instruction-Set (gleiche Beobachtungen machten wir schon bei den Tests der T1-Prozessoren in den T2000 Servern).

 

# ndadmin -lvvv 
nodename         id    state   os          cpu-isa         ncpu clock    memory

big-1             1   ONLINE   SunOS 5.10  sparcv9+vis2       2  1100      2048
big-4             2   ONLINE   SunOS 5.10  sparcv9+vis        1   650      2048
big-3             3   ONLINE   SunOS 5.10  sparcv9+vis        1   650      2048
big-5             4   ONLINE   SunOS 5.10  sparcv9          128  1167     32544

 

IO-Performance

Diese Tests standen eigentlich nicht im Mittelpunkt. Tests mit einem angeschlossenen FC-RAID-System erbrachten entsprechend analoge Werte wie bei vergleichbaren Systemen.

Ein flüchtiger zweiter Blick galt daher der IO-Performance auf den internen Platten. Das Diagnosetool des OSL Storage-Clusters zeigt uns 2 Seagate-Platten am internen Controller c1:

 

root@big-5 # dksetup -t
Please wait while examining disk entries . . .
symbolic controller no. 1, hw-no. 0, SCSI_CCS, driver: pciex1000,58, flags: 0x08
    c1t0d0|sd(    1/    0)|SEAGATE  ST914602SSUN146G |081595E7DV   |140009/139989MB
    c1t1d0|sd(    3/    8)|SEAGATE  ST914602SSUN146G |081595E8T7   |140009/139989MB
symbolic controller no. 2, hw-no. 0, SCSI_CCS, driver: fp, flags: 0x08
  ? c2t5000402101EC04F4d0|ssd(  175/ 2048)|NEXSAN   SATABl(C0A82C69) |6DEDE6EF:"S; |2047/0MB
  ? c2t5000402101EC04F4d1|ssd(  173/ 2049)|NEXSAN   SATABl(C0A82C69) |6DEDEC6B:"S; |190734/0MB
...

 

Interessant daher die Frage, ob hier bereits eine Sättigung eintritt: Es wurde also via Lesen mit dd (64k Blocksize) angetestet. In beiden Fällen (Lesen von einer und von beiden Platten zugleich) erreichten die Platten jeweils gut 80 MByte/s, mit 2 Platten also 160 MByte/s:

 

# dd mit 64k (Lesen, eine Platte)
SunOS big-5 5.10 Generic_127111-09 sun4v    09/03/2008

17:31:24   device        %busy   avque   r+w/s  blks/s  avwait  avserv
           sd1              81     0.9    1365  174683     0.0     0.6

# dd mit 64k (Lesen, beide Platten)
SunOS big-5 5.10 Generic_127111-09 sun4v    09/03/2008

17:33:59   device        %busy   avque   r+w/s  blks/s  avwait  avserv
           sd1              82     0.9    1279  163728     0.0     0.6
           sd3              84     0.9    1365  174716     0.0     0.6

 

Für 2,5"-Platten ist der Datendurchsatz als sehr gut zu betrachten, allerdings drehen diese Platten auch mit 10000 U/min.

Integer-Performance

Um die Leistungsfähigkeit des Servers zu ermitteln wurde wieder der im OSL Storage Cluster integrierte RIP-Benchmark aktiviert. Er liefert eine Bezugsgröße ausschließlich zur Beurteilung der Integer-Performance, und zwar getrennt nach 32 und 64 Bit Die Skalierung im Multiprocessing kann ebenfalls beurteilt werden. Weitere Details zum RIP-Benchmark finden sie hier.

Nachfolgend eine Übersicht der Ergebnisse im Vergleich zu einer SunBlade 150, einer T2000 und einer M4000.

Für die Multi-Process-Meßwerte gibt die Spalte Procs an, mit wievielen Prozessen die maximale Gesamt-Performance erreicht wird.

Hersteller/ModellCPUSingle ProcessMulti Process
TypTakt (MHz)AnzahlRIP32RIP64RIPmixProcsRIP32RIP64RIPmix
Sun SunBlade 150UltraSPARC IIi65014,003,023,4714,003,023,47
Sun SPARC Enterprise Server T2000UltraSPARC T1100013,714,053,883253,7153,5053,60
Sun SPARC Enterprise Server T5140UltraSPARC T2 Plus116725,278,246,59256381,82427,30403,92
FSC SPARC Enterprise Server M4000SPARC64 VI2150414,8223,5018,661697,5299,6498,57

Bitte beachten Sie, daß die Tabelle die Systeme nicht vollständig beschreibt und sich je nach Konfiguration z.T. deutlich abweichende Werte ergeben können. Es ist für keines der Systeme eine besondere Kompilation des Benchmarks verwendet worden. OSL weist ausdrücklich darauf hin, daß damit Konsistenz und Fairness der Benchmarks nicht garantiert sind. Eine Verwendung der Werte außerhalb der Clustermechanismen von OSL Storage Cluster ist nur zu persönlichen Zwecken gestattet. Jede andere Verwendung - insbesondere für Wettbewerbsvergleiche - weicht von der Zielsetzung des Benchmarks ab und ist nur im Ausnahmefall mit vorheriger schriftlicher Genehmigung durch OSL zulässig. Von den jeweiligen Herstellern autorisierte andere Benchmarks mit einer exakten Beschreibung der Systemkonfiguration und der Testbedingungen finden Sie z. B. unter www.spec.org.

Die Ergebnisse zeigen:

  • Die Integer-Performance mit einem einzelnen Thread ist nicht gerade hoch und liegt in etwa auf dem Niveau eines etwas älteren SunFire V440 Servers. Gegenüber der T1-Familie aber ein deutlicher Fortschritt. Immerhin ist man jetzt am unteren Ende einer für die meisten Anwendungen ausreichenden Single-Thread-Performance angelangt.
  • Erstaunlich aber ist der Gesamtdurchsatz, wenn tatsächlich 128 Threads gemeinsam verarbeitet werden. Er erreicht immerhin fast das 50-fache der Single-Thread-Performance bei 64 Bit und über das 70-fache bei 32 Bit.
  • Zudem kann eine weitere Steigerung bei 256 Prozessen erreicht werden, die über den Werten mit 128 Prozessen liegt!
  • Die 32Bit- und die 64Bit-Leistungen sind relativ ausgeglichen. Spätestens hier trennt sich die Spreu vom Weizen. Viele andere Systeme fallen im 64Bit-Bereich deutlich ab, die T5140 kann - ähnlich wie die meisten SPARC64-Systeme (Fujitsu) - sogar zulegen.
  • Solaris stellt seine technologische Spitzenposition (nicht nur) beim Multiprocessing in dieser Größenordnung einmal mehr eindrucksvoll unter Beweis.

Ein genauerer Blick auf die Skalierung zeigt folgendes Verhalten:

RIP64-MP mit 001 Prozessen: 8.24
RIP64-MP mit 002 Prozessen: 16.49
RIP64-MP mit 004 Prozessen: 32.77
RIP64-MP mit 008 Prozessen: 64.70
RIP64-MP mit 016 Prozessen: 111.33
RIP64-MP mit 032 Prozessen: 179.54
RIP64-MP mit 064 Prozessen: 270.23
RIP64-MP mit 128 Prozessen: 407.76
RIP64-MP mit 256 Prozessen: 427.30

Interessanterweise skaliert das System nicht nur bis zu 16 Prozessen, sondern bis hin zu 128 Prozessen sehr gut. Da es nur 16 Kerne gibt, hat sich das Konzept des Chip-Multithreading als erfolgreich herausgestellt. Über 128 Prozesse hinaus läßt die Skalierung zwar nach, immerhin wird aber dennoch ein signifikanter Leistungszuwachs bis hin zu 256 Threads erreicht.
Die Maschine verhält sich damit wie ein echtes symmetrisches Multiprozessorsystem. Dank der ausgewogenen 32/64-Bit-Performance wird sie im Gesamtdurchsatz bei geeigneten Anwendungen sogar etliche größere (und teurere) Server hinter sich lassen können. Für x86-Systeme heißt es damit auch unter dem Aspekt Preis-Leistungs-Verhältnis: Warm anziehen!

Fazit

Bezieht man die extrem kompakte Bauweise (1 HE) und den niedrigen Stromverbrauch mit in die Betrachtung ein, ist klar, daß die aktuellen T5xxx-Server Beachtliches leisten. Im Gesamtdurchsatz können Sie sich mit 32-CPU-Systemen konventioneller Bauart (Single Core) ohne Probleme messen. Auch mit aktuellen Multicore-CPUs anderer Hersteller wird man nur wenige (Highend-)Systeme mit einem vergleichbaren bzw. besseren Durchsatz finden.

Aber: Auch bei diesen Systemen ist es wichtig, daß die jeweiligen Anwendungen passen. Dort, wo einzelne Prozesse hohe Durchsätze erfordern, ist das System eindeutig falsch eingesetzt. Starke Einzel-CPUs lassen mehr Flexibilität (aber meist auch höhere Kosten) erwarten.

Für interaktive Sessions mit den meisten betriebswirtschaftlichen Anwendungen oder für Web-Server dürfte die Single-Thread-Performance des T2 Plus jedoch ausreichend sein. Was dann mit einer hohen Zahl paralleler Sessions an Gesamtdurchsatz zu erwarten ist, ist für ein derartiges System (Größe, Stromverbrauch, Preis) schon sehr beeindruckend.

PS: Wir hoffen, demnächst die IO- und Interrupt-Performance des Systems genauer unter die Lupe nehmen zu können.