Suche

Storage-Netzwerke im Umbruch! Wie wählt man die richtige Lösung?

2021-04-19
581
0

Pit’s IT Architecture Talk

#7 Storage-Netzwerke im Umbruch! Wie wählt man die richtige Lösung?

Hinweis: Die in diesem Artikel zum Ausdruck gebrachten Ansichten und Meinungen sind die des Autors und spiegeln nicht notwendigerweise die offizielle Politik, Position, Produkte und Technologien der Huawei Deutschland GmbH wider. Wenn Sie mehr über die Produkte und Technologien der Huawei Deutschland GmbH erfahren möchten, besuchen Sie bitte unsere Produktseiten oder kontaktieren Sie uns.

Bei den Storage-Netzwerken hat sich in den letzten Jahren oder Jahrzehnten nicht so richtig viel getan. Man hatte die Auswahl zwischen FC-SAN, Ethernet und meistens im High-Performance-Computing (HPC)-Umfeld InfiniBand eingesetzt. Alle haben ihre Vor- und Nachteile.

FC-SAN, wahrscheinlich das am häufigsten eingesetzte, zeichnet sich durch eine gute Performanz und den Betrieb durch das Storage-Team aus –  hat aber auch seine Kosten.

Ethernet kommt häufig im NAS-Bereich zum Einsatz oder wurde als kostengünstige Lösung für iSCSI verwendet. Der Betrieb wurde i.d.R. vom Netzwerk-Team übernommen, womit nicht alle Storage-Admins glücklich waren. Im Cloud-Computing ist es der absolute Favorit. Ich kenne keinen Hyper-Scaler, der im Storage-Netzwerk nicht Ethernet einsetzt – Thema Kosten.

InfiniBand hat eine hervorragende Performanz aber auch beträchtliche Kosten.

Warum sind die Storage-Netzwerke nun im Umbruch?

Das liegt im Wesentlichen an zwei Tatsachen. Zum einen, haben sich die Datenträger in den letzten Jahren wesentlich verändert. Bei den drehenden Spindeln war in Bezug auf die Latenz und die Performanz einfach Schluss. Heutige HDDs haben immer noch die gleiche Latenz wie HDDs vor 10 Jahren, zumindest, wenn man den Cache außen vorlässt. Die Mechanik ist hier an die physikalischen Grenzen vorgerückt. Damit kam es zum Siegeszug der Solid-State-Disk-Drives (SSD). Wie der Name verrät, werden die Daten nicht mehr auf Magnetplatten gehalten, sondern in Chips gespeichert. Typische Enterprise-HDDs erreichen ca. 100 – 200 IOPS. SSDs schaffen locker 20.000.

Der zweite Grund ist, dass das Zugriffsprotokoll verändert wurde. Heute wird für leistungshungrige Anwendungen auf Speicher mit dem Non-Volatile Memory Express (NVMe) zugegriffen. Der Vorteil von NVMe ist, dass direkt über PCIe herstellerunabhängig auf Datenspeicher zugegriffen werden kann. Das reduziert die Latenz noch einmal erheblich.

Während man die IOPS und die Bandbreite noch über breitbandigere SANs übertragen konnte – denken wir z.B. an 8, 16, 32 und 64Gb Fibre Channel – hat sich die Latenz kaum verändert. Direkt am Host angeschlossene NVMe-Datenträger können die Vorteile voll ausnutzen.

Für das Storage-Netzwerk musste eine neue Lösung her.

Die NVM Express, Inc arbeitet seit 2014 an einer Lösung namens NVMe over Fabrics. Ziel war es, eine Architektur zu entwickeln, bei der maximal 10 Mikrosekunden (µs) zusätzliche Latenz beim Zugriff auf entfernte Datenträger hinzugefügt werden. Implementiert wurde die Lösung auf zwei Wegen. Erstens Remote Direct Memory Access (RDMA) oder über Fibre Channel. Damit ergeben sich die vier heute anzutreffenden Architekturen.

  1. Fibre Channel, ab 32Gb
  2. InfiniBand – InfiniBand basiert bereits auf RDMA
  3. iWARP – RDMA over Ethernet
  4. RoCE – RDMA over Converged Ethernet

Wir haben uns für RoCE entschieden. Warum, möchte ich nur ganz kurz anreißen. FC ist zu teuer, InfiniBand noch teurer und iWARP wird im Markt kaum genutzt und verspricht nicht die Performanz der anderen Lösungen.

Wir nennen unsere RoCE – Implementation NoF+. Plus deshalb, da wir RoCEv2 nutzen und dadurch u.a. selbst-konfigurierende Netzwerkkomponenten entwickeln konnten. Ein anderer Vorteil besteht darin, dass wir mit unserem Netzwerk-Know-how – das kann uns wohl keiner absprechen –  verlustfreie Netzwerk-Fabriken herstellen. Wer dazu mehr wissen möchte, kann sich hier umschauen.

Da wir so unglaublich schnellen All-Flash-NVMe-Storage haben – was ich ja schon hier und hier beschrieben habe, haben wir uns dazu entschlossen, etwas davon in unserm Lab nachzustellen. Zuerst wollten wir damit FC 32Gb(FC), NVMe over Fibre Channel 32Gb (NoFC) und unsere Architektur NoF+ 25Gb vergleichen. Das könnte im ersten Moment etwas nachteilig für uns aussehen – 25Gb zu 32Gb – aber das werden wir gleich sehen.

Wir haben dazu verschiedene Performanz-Tests durchgeführt, von 100% bis 50% random, unterschiedliche Schreib-Lese-Verhältnisse - 100, 70, 50 und 0% read, über verschiedene Blockgrößen – 8, 16, 32 und 64 kB.

Wie gesagt, das waren nur sehr einfache Tests mit einem Server, aber für jede Architektur vergleichbar.

Das Ergebnis hat meine Erwartungen dann doch übertroffen und war an anderen Stellen erstaunlich.

Bild 1: Durchschnittlicher Durchsatz in IOPS und MB/s

Wir erreichen mit 25Gb Ethernet und unseren CloudEngine-Switches über 10% mehr IOPS als NoFC 32Gb und FC 32Gb und selbst bei der Bandbreite sind wir noch besser! Erstaunlich war aber auch, dass NoFC bei den IOPS schlechter ist als FC.

Wenn wir uns einen üblichen und anspruchsvollen Workload von 100 random, 70% read und 8kB Blockgröße anschauen, ist unser Vorteil noch größer.

Bild 2: IOPS bei 100% random, 70% read und 8kB Blockgröße

Wir erreichen mit 25Gb Ethernet über 30% mehr IOPS als NoFC 32Gb und über 20% mehr IOPS als FC 32Gb!

Bild 3: Bandbreite in MB/s bei 100% random, 70% read und 8kB Blockgröße

Auch hier sind wir 20-30% besser!

Und zum Schluss noch einen Blick auf die Latenz. Die sollte ja nach Theorie um einiges besser sein.

Bild 4: Latenz in ms bei 100% random, 70% read und 8kB Blockgröße

Auch hier sehen wir wieder das gleiche Ergebnis. Huawei NoF+ 25Gb ist 20-30% besser als NoFC 32Gb und FC 32Gb.

Derzeit wird in vielen Unternehmen daran gedacht, die FC-Infrastruktur von 16 auf 32Gb umzustellen. Vielleicht habe ich hiermit das Blickfeld etwas erweitert. Wer jetzt noch nach Gründen für die Umstellung des Storage-Netzwerkes auf NoF+ sucht, für den habe ich noch einige zusammengefasst.

  1. 1. Preis – Ethernet ist erwiesener Maßen preiswerter als Fibre Channel und InfiniBand.
  2. 2. Vereinfachtes Management mit NoF+.
  3. 3. Zukunftssicherheit – 25, 50, 100, 200, 400Gb Ethernet ist bereits verfügbar und mehr steht in den Startlöchern.
  4. 4. Mögliche Netzwerkkonsolidierung von Storage- und Frontend-Netzwerk.

Besonders der Punkt 4 ist aus meiner Sicht sehr interessant. Wenn man die Server z.B. mit 2x 100Gb an unsere CloudFabric 3.0 anschließt, hat man genügend Bandbreite, um den Storage- und den Frontend-Bedarf auf absehbare Zeit zu decken. Damit erhält man alle Vorteile, wie verlustfreie Übertragung, KI-basierte Automatisierung über den gesamten LifeCycle und KI-basierter selbstheilender Betrieb und Wartung. So falsch können die Cloud-Provider ja nicht liegen.

Und davon abgesehen, hat unser „Next-Gen Storage Network NoF+“ auch gerade einen Award gewonnen!

Bis bald!

Pit



TOP