Rechenzentrumsnetzwerke, die sich mit der Cloud und der intelligenten Ära beschäftigen

2019-08-31

Liu Runing

Huawei Optical Portfolio Management Expert

Services von Rechenzentren wandeln sich. Zuerst sind sie in die Cloud gegangen und jetzt gehen sie in die intelligente Ära

In den letzten zehn Jahren haben sich die Services für Rechenzentren von webbasierten zu cloudbasierten Services verlagert. Heute verändern sie sich erneut, diesmal von der Ära des Cloud-Computing in die intelligente KI-Ära.

Angesichts der enormen Datenmengen, die während der Digitalisierung generiert werden, ist das Herausfiltern und automatische Reorganisieren nützlicher Informationen – das Data-Mining der wertvollen Daten mit Künstlicher Intelligenz (KI) – der Schlüssel zur intelligenten Ära. Laut Huawei Global Industry Vision (GIV) werden bis 2025 97% der großen Unternehmen KI nutzen. Tatsächlich betrachten immer mehr Unternehmen KI als die primäre Strategie für die digitale Transformation. Die Fähigkeit, KI zu nutzen – bei der Entscheidungsfindung, bei der Neugestaltung von Geschäftsmodellen und Ökosystemen und beim Wiederaufbau positiver Kundenerlebnisse – wird der Schlüssel zur Förderung einer erfolgreichen digitalen Transformation sein.

Während der Digitalisierung wird eine große Datenmenge generiert. Laut Huawei GIV wird die Menge der jährlich produzierten globalen Daten im Jahr 2025 180ZB erreichen, und der Anteil unstrukturierter Daten (wie Audio-, Video- und Bilddaten) wird ebenfalls weiter zunehmen und in naher Zukunft mehr als 95% erreichen. Mit manuellen Big-Data-Analyse- und Verarbeitungsmethoden, die nicht in der Lage sind, solch große Datenmengen zu verarbeiten, können Deep Learning-KI-Algorithmen, die auf Maschinenarithmetik basieren, verwendet werden, um ungültige Daten herauszufiltern und nützliche Informationen automatisch neu zu organisieren, wodurch effizientere Entscheidungsvorschläge und intelligentere Verhaltenshinweise angeboten werden. In der intelligenten Ära entwickelt sich die Mission von Unternehmensrechenzentren von der Fokussierung auf die schnelle Servicebereitstellung hin zu einer effizienten Datenverarbeitung.

Im Vorfeld der KI entstanden Deep-Learning-Servercluster und Hochleistungs-Speichermedien wie Solid-State Drives (SSDs). Diese wurden für die höheren Anforderungen (auf μs-Ebene) an die Kommunikationslatenz entwickelt. In einem leistungsempfindlichen High-Frequency Trading (HFT)-Umfeld in der Finanzindustrie ist beispielsweise eine niedrige Latenz der Schlüssel zur Verarbeitung großer Handelsvolumina. Die schnellste Transaktionsgeschwindigkeit eines Auftrags beträgt ca. 100 Mikrosekunden in der National Association of Securities Dealers Automated Quotations (NASDAQ). Die Kommunikationslatenz ist der Hauptfaktor, der beim Aufbau eines Rechenzentrumsnetzwerks berücksichtigt werden muss. Diese muss auf zwei Arten reduziert werden:

1. Der interne Kommunikationsprotokollstapel eines Servers muss geändert werden. In KI-Datencomputern und verteilten SSD-Speichersystemen benötigt die Datenverarbeitung mit dem herkömmlichen TCP/IP-Protokollstapel eine Latenz von vielen Mikrosekunden. Daher ist es zur Praxis der Branche geworden, TCP/IP durch RDMA (Remote Direct Memory Access) zu ersetzen. Im Vergleich zu TCP/IP kann RDMA die Recheneffizienz um das Sechs- bis Achtfache verbessern; und die Übertragungslatenz von Servern mit 1μs ermöglicht es, die Latenz von verteilten SSD-Speichersystemen von Millisekunden auf Mikrosekunden zu reduzieren. Infolgedessen ist RDMA im neuesten NVMe-Schnittstellenprotokoll (Non-Volatile Memory Express) zu einem Mainstream-Standard-Netzwerkkommunikationsprotokoll geworden.

2. Um die Latenz bei der Übertragung von Glasfasern zu reduzieren, müssen Rechenzentren in der Nähe der physischen Standorte latenzempfindlicher Anwendungen bereitgestellt werden. Dadurch sind verteilte Rechenzentren zur Norm geworden. Die Lösungen von Data-Communication-Network (DCN) und Data-Center-Interconnect (DCI) befassen sich zunehmend mit der schnellen und schrittweisen Erhöhung der DCN/DCI-Bandbreite, um ohne Paketverlust, mit geringer Latenz und hohem Durchsatz, verlustfreie Netzwerke zu gewährleisten, um die Anforderungen einer schnellen Serviceentwicklung zu erfüllen. Moore's Gesetzmäßigkeit unterstützt die Erweiterung der Rechenzentrumsbandbreite, und die Kapazität einer einzigen DCN-Schnittstelle für DCI wird 100G überschreiten. Das DCI-Netzwerk, das Rechenzentren verbindet, hat sich zu einem WDM-Verbindungsnetzwerk (10Tbit/s Wavelength Division Multiplexing) entwickelt.

Zusammenfassend: Der KI-orientierte Datenbetrieb erfordert ein verlustfreies Netzwerk ohne Paketverlust, geringe Latenz und hohen Durchsatz. Daher müssen interne Kommunikationsprotokolle auf Servern geändert werden, und DCI ist erforderlich.

Schnelle Bereitstellung und intelligenter Betrieb und Wartung von DCI ist zu einem Schlüssel geworden und unterstützt den flexiblen Betrieb und die Erweiterung von DCNs.

Leistungsstarke Dienste wie KI und High-Performance Computing (HPC) sind zunehmend von Netzwerken abhängig. Der Steuerungsalgorithmus eines verlustfreien Netzwerks erfordert die Zusammenarbeit zwischen Netzwerkadaptern und Netzwerken selbst. Daher ist es von Beginn des Netzwerkdesigns an notwendig, den Echtzeitstatus von netzwerkweiten Geräten und Verbindungen während des Betriebs und der Wartung (O&M) schnell und genau zu erlernen, um einen stabilen Servicebetrieb und -ausbau zu unterstützen. Optische Übertragungssysteme mit Multiplexing mit mehreren Wellenlängen sind in DCI weit verbreitet. Die Servicebereitstellungs- und Wartungsmodi optischer Systeme unterscheiden sich von denen digitaler Netze, und die Betreiber verfügen in der Regel über große Teams von qualifiziertem Personal, welche die Wartung optischer Netze gewährleisten. Umgekehrt sind bei Internet Service Providern (ISP) und in der Finanzbranche die erforderliche Erfahrung und Kompetenz von IT-Mitarbeitern, die Rechenzentrumsnetzwerke aufbauen und warten, viel geringer. Schnelle Servicebereitstellung und genaue Fehlerbehebung sind zentrale Herausforderungen für solche Branchen. Mit dem massiven Wachstum des Rechenzentrumsbaus steigen die DCI-Anforderungen in großem Maßstab. Dies ist zu einem der wichtigsten Punkte bei der Rechenzentrumsentwicklung geworden.

1. Die Einführung von automatischen Planungs-, Konfigurations- und intelligenten Alarmanalysesystemen vereinfacht den Betrieb und die Wartung des DCI-Systems.

Mit der schnellen Entwicklung und Einführung von Cloud-Diensten hat der Umbau und die Erweiterung von Netzwerken zugenommen. Die Konfiguration des Glasfaseranschlusses und die Konfiguration und die Inbetriebnahme herkömmlicher WDM-Geräte erfordern eine professionelle Planung und Konfiguration. Das automatische Planungs- und Konfigurationssystem entlastet das technische Personal von komplexen und professionellen vor-Ort Bereitstellungen und garantiert eine automatische, effiziente Bereitstellung. Es unterstützt eine schnelle Service-Cloudifizierung sowie häufige Kapazitätserweiterungen. Im Vergleich zur manuellen Konfiguration verbessert die automatische Konfiguration die Rollout-Effizienz und die Konfigurationsgenauigkeit erheblich. Zur Veranschaulichung kann die Möglichkeit von Fehlern bei herkömmlichen manuell erstellten Glasfaserverbindungen oft 5% erreichen, und Services stehen nicht zur Verfügung, wenn die Leitungen falsch angeschlossen sind. Darüber hinaus sind Fehlerbehebung, Gegenprüfung und Verifizierung zeitaufwändig und arbeitsintensiv.

2. Intelligente Betriebs- und Wartungssysteme ersetzen das traditionelle Netzwerkmanagement und implementieren proaktive Betriebs- und Wartungsservices für Rechenzentren.

Immer mehr Anwendungen werden in der Cloud ausgeführt, und Rechenzentren sind daher als wichtige Infrastrukturen für die Digitalisierung extrem wichtig. Jeder Fehler, der in DCI auftritt, hat oft schwerwiegende Auswirkungen. DCI führt effizientes und intelligentes O&M ein, welches die Transformation – Optimierung – von manuell zu automatisch, von passiv zu aktiv umwandelt. Im Vergleich zu herkömmlichen Netzwerküberwachungssystemen verwenden intelligente O&M-Systeme integrierte optische Sensoren, um die globale Visualisierung optischer Netzwerke (einschließlich optischer Kabel und optischer Übertragungsgeräte) zu implementieren. Darüber hinaus warnen intelligente O&M-Systeme vor Veränderungen in der Stabilität eines optischen Netzwerks, insbesondere von physikalischen Parametern wie optischer Leistungsdämpfung und optische Wellenlängendrift. Sie analysieren und filtern automatisch Alarme und ermitteln eigenständig die Ursachen von Fehlern basierend auf bekannten Problemen. Diese Funktionen stellen sicher, dass die Netzwerkausfallrate reduziert und die Netzwerkverfügbarkeit erheblich verbessert wird.

Zusammenfassend: Rechenzentrumsnetzwerk O&M benötigt dringend automatische Konfigurations- und Wartungstools, um die Konfigurationen in Echtzeit anzupassen, Fehler schnell zu lokalisieren und Netzwerk-O&M in verlustfreien Netzwerken zu vereinfachen, wodurch die schnelle Entwicklung von Rechenzentren mit Dienstleistungen im Cloud-Zeitalter unterstützt wird.

Liu Runing

Huawei Optical Portfolio Management Expert

Unternehmen

Huawei Cloud

Carrier

Konsumenten

Huawei

Rechenzentrumsnetzwerke, die sich mit der Cloud und der intelligenten Ära beschäftigen

Services von Rechenzentren wandeln sich. Zuerst sind sie in die Cloud gegangen und jetzt gehen sie in die intelligente Ära

Schnelle Bereitstellung und intelligenter Betrieb und Wartung von DCI ist zu einem Schlüssel geworden und unterstützt den flexiblen Betrieb und die Erweiterung von DCNs.