PCSS (Polska): Przebudzenie nieograniczonego potencjału danych naukowych
Obecnie w polskim środowisku naukowo-badawczym zachodzą zmiany, ponieważ dostępność bezprecedensowej ilości danych zmienia proces naukowy. W miarę jak instytucje badawcze poruszają się po niezbadanych dotąd obszarach, stają przed szeregiem wyzwań:
• W jaki sposób mogą skutecznie zarządzać wykładniczym wzrostem ilości danych przy jednoczesnym zapewnieniu wydajnych procesów przechowywania i wyszukiwania?
• Jakie strategie można zastosować, aby opracować solidne rozwiązania data lake zdolne do obsługi różnych formatów danych?
• W jaki sposób można zoptymalizować systemy pamięci masowej i systemy obliczeniowe, aby przetwarzać i analizować dane naukowe w czasie rzeczywistym, dotrzymując kroku szybkości generowania danych?
Na te pytania Polska miała nadzieję odpowiedzieć w ramach projektu Krajowego Magazynu Danych (KDPD). Projekt został zainicjowany w celu wprowadzenia przełomowych ulepszeń w polskiej „infrastrukturze danych do udostępniania, przechowywania i efektywnego przetwarzania dużych ilości danych w modelach obliczeń o wysokiej wydajności (HPC), big data i sztucznej inteligencji (AI)”.
I właśnie na tym skupia się Poznańskie Centrum Superkomputerowo-Sieciowe (PCSS), odgrywające kluczową rolę w projekcie NDS. PCSS, afiliowane przy Instytucie Chemii Bioorganicznej Polskiej Akademii Nauk, jest jednym z czołowych centrów superkomputerowych w Polsce i poza jej granicami. Jego wizja leży u podstaw wszystkiego, co robi: dążenie do „integracji i rozwoju infrastruktury informatycznej dla nauki” oraz staranie się być wszędzie tam, gdzie nauka spotyka się z biznesem, a innowacje wpływają na społeczeństwo.
Na głębokich wodach
Wspierane przez szereg wysokowydajnych urządzeń pamięci masowej, PCSS rozszerzyło swoją funkcjonalność centrum superkomputerowego i zapewniło użytkownikom, głównie uniwersytetom i instytucjom badawczo-rozwojowym, najwyższej jakości usługi HPC i data lake. Te instytucje badawcze w coraz większym stopniu koncentrowały się na wysokowydajnej analizie danych (HPDA) i sztucznej inteligencji, w związku z czym oczekiwały od PCSS przetwarzania ogromnych ilości nieustrukturyzowanych danych. Instytucje badawcze pracujące w takich dziedzinach jak sekwencjonowanie genomów, teledetekcja satelitarna, superkomputery, big data i przetwarzanie w chmurze pilnie potrzebowały wydajnego przetwarzania i analizy danych w czasie rzeczywistym.
Takie wymagania nie były obce PCSS. Jednak w swojej sieci napotkali wiele trudnych problemów: Urządzenia systemu IT, takie jak pamięć masowa, działały z pełną wydajnością i zużywały dużo energii; wiele urządzeń IT od różnych dostawców sprawiało, że operacje i konserwacja (O&M) oraz zarządzanie były trudne i kosztowne.
Ponadto, dążąc do stworzenia solidnej platformy HPC dla projektu NDS, PCSS wiedziało, że będzie musiało wyjść poza zwykłą szybkość obliczeniową; będzie musiało również analizować eksabajty danych, a to będzie wymagało kompleksowej modernizacji infrastruktury przechowywania danych.
Zasilanie HPC w fali masowych danych
Huawei, ze swoim długim doświadczeniem w budowaniu solidnej infrastruktury danych dla różnych branż, był w stanie sprostać tym wymaganiom. Widać to w architekturze skalowalnej rozwiązania zaproponowanego przez Huawei dla PCSS. Huawei zidentyfikował swoje systemy pamięci masowej OceanStor Pacific jako doskonale pasujące do architektury, biorąc pod uwagę zapotrzebowanie PCSS na ultra-wysoką gęstość, hybrydową konstrukcję zorientowaną na obciążenie i wykorzystanie wielu protokołów. Skalowalne systemy pamięci masowej obsługiwałyby obciążenia wymagające dużej przepustowości i IOPS, zapewniając wydajne i niezawodne usługi dla społeczności naukowej obsługiwanej przez PCSS.
Urządzenia pamięci masowej są podstawą każdego systemu pamięci masowej, a wybór urządzeń, które są odpowiednie do celu, ma kluczowe znaczenie. Dotyczy to również narzędzi, które pomagają uwolnić moc HPC. Rozproszony klient równoległy (DPC) jest takim pomocnikiem zaprojektowanym przez Huawei w scenariuszach HPC. Zapewniłby on PCSS wyższą wydajność pojedynczego klienta i pojedynczego strumienia, aby dopasować się do potrzeb usługi.
Zbudowanie tak solidnej infrastruktury nie było jednak łatwym zadaniem - wymagało większej liczby wysokowydajnych systemów pamięci masowej, aby spełnić określone wymagania dotyczące usług, i właśnie w tym miejscu wkraczają systemy pamięci masowej flash OceanStor Dorado all-flash i OceanStor hybrid flash firmy Huawei. Stworzone specjalnie z myślą o architekturze Lustre, te systemy pamięci masowej zapewniłyby niezwykle wysoką liczbę operacji wejścia/wyjścia na sekundę (IOPS), znacznie przewyższając wydajność dostarczaną przez starsze urządzenia używane w PCSS.
W systemie HPC PCSS, oprócz możliwości obliczeniowych i pamięci masowej, kluczowe znaczenie ma projekt sieci. Bezstratna sieć o wysokiej wydajności i małych opóźnieniach jest kluczem do podejmowania decyzji przez PCSS. Huawei dostarczył również rozwiązanie sieciowe infrastruktury danych wykorzystujące przełączniki serii CE, oferujące wysokowydajne i niezawodne połączenia sieciowe. Rozwiązanie oferowałoby również kompleksowy RoCE Ethernet, osiągając wyłącznie zerową utratę pakietów przy podwojeniu mocy obliczeniowej w porównaniu z tradycyjnym Ethernetem. Ponadto, biorąc pod uwagę przyszłą ewolucję PCSS opartą na chmurze, rozwiązanie zapewniłoby otwartą sieć Ethernet do obsługi chmury mocy obliczeniowej i poprawy wydajności planowania. PCSS zaakceptowało propozycję Huawei, a technicy Huawei wkrótce przybyli do Poznania, aby wdrożyć rozwiązania.
Od czasu wdrożenia tych systemów PCSS zwiększyło przepustowość danych do platformy HPC w projekcie NDS za pośrednictwem sprzętu Huawei Storage. PCSS usprawnia teraz procesy analizy danych i zarządzania nimi, oszczędzając wiele czasu, kosztów i zasobów. Według słów Norberta Meyera, dyrektora HPC & Data Division PCSS: „Rozwiązanie Huawei pozwala nam znacznie ulepszyć infrastrukturę danych w środowiskach HPC i chmurowych, wykorzystywanych do celów naukowych i przemysłowych. Podczas testów byliśmy pozytywnie zaskoczeni stabilnością i niezawodnością systemów pamięci masowej”.
Nawigacja do przyszłości z Huawei
Od planowanych projektów infrastruktury danych po pełne morze innowacji naukowych, PCSS i Huawei przeszły wiele w swojej dziesięcioletniej współpracy i wiedzą, że kolejne przełomy techniczne i naukowe są tuż za horyzontem.
PCSS jest strażnikiem marzeń i aspiracji badaczy naukowych w Polsce i poza jej granicami. Huawei zna trudne wody, po których PCSS musi się poruszać w swojej cyfrowej podróży.
Wspólnie będą nadal tworzyć infrastrukturę danych, która obejmuje sztuczną inteligencję, analitykę Big Data, a jednocześnie przyczynia się do niskoemisyjnej przyszłości Europy.