Suche
  • KI-Inferenz-Beschleunigungs-Lösung

    KI-Inferenz-Beschleunigungs-Lösung

    Keine Inferenz-Engpässe mehr - für mehr KI in allen Branchen

  • Übersicht
  • Vorteile
  • Architektur
  • Produkte
  • Erfolgsgeschichten

KI-Inferenz-Beschleunigung: KI-Einsatz in mehr Unternehmen ermöglichen

Mit zunehmender Verbreitung gut trainierter Modelle in der Praxis hat sich die Inferenzleistung zu einem zentralen Faktor entwickelt, der sowohl die Benutzererfahrung als auch den Geschäftswert der Anwendung selbst beeinflusst. KI-Inferenz ermöglicht mittlerweile vieles: Die Analyse umfangreicher Dokumente, Bereitstellung einer Basis für komplexe Geschäftsentscheidungen und die Verwandlung von extrem vielen Daten in verwertbare Einsichten. Von der Zusammenfassung eines Dokuments mit mehr als 10.000 Wörtern bis hin zu Entscheidungshilfen basierend auf 100 Seiten medizinischer Richtlinien - KI behauptet sich bei vielen Herausforderungen. Sie muss extrem lange Texte verarbeiten, Latenz minimieren, viele gleichzeitige Prozesse handhaben und sich wiederholende Rechenprozesse verkürzen oder vermeiden. Durch diese Fähigkeiten ist KI ein zuverlässiges Tool für Profis, um die intelligente digitale Transformation der Branchen und Industriebereiche zu beschleunigen..

Herausforderungen beim Einsatz von KI-Inferenz in der Industrie

  • Fehlgeschlagene Inferenz

    Bei langen Eingabesequenzen, die das Kontextfenster des Modells überschreiten, sind die Modelle gezwungen, die Sequenzen abzuschneiden oder die Inferenz in Batches durchzuführen, wodurch eine vollständige Inferenz unmöglich wird.
  • Langsame Inferenz

    Wenn die Sequenz länger wird, dann nimmt auch die TTFT (time to first token) zu und der Durchsatz der Inferenz nimmt ab.
  • Teure Inferenz

    Der KV-Cache kann nicht kontinuierlich eingesetzt werden, was zu vielen sich wiederholenden Rechenprozessen führt - und hohen Token-Kosten.

Vorteile

10x längere Kontexteingabe

10x längere Kontexteingabe

Durch Auslagerung und Tiering des KV-Cache auf den Speicher werden Inferenzfehler bei ultralangen Sequenzen behoben und die Sequenzlänge um das Zehnfache verlängert
Bis zu 90 % niedrigere TTFT

Bis zu 90 % niedrigere TTFT

In Szenarien mit mehrstufigen Q&A (Frage/Anwort-Runden) sowie Branchenzusammenfassungen und -analysen übersteigt die Trefferrate des Präfix-Cache-Algorithmus für Schlüssel-Wert-Paare 90 %.
22 x höherer Systemdurchsatz

22 x höherer Systemdurchsatz

Die Prefill-Phase vermeidet wiederholte Berechnungen durch Abfragen auf Basis historischer Inferenzdaten. Die Dekodierungsphase nutzt KV-Sparse-Beschleunigung, um KVs beizubehalten, den Rechenaufwand zu reduzieren und den Systemdurchsatz zu verbessern.
Architektur

Architektur

Die KI-Inferenz-Beschleunigungs-Lösung von Huawei ist auf der OceanStor A-Serie aufgebaut und ist mit einem UCM (Unified Cache Manager) ausgestattet. Die Lösung verbessert die Inferenz-Effizienz und das Benutzererlebnis durch die Einführung einer hierarchischen Verwaltung und Planung eines KV-Caches während des gesamten Lebenszyklus, so dass der Einsatz von KI in allen Branchen schneller umgesetzt werden kann.

Architektur
Huawei

Erfolgsgeschichten

Das könnte Sie interessieren

TOP