KI-Inferenz-Beschleunigungs-Lösung
Keine Inferenz-Engpässe mehr - für mehr KI in allen Branchen
Produkte, Lösungen und Services für Unternehmen
Smartphones, PCs & Tablets, Wearables, mobiles Breitband und mehr
Über Huawei, Nachrichten, Veranstaltungen, Brancheneinblicke und mehr
KI-Inferenz-Beschleunigung: KI-Einsatz in mehr Unternehmen ermöglichen
Mit zunehmender Verbreitung gut trainierter Modelle in der Praxis hat sich die Inferenzleistung zu einem zentralen Faktor entwickelt, der sowohl die Benutzererfahrung als auch den Geschäftswert der Anwendung selbst beeinflusst. KI-Inferenz ermöglicht mittlerweile vieles: Die Analyse umfangreicher Dokumente, Bereitstellung einer Basis für komplexe Geschäftsentscheidungen und die Verwandlung von extrem vielen Daten in verwertbare Einsichten. Von der Zusammenfassung eines Dokuments mit mehr als 10.000 Wörtern bis hin zu Entscheidungshilfen basierend auf 100 Seiten medizinischer Richtlinien - KI behauptet sich bei vielen Herausforderungen. Sie muss extrem lange Texte verarbeiten, Latenz minimieren, viele gleichzeitige Prozesse handhaben und sich wiederholende Rechenprozesse verkürzen oder vermeiden. Durch diese Fähigkeiten ist KI ein zuverlässiges Tool für Profis, um die intelligente digitale Transformation der Branchen und Industriebereiche zu beschleunigen..
Fehlgeschlagene Inferenz
Bei langen Eingabesequenzen, die das Kontextfenster des Modells überschreiten, sind die Modelle gezwungen, die Sequenzen abzuschneiden oder die Inferenz in Batches durchzuführen, wodurch eine vollständige Inferenz unmöglich wird.Langsame Inferenz
Wenn die Sequenz länger wird, dann nimmt auch die TTFT (time to first token) zu und der Durchsatz der Inferenz nimmt ab.Teure Inferenz
Der KV-Cache kann nicht kontinuierlich eingesetzt werden, was zu vielen sich wiederholenden Rechenprozessen führt - und hohen Token-Kosten.Vorteile
Architektur
Die KI-Inferenz-Beschleunigungs-Lösung von Huawei ist auf der OceanStor A-Serie aufgebaut und ist mit einem UCM (Unified Cache Manager) ausgestattet. Die Lösung verbessert die Inferenz-Effizienz und das Benutzererlebnis durch die Einführung einer hierarchischen Verwaltung und Planung eines KV-Caches während des gesamten Lebenszyklus, so dass der Einsatz von KI in allen Branchen schneller umgesetzt werden kann.
Produkte
OceanStor A800
OceanStor 800 erfüllt die Anforderungen für KI-Training und Inferenz mit der Data-Control Plane Separation-Architektur und optimalen Bedingungen für langfristige Speicherung.
Mehr erfahren
OceanStor A600
Huawei OceanStor A600 ist die neue Speicherlösung für verteilte Dateien für künstliche Intelligenz (KI), der den gesamten Prozess des Modelltrainings und der Inferenz durch extreme Leistung beschleunigt.
Mehr erfahren
Das könnte Sie interessieren
In welchen Szenarien wird die KI-Inferenz-Beschleunigungs-Lösung hauptsächlich eingesetzt?
Die KI-Inferenz-Beschleunigungs-Lösung wird hauptsächlich in KI-Anwendungsszenarien in Bereichen wie Carrier, Finanzwesen, Gesundheitswesen und öffentliche Services eingesetzt. Sie eignet sich hervorragend für Inferenz-Workloads wie Zusammenfassungen, Q&A sowie Überprüfungen basierend auf langen Dokumente, Es kann beispielsweise verwendet werden, um Finanzinvestitions-Forschungsberichte zu erstellen, die öffentliche Meinung zu analysieren, medizinische Self-Service-Beratungen anzubieten, wissenschaftliche Forschungsdokumente zusammenzufassen, Akten aus Behörden zu analysieren, Fragen zur Politik zu beantworten, Unternehmensnetzwerk-Konfigurationen zu analysieren sowie Netzwerke zu planen und zu optimieren.
Was ist ein KV-Cache?
Der KV-Cache ist eine Technologie, die die Schlüssel- und Wertvektoren des generierten Textes während der Transformer-Inferenz zwischenspeichert. Es handelt sich um eine Kernoptimierung für die autoregressive Generierung, die die Inferenz um ein Vielfaches beschleunigt, indem wiederholte Berechnungen während der Inferenz vermieden werden. Dies erfordert jedoch erhebliche Mengen an GPU-Speicher, wodurch der GPU-Speicher zu einem Hauptengpass für die Inferenz für lange Kontexte wird.
Was ist UCM?
Unified Cache Manager (UCM) ist eine von Huawei entwickelte Open-Source-KI-Inference-Suite. UCM nutzt KV-Cache- und Speichermanagement, um die Token-Flüsse in jeder Servicephase durch die Zusammenarbeit von Inferenz-Framework, Rechenleistung und Speicher zu optimieren. Damit werden die Probleme bei der KI-Inferenz in Bezug auf die Verarbeitung langer Sequenzen, hohe Latenz und hohe Inferenzkosten gelöst.