このサイトはCookieを使用しています。 サイトを閲覧し続けることで、Cookieの使用に同意したものとみなされます。 プライバシーポリシーを読む>

検索
  • AI推論高速化ソリューション

    AI推論高速化ソリューション

    推論コンピューティングのボトルネックを打破し、業界全体でのAI導入を加速します

  • 概要
  • 利点
  • アーキテクチャ
  • 製品

AI推論の高速化:企業におけるAI導入を促進

高度に訓練されたモデルが実社会に導入されるにつれ、推論性能はユーザー体験とアプリケーション自体のビジネス価値に影響を与える重要な要素となっています。AI推論はもはや単なる質問への回答にとどまらず、長文文書の分析、複雑なビジネス上の意思決定の支援、膨大な情報から実用的なインサイトへの変換といった、ビッグリーグへと進出しています。1万語の論文から重要なポイントを抽出したり、100ページに及ぶ医療ガイドラインに基づいて意思決定を導いたりと、AIはますます多くの課題に直面しています。超長文テキストの理解、遅延の低減、大規模な同時実行処理、反復的なコンピューティングの削減が求められています。これらの機能により、AIツールは業界の専門家にとって頼りになる相棒となり、業界のインテリジェントな変革を加速させるでしょう。

業界導入におけるAI推論の課題

  • 推論の​​失敗

    モデルのコンテキストウィンドウを超える長いシーケンス入力は、モデルに推論の切り捨てやバッチ処理を強いるため、完全な推論が不可能になります。
  • 遅い推論

    シーケンス長が増加するにつれ、最初のトークンまでの時間(TTFT)が延び、推論スループットが低下します。
  • 高コスト推論

    KV(Key-Value)キャッシュを継続的に使用できないため、大量の繰り返し計算が発生し、トークンあたりの計算コストが高くなります。

利点

10倍長いコンテキストウィンドウ

10倍長いコンテキストウィンドウ

KVキャッシュのストレージへのオフロードと階層化により、超長シーケンスの推論失敗を解決し、シーケンス長を10倍に拡張します。
最大90%短縮されたTTFT

最大90%短縮されたTTFT

マルチターンQ&Aや業界要約・分析シナリオにおいて、プレフィックスキャッシュアルゴリズムのキーバリュー(KV)ヒット率は90%を超えます。
22倍向上したシステムスループット

22倍向上したシステムスループット

プリフィルフェーズでは過去の推論データに基づくクエリによる重複計算を排除。デコードフェーズではKVスパース加速技術でKVを保持し、計算負荷を軽減することでシステムスループットを向上。
アーキテクチャ

アーキテクチャ

ファーウェイのAI推論高速化ソリューションは、OceanStor Aシリーズストレージを基盤とし、統合キャッシュマネージャー(Unified Cache Manager、UCM)を搭載しています。このソリューションは、フルライフサイクルのキーバリュー(KV)キャッシュに対する階層的な管理とスケジューリングを実現することで推論効率とユーザー体験を向上させ、産業全体でのAI導入を加速します。

アーキテクチャ
Huawei

関心を Be Interested

TOP