File size: 46,951 Bytes
dd05f29
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
en_url,en_title,en,jp_url,jp_title,ja
https://developer.nvidia.com/blog/expanding-ai-agent-interface-options-with-2d-and-3d-digital-human-avatars/,Expanding AI Agent Interface Options with 2D and 3D Digital Human Avatars,"When interfacing with
generative AI
applications, users have multiple communication options—text, voice, or through digital avatars.
Traditional chatbot or copilot applications have text interfaces where users type in queries and receive text-based responses. For hands-free communication, speech AI technologies like
automatic speech recognition
(ASR) and
text-to-speech
(TTS) facilitate verbal interactions, ideal for scenarios like phone-based customer service. Moreover, combining digital avatars with speech capabilities provides a more dynamic interface for users to engage visually with the application. According to Gartner, by 2028, 45% of organizations with more than 500 employees will leverage employee AI avatars to expand the capacity of human capital.
1
Digital avatars can vary widely in style—some use cases benefit from photorealistic 3D or 2D avatars, while other use cases work better with a stylized, or cartoonish avatar.
3D Avatars
offer fully immersive experiences, showcasing lifelike movements and photorealism. Developing these avatars requires specialized software and technical expertise, as they involve intricate body animations and high-quality renderings.
2D Avatars
are quicker to develop and ideal for web-embedded solutions. They offer a streamlined approach to creating interactive AI, often requiring artists for design and animation but less intensive in terms of technical resources.
To kickstart your creation of a photo-realistic digital human, the
NVIDIA AI Blueprint on digital humans for customer service
can be tailored for various use cases. This functionality is now included with support for the NVIDIA Maxine
Audio2Face-2D
NIM microservice. ‌Additionally, the blueprint now offers flexibility in rendering for 3D avatar developers to use
Unreal Engine
.
How to add a talking digital avatar to your agent application
In the AI Blueprint for digital humans, a user interacts with an
AI agent
that leverages
NVIDIA ACE
technology (Figure 1).
Figure 1. Architecture diagram for the NVIDIA AI Blueprint for digital humans
The audio input from the user is sent to the ACE agent which orchestrates the communication between various NIM microservices. The ACE agent uses the
Riva Parakeet NIM
to convert the audio to text, which is then processed by a RAG pipeline. The RAG pipeline uses the NVIDIA NeMo Retriever
embedding
and
reranking
NIM microservices, and an
LLM NIM
, to respond with relevant context from stored documents.
Finally, the response is converted back to speech via Riva TTS, animating the digital human using the Audio2Face-3D NIM or Audio2Face-2D NIM.
Considerations when designing your AI agent application
In global enterprises, communication barriers across languages can slow down operations. AI-powered avatars with multilingual capabilities communicate across languages effortlessly. The digital human AI Blueprint provides conversational AI capabilities that simulate human interactions that accommodate users’ speech styles and languages through Riva ASR, neural machine translation (NMT) along with intelligent interruption and barge-in support.
One of the key benefits of digital human AI agents is their ability to function as “always-on” resources for employees and customers alike. RAG-powered AI agents continuously learn from interactions and improve over time, providing more accurate responses and better user experiences.
For enterprises considering digital human interfaces, choosing the right avatar and rendering option depends on the use case and customization preferences.
Use Case
: 3D avatars are ideal for highly immersive use cases like in physical stores, kiosks or primarily one-to-one interactions, while 2D avatars are effective for web or mobile conversational AI use cases.
Development and Customization Preferences
: Teams with 3D and animation expertise can leverage their skillset to create an immersive and ultra-realistic avatar, while teams looking to iterate and customize quickly can benefit from the simplicity of 2D avatars.
Scaling Considerations:
Scaling is an important consideration when evaluating avatars and corresponding rendering options. Stream throughput, especially for 3D avatars, is highly dependent on the choice and quality of the character asset used, the desired output resolution and the rendering option of choice (Omniverse Renderer or Unreal Engine) can play a critical role in determining per stream compute footprint.
NVIDIA Audio2Face-2D allows creation of lifelike 2D avatars from just a portrait image and voice input. Easy and simple configurations allow developers to quickly iterate and produce target avatars and animations for their digital human use cases. With real-time output and cloud-native deployment, 2D digital humans are ideal for interactive use cases and streaming avatars for interactive web-embedded solutions.
For example, enterprises looking to deploy AI agents across multiple devices and inserting digital humans into web- or mobile-first customer journeys, can benefit from the reduced hardware demands of 2D avatars.
3D photorealistic avatars provide an unmatched immersive experience for use cases demanding ‌highly empathetic user engagement. NVIDIA Audio2Face-3D and Animation NIM microservices animate a 3D character by generating blendshapes along with subtle head and body animation to create an immersive, photorealistic avatar. The digital human AI Blueprint now supports two rendering options for 3D avatars, including Omniverse Renderer and Unreal Engine Renderer, providing developers the flexibility to integrate the rendering option of their choice.
To explore how digital humans can enhance your enterprise, visit the
NVIDIA API catalog
to learn about the different avatar options.
Getting started with digital avatars
For hands-on development with Audio2Face-2D and Unreal Engine NIM microservices,
apply for ACE Early Access
or dive into the digital human AI Blueprint
technical blog
to learn how you can add digital human interfaces to personalize chatbot applications.
1
Gartner®, Hype Cycle for the Future of Work, 2024 by Tori Paulman, Emily Rose McRae, etc., July 2024
GARTNER is a registered trademark and service mark of Gartner, Inc. and/or its affiliates in the U.S. and internationally and is used herein with permission. All rights reserved.",https://developer.nvidia.com/ja-jp/blog/expanding-ai-agent-interface-options-with-2d-and-3d-digital-human-avatars/,2D ず 3D のデゞタル ヒュヌマン アバタヌによる AI ゚ヌゞェント むンタヌフェむス オプションの拡匵,"Reading Time:
2
minutes
ナヌザヌが
生成 AI
アプリケヌションを䜿っおやり取りする際には、テキスト、音声、デゞタル アバタヌなど耇数のコミュニケヌション オプションを利甚するこずができたす。
埓来のチャットボットやコパむロット アプリケヌションでは、ナヌザヌが問い合わせを入力し、テキストベヌスの応答を受信するテキスト むンタヌフェむスを䜿甚しおいたす。ハンズフリヌのコミュニケヌションでは、
自動音声認識
(ASR: Automatic Speech Recognition) や
音声合成
(TTS: Text-To-Speech) などの音声 AI 技術により、電話を䜿甚したカスタマヌ サヌビスなどのシナリオに最適な口頭によるやり取りが容易になりたす。さらに、デゞタル アバタヌに音声機胜を持たせるこずで、ナヌザヌがアプリケヌションを芖芚的に䜿甚できるため、ダむナミックなむンタヌフェむスを提䟛できたす。Gartner によるず、2028 幎たでに、埓業員 500 名以䞊の組織の 45% が、人的資本の胜力拡倧のために、 AI アバタヌの埓業員を掻甚するようになるそうです。
1
デゞタル アバタヌのスタむルは様々で、フォトリアリスティックな 3D たたは 2D のアバタヌが適しおいるケヌスもあれば、定型化されたアバタヌや挫画のようなアバタヌの方が適しおいるケヌスもありたす。
3D アバタヌ
は、リアルな動きず写実性を再珟し、完党な没入䜓隓を提䟛したす。このようなアバタヌの開発には、耇雑なボディヌ アニメヌションや高品質のレンダリングが必芁ずなるため、専門的な゜フトりェアや技術的な専門知識が必芁になりたす。
2D アバタヌ
は開発が迅速で、Web に組み蟌み゜リュヌションに最適です。むンタラクティブな AI の䜜成に合理的なアプロヌチを提䟛し、デザむンやアニメヌションにはアヌティストが必芁になるこずが倚いですが、技術的なリ゜ヌスの面はそれほど負担になりたせん。
フォトリアリスティックなデゞタル ヒュヌマンの䜜成を始めるにあたり、
カスタマヌ サヌビス向けデゞタル ヒュヌマンの NVIDIA AI Blueprint
は、さたざたなナヌス ケヌスに合わせおカスタマむズするこずができたす。この機胜は珟圚、NVIDIA Maxine
Audio2Face-2D
NIM マむクロサヌビスのサポヌトに含たれおいたす。さらに、この Blueprint では、3D アバタヌ開発者が
Unreal Engine
を䜿甚できるよう、レンダリングに柔軟性を持たせおいたす。
゚ヌゞェント アプリケヌションに䌚話するデゞタル アバタヌを远加する方法
デゞタル ヒュヌマン向け AI Blueprint では、ナヌザヌが
NVIDIA ACE
技術を掻甚した
AI ゚ヌゞェント
ず察話したす (図 1)。
図 1. デゞタル ヒュヌマン向け NVIDIA AI Blueprint のアヌキテクチャ
ナヌザヌによる音声入力は、さたざたな NIM マむクロサヌビス間の通信を調敎する ACE ゚ヌゞェントに送信されたす。ACE ゚ヌゞェントは、
Riva Parakeet NIM
を䜿甚しお音声をテキストに倉換し、そのテキストは RAG パむプラむンで凊理されたす。RAG パむプラむンでは、NIM マむクロサヌビスの
埋め蟌み
ず
リランク
を行う NVIDIA NeMo Retriever ず
LLM NIM
を䜿甚しお、保存されたドキュメントから関連するコンテキストを甚いお応答したす。
最埌に、Riva TTS を介しおこの応答を音声に倉換し、Audio2Face-3D NIM たたは Audio2Face-2D NIM を䜿甚しおデゞタル ヒュヌマンをアニメヌション化したす。
AI ゚ヌゞェント アプリケヌションを蚭蚈する際に考慮すべきポむント
グロヌバル䌁業では、蚀語の壁によるコミュニケヌションの障害が業務の劚げずなるこずがありたす。倚蚀語機胜を備えた AI 搭茉アバタヌを䜿甚すれば、蚀語の壁を超えた円滑なコミュニケヌションを取るこずができたす。デゞタル ヒュヌマン AI Blueprint は、Riva ASR やニュヌラル機械翻蚳 (NMT: Neural Machine Translation) に加え、むンテリゞェントな割り蟌みやバヌゞむン機胜を備え、ナヌザヌの話し方や蚀語に柔軟に察応できる、人間らしい察話型 AI を実珟したす。
デゞタル ヒュヌマン AI ゚ヌゞェントの䞻な利点の 1 ぀は、埓業員ず顧客の䞡者にずっお「垞時皌働する」リ゜ヌスずしお機胜できるこずです。RAG を搭茉した AI ゚ヌゞェントは、やりずりから継続的に孊習し、時間の経過ずずもに改善しおいくため、より正確な察応ずより優れたナヌザヌ䜓隓を提䟛するこずができたす。
デゞタル ヒュヌマン むンタヌフェむスを怜蚎しおいる䌁業にずっお、適切なアバタヌずレンダリング オプションの遞択は、ナヌス ケヌスやカスタマむズ蚭定に䟝存したす。
ナヌス ケヌス
: 3D アバタヌは、実店舗やキオスク (無人端末) など、䞻に 1察 1 のやりずりのような、非垞に没入感の高いナヌス ケヌスに最適ですが、2D アバタヌは、Web やモバむルの察話型 AI ナヌス ケヌスに効果的です。
開発ずカスタマむズの蚭定
: 3D やアニメヌションの専門知識を持぀チヌムは、そのスキルを掻甚しお没入感のある超リアルなアバタヌを䜜成できたす。䞀方、反埩䜜業やカスタマむズを迅速に行いたいチヌムには、シンプルな 2D アバタヌが有効です。
スケヌリングの考慮すべきポむント
: アバタヌず察応するレンダリング オプションを評䟡する際に、スケヌリングは考慮すべき重芁なポむントです。ストリヌムのスルヌプットは、特に 3D アバタヌの堎合、䜿甚するキャラクタヌ アセットの遞択ず品質によっお倧きく異なりたす。垌望する出力解像床や遞択するレンダリング オプション (Omniverse Renderer たたは Unreal Engine) は、ストリヌムあたりの蚈算フットプリントを決定する䞊で重芁な圹割を果たしたす。
NVIDIA Audio2Face-2D では、顔写真ず音声入力だけでリアルな 2D アバタヌを䜜成できたす。簡単でシンプルな構成のため、開発者はデゞタル ヒュヌマンのナヌス ケヌスに合わせたアバタヌやアニメヌションを迅速に繰り返し䜜成できたす。リアルタむム出力ずクラりド ネむティブのデプロむにより、2D デゞタル ヒュヌマンは、むンタラクティブなナヌス ケヌスや、むンタラクティブな Web 組み蟌み゜リュヌション向けのストリヌミング アバタヌに最適です。
たずえば、耇数のデバむスに AI ゚ヌゞェントをデプロむし、Web たたはモバむル ファヌストのカスタマヌ ゞャヌニヌにデゞタル ヒュヌマンを導入しようずしおいる䌁業には、2D アバタヌはハヌドりェア芁件が軜枛するのでメリットがありたす。
3D のフォトリアリスティックなアバタヌは、高い共感が芁求されるナヌザヌ ゚ンゲヌゞメントを必芁ずするナヌス ケヌスに、比類のない没入䜓隓を提䟛したす。NVIDIA Audio2Face-3D ずアニメヌション NIM マむクロサヌビスは、繊现な頭郚ず身䜓のアニメヌションずずもにブレンドシェむプを生成し、没入感のあるフォトリアリスティックなアバタヌを䜜成するこずで、3D キャラクタヌをアニメヌション化したす。デゞタル ヒュヌマン AI Blueprint は、3D アバタヌのレンダリング オプションをずしお、Omniverse レンダラヌず Unreal-Engine レンダラヌをサポヌトしおおり、開発者が遞択したレンダリング オプションを柔軟に統合できるようになりたした。
デゞタル ヒュヌマンが䌁業を匷化する方法に぀いおは、
NVIDIA API カタログ
にアクセスしお、さたざたなアバタヌのオプションをご芧ください。
デゞタル アバタヌを始める
Audio2Face-2D ず Unreal Engine NIM マむクロサヌビスを䜿甚した実践的な開発に぀いおは、
ACE 早期アクセスに申し蟌む
か、デゞタル ヒュヌマン AI Blueprint の
技術ブログ
にアクセスしお、チャットボット アプリケヌションをパヌ゜ナラむズするためにデゞタル ヒュヌマン むンタヌフェむスを远加する方法に぀いお孊ぶこずができたす。
1
Gartner®, Hype Cycle for the Future of Work, 2024 by Tori Paulman, Emily Rose McRae, etc., July 2024
GARTNER is a registered trademark and service mark of Gartner, Inc. and/or its affiliates in the U.S. and internationally and is used herein with permission. All rights reserved.
関連情報
GTC セッション:
Enhancing the Digital Human Experience with Cloud Microservices Accelerated by Generative AI
GTC セッション:
Build a World of Interactive Avatars Based on NVIDIA Omniverse, AIGC, and LLM
NGC コンテナヌ:
ACE ゚ヌゞェント サンプル フロント゚ンド
SDK:
NVIDIA Tokkio
りェビナヌ:
How Telcos Transform Customer Experiences with Conversational AI"
https://developer.nvidia.com/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/,5x Faster Time to First Token with NVIDIA TensorRT-LLM KV Cache Early Reuse,"In our previous
blog post
, we demonstrated how reusing the key-value (KV) cache by offloading it to CPU memory can accelerate time to first token (TTFT) by up to 14x on x86-based NVIDIA H100 Tensor Core GPUs and 28x on the NVIDIA GH200 Superchip. In this post, we shed light on KV cache reuse techniques and best practices that can drive even further TTFT speedups.
Introduction to KV cache
LLM models are rapidly being adopted for many tasks, including question-answering, and code generation. To generate a response, these models begin by converting the user’s prompt into tokens, which are then transformed into dense vectors. Extensive dot-product operations follow to mathematically model the relationships between the tokens and build a contextual understanding of the user input. The computational cost of generating this contextual understanding increases quadratically with the length of the input sequence.
This resource-intensive process generates keys and values, which are cached to avoid recomputation when generating subsequent tokens. Reusing the KV cache reduces the computational load and time needed to generate additional tokens—leading to a faster and more efficient user experience.
When reusing the KV cache, careful attention must be given to how long it remains in memory, which components to evict first when memory is full, and when it can be reused for new incoming prompts. Optimizing these factors can lead to incremental performance improvements in KV cache reuse. NVIDIA TensorRT-LLM offers three key features that specifically address these areas.
Early KV cache reuse
Traditional reuse algorithms require the entire KV cache computation to be completed before any portions of it can be reused with new user prompts. In scenarios such as enterprise chatbots, where system prompts—predefined instructions added to user queries—are essential to direct the LLM’s responses in line with enterprise guidelines, this method can be inefficient.
When a surge of users interacts with the chatbot simultaneously, each user would require a separate computation of the system prompt KV cache. With TensorRT-LLM, we can instead reuse the system prompt as it is being generated in real time, enabling it to be shared across all users during the burst, rather than recalculating it for each user. This can significantly accelerate inference for use cases requiring system prompts by up to 5x.
Figure 1. TensorRT-LLM KV cache reuse can speed up TTFT by up to 5x
Flexible KV cache block sizing
In reuse implementations, only entire cache memory blocks can be allocated for reuse. For example, if the cache memory block size is 64 tokens and KV cache is 80 tokens, only 64 tokens will be stored for reuse, while the remaining 16 tokens will need to be recomputed. However, if the memory block size is reduced to 16 tokens, all 64 tokens can be stored across five memory blocks, eliminating the need for re-computation.
This effect is most pronounced when the input sequences are short. For long input sequences, larger blocks can be more beneficial.  As is clear, the more granular the control you have over the KV cache, the better you can optimize it for your specific use case.
TensorRT-LLM provides fine-grained control over KV cache memory blocks, giving developers the ability to chop them into smaller blocks between 64 to 2 tokens. This optimizes the usage of allocated memory, increases reuse rates, and improves TTFT. When running LLAMA70B on NVIDIA H100 Tensor Core GPUs, we can speed up TTFT up to 7% in multi-user environments by reducing KV cache block size from 64 tokens to 8 tokens.
Figure 2. Impact of changing KV cache block size on inference speedup
Efficient KV cache eviction protocols
Partitioning the KV cache into smaller blocks and evicting unused ones can be effective for memory optimization, but it introduces dependency complexities. When a specific block is used to generate a response, and the result is stored as a new block, it can form a tree-like structure of dependencies.
Over time, the counters tracking the usage of the source blocks (the branches) may become stale as the dependent nodes (the leaves) are reused. Evicting the source block then requires the eviction of all dependent blocks, which would require recalculation of the KV cache for new user prompts, increasing TTFT.
To address this challenge, TensorRT-LLM includes intelligent eviction algorithms that can trace the dependent nodes from their source nodes and evict dependent nodes first, even if they have more recent reuse counters. This ensures more efficient memory management while preventing unnecessary evictions of dependent blocks.
Figure 3. A logical representation of KV cache eviction algorithm show how it can reduce the number of evicted blocks, increasing the likelihood of reuse
Getting started with TensorRT-LLM KV cache reuse
Generating KV cache during inference requires a lot of compute and memory resources. Using it efficiently is critical to improving model response, accelerating inference, and increasing system throughput. TensorRT-LLM provides advanced reuse features for developers looking to further optimize TTFT response times for peak performance.
To start using TensorRT-LLM KV cache reuse check out our
GitHub documentation
.",https://developer.nvidia.com/ja-jp/blog/5x-faster-time-to-first-token-with-nvidia-tensorrt-llm-kv-cache-early-reuse/,NVIDIA TensorRT-LLM の KV Cache Early Reuseで、Time to First Token を 5 倍高速化,"Reading Time:
2
minutes
以前の
ブログ蚘事
では、key-value (KV) キャッシュを CPU メモリにオフロヌドしお再利甚するこずで、最初のトヌクンが出力されるたでの時間 (TTFT: Time To First Token) を x86 ベヌスの NVIDIA H100 Tensor コア GPU で最倧 14 倍、NVIDIA GH200 Superchip で最倧 28 倍に高速化できる方法をご玹介したした。本蚘事では、KV キャッシュの再利甚技術ず、TTFT のさらなる高速化を実珟するベストプラクティスに぀いお解説したす。
KV キャッシュの抂芁
LLM モデルは、質問回答やコヌド生成など、倚くのタスクで急速に採甚されおいたす。応答を生成するにあたり、これらのモデルはたず、ナヌザヌのプロンプトをトヌクンぞ倉換し、その埌これらのトヌクンを密ベクトルぞず倉換したす。膚倧なドット積挔算がその埌に続き、その埌トヌクン間の関係性を数孊的にモデル化し、ナヌザヌ入力に察する文脈理解を構築したす。この文脈理解を生成するためにかかる蚈算コストは、入力シヌケンスの長さの二乗に比䟋しお増加したす。
このリ゜ヌスを倧量に消費するプロセスから key ずvalue が生成され、埌続のトヌクンを生成するずきに再床蚈算されないようにキャッシュされたす。KV キャッシュを再利甚するこずで、远加のトヌクンを生成する際に必芁ずなる蚈算負荷ず時間が軜枛され、より高速で効率的なナヌザヌ䜓隓を実珟したす。
KV キャッシュを再利甚するずきには、キャッシュがメモリに残る期間、メモリが䞀杯になったずきに最初に削陀するコンポヌネント、および新しい入力プロンプトに再利甚できるタむミングなどの点に现心の泚意を払う必芁がありたす。これらの芁因を最適化するこずで、KV キャッシュの再利甚におけるパフォヌマンスの段階的な増加ぞず぀なげるこずができたす。NVIDIA TensorRT-LLM は、これらの分野に特化した 3 ぀の䞻芁な機胜を提䟛したす。
Early KV cache reuse
埓来の再利甚アルゎリズムでは、KV キャッシュをその䞀郚であっおも新しいナヌザヌ プロンプトで再利甚するためには、事前にすべおの KV キャッシュの蚈算を完了させおおく必芁がありたした。この方法は、LLM のレスポンスを䌁業のガむドラむンに沿ったものにするために、システム プロンプト (ナヌザヌの問い合わせに远加される事前定矩の指瀺) が䞍可欠ずなる䌁業向けチャットボットなどのシナリオでは、非効率的である可胜性がありたす。
チャットボットず同時にやり取りするナヌザヌが急増した堎合、各ナヌザヌに察しおシステム プロンプト KV キャッシュを個別に蚈算する必芁がありたす。TensorRT-LLM では、リアルタむムで生成されるシステム プロンプトを再利甚するこずができるため、急増時にはすべおのナヌザヌず共有するこずができ、ナヌザヌごずに再蚈算する必芁がありたせん。これにより、システム プロンプトを必芁ずするナヌス ケヌスの掚論を最倧 5 倍にたで高速化するこずができたす。
図 1. TensorRT-LLM KV cache reuse により、TTFT を最倧 5 倍高速化
柔軟な KV キャッシュ ブロック サむズ
再利甚を実装する際には、キャッシュ メモリ ブロック党䜓のみを再利甚に割り圓おるこずができたす。䟋えば、キャッシュ メモリ ブロック サむズが 64 トヌクンで、KV キャッシュが 80 トヌクンである堎合、再利甚のために保存できるのは 64 トヌクンのみであり、残りの 16 トヌクンは再蚈算する必芁がありたす。しかしながら、メモリ ブロック サむズを 16 トヌクンに枛らすず、64 トヌクンすべおを 5 ぀のメモリ ブロックに栌玍するこずができ、再蚈算の必芁性がなくなりたす。
この効果は、入力シヌケンスが短いずきに最も顕著に珟れたす。長い入力シヌケンスの堎合は、より倧きなブロックの方がより有益です。明らかに、KV キャッシュをより现かく制埡できればできるほど、特定のナヌス ケヌスに合わせた最適化も向䞊したす。
TensorRT-LLM では、KV キャッシュ メモリ ブロックをきめ现かく制埡できるため、開発者は KV キャッシュ メモリ ブロックを 64 から 2 トヌクンたで、より小さなブロックに分割するこずができたす。これにより、割り圓おられたメモリの䜿甚が最適化され、再利甚率が䞊昇し、TTFT が改善されたす。NVIDIA H100 Tensor コア GPU で LLAMA70B を実行する堎合、KV キャッシュ ブロックサむズを 64 トヌクンから 8 トヌクンぞず枛らすこずで、マルチナヌザヌ環境で TTFT を最倧 7% 高速化できたす。
図 2. KV キャッシュ ブロック サむズの倉曎による掚論の高速化
効率的な KV キャッシュの陀倖 (Eviction) プロトコル
KV キャッシュをより小さなブロックに分割し、未䜿甚のブロックを陀倖するこずは、メモリの最適化に効果的ですが、䟝存関係に耇雑さが生たれたす。特定のブロックがレスポンスの生成に䜿甚され、その結果が新しいブロックずしお保存されるず、䟝存関係のツリヌ構造が圢成される可胜性がありたす。
時間の経過ずずもに、゜ヌス ブロック (ブランチ) の䜿甚を远跡するカりンタヌは、埓属ノヌド (リヌフ) が再利甚されるに぀れお叀くなる可胜性がありたす。゜ヌス ブロックを陀倖するには、埓属するすべおのブロックを陀倖する必芁があり、新しいナヌザ プロンプトの KV キャッシュを再蚈算する必芁が生じお TTFT が増加したす。
この課題に察凊するために、TensorRT-LLM には、埓属ノヌドを゜ヌス ノヌドから远跡し、埓属ノヌドがより最近の再利甚カりンタヌを持っおいる堎合でも、最初に埓属ノヌドを陀倖するこずができるむンテリゞェントな陀倖アルゎリズムが含たれおいたす。これにより、より効率的にメモリを管理できるようになるず共に、埓属ブロックの䞍芁な陀倖を回避できたす。
図 3. KV キャッシュの陀倖アルゎリズムの論理を衚珟した図。陀倖されるブロックの数を枛らし、再利甚の可胜性を高められる様子を瀺しおいたす。
TensorRT-LLM KV cache reuse を䜿い始める
掚論䞭に KV キャッシュを生成するには、倚くの蚈算ずメモリ ゜ヌスが必芁になりたす。効率的に䜿甚するこずが、モデル応答の改善、掚論の高速化、システム スルヌプットの向䞊には䞍可欠です。TensorRT-LLM は、ピヌク性胜のために TTFT 応答時間をさらに最適化しようずする開発者に高床な再利甚機胜を提䟛したす。
TensorRT-LLM KV cache reuse を䜿い始めるには、
GitHub のドキュメント
を参照しおください。
関連情報
GTC セッション:
Speeding up LLM Inference With TensorRT-LLM (TensorRT-LLM による LLM 掚論の高速化)
GTC セッション:
Optimizing and Scaling LLMs With TensorRT-LLM for Text Generation (テキスト生成のための TensorRT-LLM を䜿甚した LLM の最適化ずスケヌリング)
SDK:
Torch-TensorRT
SDK:
TensorRT
SDK:
TensorFlow-TensorRT"
https://developer.nvidia.com/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/,State-of-the-Art Multimodal Generative AI Model Development with NVIDIA NeMo,"Generative AI
has rapidly evolved from text-based models to multimodal capabilities. These models perform tasks like image captioning and visual question answering, reflecting a shift toward more human-like AI. The community is now expanding from text and images to video, opening new possibilities across industries.
Video AI models are poised to revolutionize industries such as robotics, automotive, and retail. In
robotics
, they enhance autonomous navigation in complex, ever-changing environments, which is vital for sectors like manufacturing and warehouse management. In the automotive industry, video AI is propelling autonomous driving, boosting vehicle perception, safety, and predictive maintenance to improve efficiency.
To build image and video foundation models, developers must curate and preprocess a large amount of training data, tokenize the resulting high-quality data at high fidelity, train or customize pretrained models efficiently and at scale, and then generate high-quality images and videos during inference.
Announcing NVIDIA NeMo for multimodal generative AI
NVIDIA NeMo
is an end-to-end platform for developing, customizing, and deploying generative AI models.
NVIDIA just announced the expansion of NeMo to support the end-to-end pipeline for developing multimodal models. NeMo enables you to easily curate high-quality visual data, accelerate
training
and
customization
with highly efficient tokenizers and parallelism techniques, and reconstruct high-quality visuals during inference.
Accelerated video and image data curation
High-quality training data ensures high-accuracy results from an AI model. However, developers face various challenges in building data processing pipelines, ranging from scaling to data orchestration.
NeMo Curator
streamlines the data curation process, making it easier and faster for you to build multimodal generative AI models. Its out-of-the-box experience minimizes the total cost of ownership (TCO) and accelerates time-to-market.
While working with visuals, organizations can easily reach petabyte-scale data processing. NeMo Curator provides an orchestration pipeline that can load balance on multiple GPUs at each stage of the data curation. As a result, you can reduce video processing time by 7x compared to a naive GPU-based implementation. The scalable pipelines can efficiently process over 100 PB of data, ensuring the seamless handling of large datasets.
Figure 1. NVIDIA NeMo Curator video processing speed
NeMo Curator provides reference video curation models optimized for high-throughput filtering, captioning, and embedding stages to enhance dataset quality, empowering you to create more accurate AI models.
For instance, NeMo Curator uses an optimized captioning model that delivers an order of magnitude throughput improvement compared to unoptimized inference model implementations.
NVIDIA Cosmos tokenizers
Tokenizers map redundant and implicit visual data into compact and semantic tokens, enabling efficient training of large-scale generative models and democratizing their inference on limited computational resources.
Today’s open video and image tokenizers often generate poor data representations, leading to lossy reconstructions, distorted images, and temporally unstable videos and placing a cap on the capability of generative models built on top of the tokenizers. Inefficient tokenization processes also result in slow encoding and decoding and longer training and inference times, negatively impacting both developer productivity and the user experience.
NVIDIA Cosmos tokenizers are open models that offer superior visual tokenization with exceptionally large compression rates and cutting-edge reconstruction quality across diverse image and video categories.
Video 1. Efficient Generative AI Tokenizers for Image and Video
These tokenizers provide ease of use through a suite of tokenizer standardized models that support vision-language models (VLMs) with discrete latent codes, diffusion models with continuous latent embeddings, and various aspect ratios and resolutions, enabling the efficient management of large-resolution images and videos. This provides you with tools for tokenizing a wide variety of visual input data to build image and video AI models.
Cosmos tokenizer architecture
A Cosmos tokenizer uses a sophisticated encoder-decoder structure designed for high efficiency and effective learning. At its core, it employs 3D
causal convolution blocks
, which are specialized layers that jointly process spatiotemporal information, and uses causal temporal attention that captures long-range dependencies in data.
The causal structure ensures that the model uses only past and present frames when performing tokenization, avoiding future frames. This is crucial for aligning with the causal nature of many real-world systems, such as those in physical AI or multimodal LLMs.
Figure 2. NVIDIA Cosmos tokenizer architecture
The input is downsampled using 3D wavelets, a signal processing technique that represents pixel information more efficiently. After the data is processed, an inverse wavelet transform reconstructs the original input.
This approach improves learning efficiency, enabling the tokenizer encoder-decoder learnable modules to focus on meaningful features rather than redundant pixel details. The combination of such techniques and its unique training recipe makes the Cosmos tokenizers a cutting-edge architecture for efficient and powerful tokenization.
During inference, the Cosmos tokenizers significantly reduce the cost of running the model by delivering up to 12x faster reconstruction compared to leading open-weight tokenizers (Figure 3).
Figure 3. Quantitative comparison of reconstruction quality (left) and runtime performance (right) for video tokenizers
The Cosmos tokenizers also produce high-fidelity images and videos while compressing more than other tokenizers, demonstrating an unprecedented quality-compression trade-off.
Figure 4. Continuous tokenizer compression rate compared to reconstruction quality
Figure 5. Discrete tokenizer compression rate compared to reconstruction quality
Although the Cosmos tokenizer regenerates from highly compressed tokens, it is capable of creating high-quality images and videos due to an innovative neural network training technique and architecture.
Figure 6. Reconstructed video frame for continuous video tokenizers
Build Your Own Multimodal Models with NeMo
The expansion of the NVIDIA NeMo platform with at-scale data processing using
NeMo Curator
and high-quality tokenization and visual reconstruction using the Cosmos tokenizer empowers you to build state-of-the-art multimodal, generative AI models.
Join the waitlist
and be notified when NeMo Curator is available. The tokenizer is available now on the
/NVIDIA/cosmos-tokenizer
GitHub repo and
Hugging Face
.",https://developer.nvidia.com/ja-jp/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/,NVIDIA NeMo による最先端のマルチモヌダル生成 AI モデル開発,"Reading Time:
2
minutes
生成 AI
は、テキストベヌスのモデルからマルチモヌダル機胜ぞず急速に進化しおいたす。これらのモデルは、画像のキャプション䜜成や芖芚的な質問回答などのタスクを実行し、より人間に近い AI ぞずシフトしおいるこずを反映しおいたす。このコミュニティは珟圚、テキストや画像から動画ぞず拡倧しおおり、さたざたな業界で新たな可胜性を切り開かれおいたす。
動画 AI モデルは、ロボティクス、自動車、小売などの業界に革呜を起こそうずしおいたす。
ロボティクス
では、補造業や倉庫管理などの分野に䞍可欠な、耇雑で倉化し続ける環境における自埋的なナビゲヌションを匷化しおいたす。自動車業界では、動画 AI が自動運転を掚進し、車䞡の認識、安党性、予知保党を匷化し、効率性を高めおいたす。
画像や動画の基盀モデルを構築するには、開発者は倧量の孊習デヌタのキュレヌションず事前凊理を行い、結果ずしお埗られた高品質デヌタを高い忠実床でトヌクン化し、孊習枈みモデルを効率的に倧芏暡に孊習たたはカスタマむズしお、掚論䞭に高品質な画像や動画を生成する必芁がありたす。
マルチモヌダル生成 AI 向けの NVIDIA NeMo を発衚
NVIDIA NeMo
は、生成 AI モデルを開発、カスタマむズ、デプロむする゚ンドツヌ゚ンドのプラットフォヌムです。
NVIDIA は、マルチモヌダル モデル開発向けの゚ンドツヌ゚ンドのパむプラむンをサポヌトする NeMo の拡匵を発衚したした。NeMo により、高品質な芖芚デヌタを簡単にキュレヌションし、高効率なトヌクナむザヌず䞊列凊理技術で
å­Šç¿’
ず
カスタマむズ
を加速し、掚論䞭に高品質なビゞュアルを再構築するこずができたす。
動画ず画像デヌタのキュレヌションを加速
高品質な孊習デヌタでは、AI モデルから高粟床な結果が埗られたす。しかし、開発者は、デヌタ凊理パむプラむンの構築においお、スケヌリングからデヌタのオヌケストレヌションたで、さたざたな課題に盎面しおいたす。
NeMo Curator
は、デヌタ キュレヌション プロセスを合理化するこずで、マルチモヌダル生成 AI モデルをより簡単か぀迅速に構築するこずができたす。すぐに詊すこずができるため、総保有コスト (TCO) を最小限に抑え、垂堎投入たでの時間を短瞮したす。
ビゞュアルを扱う際には、組織はペタバむト芏暡のデヌタ凊理を容易に実行できたす。NeMo Curator は、デヌタ キュレヌションの各段階で耇数の GPU に負荷分散できるオヌケストレヌション パむプラむンを提䟛したす。その結果、単玔な GPU ベヌスの実装ず比范しお、動画凊理時間を 7 分の 1 に短瞮できたす。スケヌル可胜なパむプラむンは、100 PB を超えるデヌタを効率的に凊理でき、倧芏暡なデヌタセットをシヌムレスに取り扱うこずができたす。
図 1. NVIDIA NeMo Curator の動画凊理速床
NeMo Curator は、高いスルヌプットのフィルタリング、キャプション䜜成、埋め蟌みの各段階に最適化されたリファレンス ビデオ キュレヌション モデルを提䟛し、デヌタセットの品質を向䞊させ、より正確な AI モデルの䜜成をサポヌトしたす。
たずえば、NeMo Curator は、最適化されたキャプション モデルを䜿甚し、最適化されおいない掚論モデルの実装ず比范しお、桁違いのスルヌプットの向䞊を実珟したす。
NVIDIA Cosmos トヌクナむザヌ
トヌクナむザヌは、冗長的で暗黙的な芖芚デヌタをコンパクトで意味のあるトヌクンにマッピングし、倧芏暡な生成モデルの効率的な孊習を実珟し、誰もが限られた蚈算リ゜ヌスで掚論できるようにしたす。
今日のオヌプンな動画や画像のトヌクナむザヌは、デヌタ衚珟が䞍十分なこずが倚いため、劣化の倚い再構築、歪んだ画像、䞍連続な動画に぀ながり、トヌクナむザヌ䞊に構築された生成モデルの胜力に限界をもたらしたす。トヌクン化プロセスが非効率なため、゚ンコヌドやデコヌドに時間がかかり、孊習や掚論の時間が長くなり、開発者の生産性ずナヌザヌ䜓隓の䞡方に悪圱響を及がしたす。
NVIDIA Cosmos トヌクナむザヌは、優れた芖芚トヌクン化を提䟛するオヌプンなモデルで、さたざたな画像や動画のカテゎリヌで、高い圧瞮率ず最先端の再構築品質を実珟したす。
離散的な朜圚コヌドを備えた芖芚蚀語モデル (VLM: Vision-language Model)、連続した朜圚的埋め蟌みによる拡散モデル、さたざたなアスペクト比や解像床をサポヌトする䞀連のトヌクナむザヌ暙準化モデルを䜿甚しお、これらのトヌクナむザヌを簡単に䜿甚でき、高解像床の画像や動画を効率的に管理するこずができたす。これにより、画像や動画 AI モデルを構築するために、幅広い芖芚入力デヌタをトヌクン化するツヌルが提䟛されたす。
Cosmos トヌクナむザヌのアヌキテクチャ
Cosmos トヌクナむザヌは、高効率か぀効果的な孊習向けに蚭蚈されおおり、高床な゚ンコヌダヌ / デコヌダヌ構造を䜿甚しおいたす。その䞭栞には 3D
Causal Convolution Block
(因果畳み蟌みブロック) を採甚しおいたす。これは時空間情報を共同凊理する特殊なレむダヌで、デヌタの長期的な䟝存関係を捉える Causal Temporal Attention (因果的時間泚意機構) を䜿甚しおいたす。
この因果構造により、トヌクン化の実行時にモデルが過去ず珟圚のフレヌムのみを䜿甚し、未来のフレヌムは䜿甚したせん。これは、物理的なAIやマルチモヌダルLLMなどの倚くの珟実䞖界のシステムの因果性に合わせるために重芁です。
図 2. NVIDIA Cosmos トヌクナむザヌのアヌキテクチャ
入力は、ピクセル情報をより効率的に衚す信号凊理技術である 3D りェヌブレットを䜿甚しおダりンサンプリングされたす。デヌタ凊理埌、逆りェヌベレット倉換によっお元の入力が再構築されたす。
このアプロヌチにより、孊習効率が向䞊し、トヌクナむザヌの゚ンコヌダヌ / デコヌダヌの孊習可胜なモゞュヌルは、冗長なピクセルの詳现ではなく、意味のある特城に焊点を圓おるこずができたす。このような技術ず独自の孊習レシピの組み合わせにより、Cosmos トヌクナむザヌは、効率的か぀匷力なトヌクン化を実珟する最先端のアヌキテクチャずなっおいたす。
掚論の際、Cosmos トヌクナむザヌは、䞻芁なオヌプンりェむトのトヌクナむザヌず比范しお最倧 12 倍高速な再構築を実珟し、モデルの実行コストを倧幅に削枛したした (図 3)。
図 3. Cosmos トヌクナむザヌず䞻芁なオヌプンりェむトのトヌクナむザヌずの比范
Cosmos トヌクナむザヌは、他のトヌクナむザヌよりも高い圧瞮率を実珟しながら、高い忠実床の画像や動画を生成し、前䟋のない品質ず圧瞮のトレヌドオフを実珟しおいたす。
図 4. 連続トヌクナむザヌの圧瞮率ず再構築品質の比范
図 5. 離散トヌクナむザヌの圧瞮率ず再構築品質の比范
Cosmos トヌクナむザヌは、高床に圧瞮されたトヌクンから再生成されたすが、革新的なニュヌラル ネットワヌクの孊習技術ずアヌキテクチャにより、高品質な画像や動画を䜜成するこずができたす。
図 6. 連続動画トヌクナむザヌで再構築された動画フレヌム
NeMo で独自のマルチモヌダル モデルを構築
NeMo Curator
を䜿甚した倧芏暡なデヌタ凊理ず、Cosmos トヌクナむザヌを䜿甚した高品質なトヌクン化やビゞュアル再構築を備えた、NVIDIA NeMo プラットフォヌムの拡匵により、最先端のマルチモヌダル生成 AI モデルを構築するこずができたす。
登録
しおいただくず、NeMo Curator が利甚可胜になった際に通知を受け取るこずができたす。トヌクナむザヌは、珟圚
/NVIDIA/cosmos-tokenizer
GitHub リポゞトリおよび
Hugging Face
で利甚するこずができたす。
関連情報
GTC セッション:
Large Language Model Fine-Tuning using Parameter Efficient Fine-Tuning (PEFT を䜿甚した倧芏暡蚀語モデルのファむンチュヌニング)
GTC セッション:
Large Language Model Fine-Tuning using NVIDIA NeMo (NVIDIA NeMo を䜿甚した倧芏暡蚀語モデルのファむンチュヌニング – Domino Data Lab 提䟛)
SDK:
NVIDIA NeMo カスタマむザヌ
SDK:
NeMo LLM サヌビス
SDK:
NeMo Megatron"