AI 正在为所有人创造价值,从药物发现领域的研究人员到应对金融市场变化的量化分析师均受益匪浅。
AI 系统生成“token”(用于串联输出结果的数据单元)的速度越快,其影响力就越大。这正是 AI 工厂的关键所在,它提供了从“首 token 时延”到“首次价值实现时间”的最高效路径。
AI 工厂正在重新定义现代基础设施的经济学。它们通过大规模地将数据转化为有价值的输出内容(无论是 token、预测、图像、蛋白质还是其他形式的内容)来生产智能。
AI 工厂有助于提升 AI 应用流程中的三个关键环节:数据摄取、模型训练和高吞吐量推理。通过三大核心技术栈(AI 模型、加速计算基础设施和企业级软件),AI 工厂能够更快、更精准地生成 token。
下面将介绍 AI 工厂是如何帮助全球各地的企业把最宝贵的数字商品——数据转化为创收潜力的。
从推理经济学到价值创造
在构建 AI 工厂之前,理解推理经济学至关重要,推理经济学意味着如何平衡成本、能效和日益增长的 AI 需求。
吞吐量指模型可生成的 token 总量。延迟是模型在特定时间内输出的 token 数量,通常以首 token 时延(用户输入提示后,模型生成第一个输出 token 所需的时间)和“首 token 后,每个输出 token 的时延”(生成每个额外 token 所需的时间)来衡量。有效吞吐量(Goodput)是一个较新的指标,用于衡量一个系统在满足延迟目标的同时可交付的有用输出量。
用户体验是所有软件应用的关键所在,AI 工厂也不例外。高吞吐量意味着更智能的 AI,低延迟则确保了及时的响应。当这两项指标实现合理平衡时,AI 工厂就可通过快速提供有用的输出,带来卓越的用户体验。
例如,响应时间为 0.5 秒的 AI 客服比 5 秒响应的 AI 客服更具吸引力和价值,即使两者最终生成的 token 数量相同。
企业可借此机会为其推理输出设定具有竞争力的价格,从而提升每个 token 的创收潜力。
衡量和可视化这种平衡颇具挑战,而这正是“帕累托”前沿概念的用武之地。
AI 工厂输出:高效 Token 的价值
如下图所示,在规模化部署 AI 时,帕累托前沿有助于直观地表明如何在冲突的目标(如快速响应与同时服务更多用户)之间达到最优的平衡。
纵轴代表给定能耗下的吞吐效率(单位为 TPS,也就是每秒 token 数)。该数值越高,AI 工厂可同时处理的请求就越多。
横轴表示单个用户的 TPS,代表模型响应用户给出首个提示的用时。该数值越高,预期的用户体验就越好。对于聊天机器人和实时分析工具等交互式应用,更低的延迟和快速的响应尤为重要。
帕累托前沿的最大值(显示为曲线顶点)代表了特定运行配置下的最佳输出。目标是为不同的 AI 工作负载和应用找到吞吐量与用户体验之间的最优平衡。
顶尖的 AI 工厂通过加速计算来提升“每瓦 token 数”,即在优化 AI 性能的同时大幅提高 AI 工厂和应用的能效。
以上展示的动画对比了在 NVIDIA Hopper GPU(配置为每用户每秒 32 个 token)与 NVIDIA Blackwell Ultra GPU(配置为每用户每秒 344 个 token)上运行时的用户体验。在上述用户体验设置下,Blackwell Ultra 实现了 10 倍以上的体验提升和近 5 倍的更高吞吐量,实现了最高达 50 倍的创收潜力。
AI 工厂的实际运行
AI 工厂是一个系统,它包含了一套将数据转化为智能的组件。它不一定是高端的本地数据中心,也可能是在加速计算基础设施上运行的 AI 专用云或混合模型,甚至可能是同时优化网络并执行边缘推理的电信基础设施。
任何配备了软件的加速计算基础设施,只要能通过 AI 将数据转化为智能,本质上均可视为 AI 工厂。
AI 工厂的组件包括了加速计算、网络、软件、存储、系统以及工具和服务。
当用户向 AI 系统输入提示时,AI 工厂的全栈系统就开始工作。它将提示 token 化,也就是将数据转化为图像、声音、文字片段等语义单元。
每个 token 被输入到 GPU 驱动的 AI 模型中,随之在模型上进行计算密集型推理,以生成最佳响应。每个 GPU 通过高速网络和互连技术执行并行处理,从而同时处理海量数据。
对于来自全球用户的各种提示,AI 工厂都会运行上述流程。这种实时推理能够以工业级规模来生产智能。
由于 AI 工厂整合了整个 AI 生命周期,该系统能够持续改进:记录推理过程,标记边缘案例以进行再训练,优化循环随时间逐渐收敛。这一切均无需人工干预,这就是“有效吞吐量”的实际体现。
面向 AI 工厂的 NVIDIA 全栈技术
AI 工厂将 AI 从一系列零散的实验转化为可扩展、可重复且可靠的创新与商业价值生成引擎。
NVIDIA 提供构建 AI 工厂所需的所有组件,包括加速计算、高性能 GPU、高带宽网络和优化的软件。
例如,NVIDIA Blackwell GPU 可以通过网络连接,采用液冷技术提升能效,并由 AI 软件统一编排。
开源推理平台 NVIDIA Dynamo 为 AI 工厂提供了一种操作系统,该系统旨在以最高的效率和最低的成本加速并扩展 AI。通过智能地路由、调度和优化推理请求,Dynamo 确保每个 GPU 周期都能得到充分利用,从而以峰值性能生产 token。
NVIDIA Blackwell GB200 NVL72 系统和 NVIDIA InfiniBand 网络专为最大化“每瓦 token 吞吐量”而设计,使 AI 工厂在总吞吐量和低延迟方面均实现高效运行。
通过验证优化后的全栈解决方案,企业可以高效地构建和维护前沿 AI 系统。全栈 AI 工厂助力企业实现卓越运营,使他们能更快、更自信地驾驭 AI 的潜力。
全部评论