• APP
  • 登录

GTC22 | 不会挂机的韩语语音服务:KT 利用 NVIDIA AI 训练智能扬声器和客户呼叫中心

来源: NVIDIA英伟达
2022-09-27 17:20:17

  韩国先进的移动运营商构建包含数百亿个参数的大型语言模型,并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型。

  

  在韩国受欢迎的 AI 语音助手 GiGA Genie 每天会与 800 万人交谈。
 

  这款 AI 赋能的扬声器由电信公司 KT 提供,不仅能控制电视和提供实时流量更新信息,还能根据语音命令完成大量其他家居辅助任务。得益于大型语言模型 (LLM)(能根据庞大的文本数据集识别、理解、预测和生成人类语言的机器学习算法),这款扬声器掌握了以极为复杂的韩语进行对话的技能。

  

  该公司构建了包含数百亿个参数的 LLM,并且使用 NVIDIA DGX SuperPOD 数据中心基础架构平台与 NeMo Megatron 框架来训练和部署这些模型。

  

  毫无疑问,韩语 (Hangul) 是一种极为复杂的语言。它包含四种类型的复合动词,而且词语通常由两个或更多个词根组成。

  

  KT 是韩国先进的移动运营商,拥有超过 2200 万用户。该公司通过开发包含大约 400 亿个参数的 LLM,提高了智能扬声器对此类词语的理解能力。此外,通过与 Amazon Alexa 进行集成,GiGA Genie 也可以使用英语与用户交谈。

  

  KT 的 LLM 开发团队负责人 Hwijung Ryu 说道:“借助基于 Transformer 的模型,我们显著改善了 GiGA Genie 智能扬声器和我们客户服务平台 AI 联络中心 (AICC) 的品质。” 

  

  AICC 是基于云的一体式平台,可提供 AI 语音代理和其他与客户服务相关的应用。

  

  它可以接听电话并提供客户需要的信息,或者快速将客户转接到人工代理,以便对更详细的询问进行解答。Ryu 指出,无需人工干预的 AICC 每天可以管理韩国各地打来的 10 万多个电话。

  

  他补充说道:“LLM 使 GiGA Genie 能够更好地理解语言并生成更接近人类语言的句子,而 AICC 能更快地对询问类型进行汇总和分类,从而将咨询时间缩短 15 秒。”

  训练大型语言模型

  

  开发 LLM 可能是一个成本高昂且耗费时间的过程,并需要深厚的专业技术知识和巨大的全栈技术投资。

  

  NVIDIA AI 平台简化并加快了 KT 的这一过程。

  

  Ryu 说:“我们利用 NVIDIA DGX SuperPOD 的强大性能以及 NeMo Megatron 的优化算法和 3D 并行技术,更有成效地训练了 LLM 模型。NeMo Megatron 不断采用新功能,这是我们认为它在提高模型准确性方面的巨大优点。”

  

  3D 并行对训练 KT 的 LLM 至关重要,它是一种分布式训练方法,可将超大规模的深度学习模型分散到多台设备上。Ryu 指出,NeMo Megatron 使团队能够以尽可能高的吞吐量轻松完成这项任务。

  

  他补充道:“我们考虑过使用其他平台,但很难找到从硬件级别到推理级别都能提供全栈环境的替代平台。NVIDIA 还提供来自产品、工程团队等的出色专业知识,使我们轻松解决了多个技术问题。”

  

  Ryu 表示,通过使用 NeMo Megatron 中的超参数优化工具,KT 训练其 LLM 的速度比使用其他框架快 2 倍。借助这些工具,用户可以自动找到更适合 LLM 训练和推理的配置,从而简化和加快开发与部署过程。

  

  KT 还计划使用 NVIDIA Triton 推理服务器来提供优化的实时推理服务,以及使用 NVIDIA Base Command Manager 轻松监控和管理其 AI 集群中的数百个节点。

  

  Ryu 说:“得益于 LLM,KT 可以比以往更快地发布充满竞争力的产品。我们还确信我们的技术可以推动其他公司的创新,因为它可以用来增加价值和创造新颖的产品。”

  

  KT 计划在 11 月向开发者发布 20 多个自然语言理解和自然语言生成 API(应用程序编程接口)。这些 API 可用于多种任务,包括文档摘要和分类、情绪识别和潜在不当内容的过滤等。

   

芯查查官网
0
收藏
0