谷歌称其超级计算机比NVIDIA更快、更节能

来源: 芯闻路1号 2023-04-05 12:02:49
天权
哈喽,我是天权。一个想要把半导体行业严肃、好玩、前沿、辉煌瞬间分享给大家的女子! 每月会给大家带来有关半导体行业的直播研讨会,偶尔会串场其他频道。从客观、真实的角度,每次根据主题聊出一点半导体行业有趣、可思考的东西,愿和大家共同见证半导体行业的风起云涌!

  4 月 5 日消息,Alphabet Inc.旗下谷歌公司周二公布了其用于训练人工智能模型的超级计算机的新细节,称这些系统比英伟达的同类系统更快更省电。

  谷歌自主设计了一种名为张量处理单元(Tensor Processing Unit,简称 TPU)的芯片,用于训练人工智能模型,该公司 90% 以上的人工智能训练工作都使用这些芯片,这些模型可以用于诸如用人类语言回答问题或生成图像等任务。

  谷歌的 TPU 现在已经是第四代了。谷歌周二发表了一篇科学论文,详细介绍了他们如何使用自己定制开发的光学开关将 4000 多个芯片串联成一台超级计算机。

  改善这些连接已经成为建造人工智能超级计算机的公司之间竞争的关键点,因为为谷歌的 Bard 或 OpenAI 的 ChatGPT 等技术提供动力的所谓大型语言模型的规模已经爆炸性增长,这意味着它们太大,无法存储在单个芯片上。

  这些模型必须被分割到数以千计的芯片中,然后这些芯片必须协同工作数周或更长时间来训练模型。谷歌的 PaLM 模型 —— 迄今为止其公开披露的最大的语言模型 —— 是通过将其分散到 4,000 个芯片的两台超级计算机上,历时 50 天进行训练的。

  谷歌表示,其超级计算机可以轻松地实时重新配置芯片之间的连接,有助于避免问题并提高性能。

  谷歌研究员 Norm Jouppi 和谷歌杰出工程师 David Patterson 在一篇关于该系统的博文中写道:“电路切换使我们很容易绕过故障部件。这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速 ML(机器学习)模型的性能。”

  虽然谷歌现在才公布其超级计算机的细节,但它已经于 2020 年在内部上线,在美国俄克拉荷马州梅斯县(Mayes County)的一个数据中心运行。谷歌表示,初创公司 Midjourney 使用了该系统来训练其模型,该模型可以在输入文字后生成图像。

  谷歌在论文中说,对于同等规模的系统,其超级计算机比基于 NVIDIA A100 芯片的系统快 1.7 倍,节能 1.9 倍。谷歌表示,之所以没有将其第四代产品与 NVIDIA 目前的旗舰产品 H100 芯片进行比较,因为 H100 是在谷歌的芯片之后上市的,而且是用更新的技术制造的。谷歌暗示他们可能正在开发一种新的 TPU,与 NVIDIA H100 竞争。

专题

查看更多
IC品牌故事

IC 品牌故事 | 三次易主,安世半导体的跨国迁徙

IC 品牌故事 | 开放合作+特色深耕,华虹的突围之路

IC 品牌故事 | Wolfspeed:从LED到SiC,被中国厂商围追堵截的巨头

人形机器人

市场 | 全球首家机器人6S店在深圳龙岗开业

方案 | Allegro解决方案助力机器人应用提升效率、可靠性和创新

方案 | 爱仕特SiC三电平方案:突破工商储能PCS高效极限

毫米波雷达

毫米波雷达 | 智能驾驶不可或缺的4D毫米波雷达技术全解析

毫米波雷达 | 有哪些热门毫米波雷达芯片和解决方案?

毫米波雷达 | 超百亿美元的毫米波雷达都用在了哪里?

0
收藏
0