超负荷Google I/O:AI大满贯更新在前,没人关注Pixel手机

来源: 极客公园 2023-05-11 08:06:19

  在 AI 上积累了7年的谷歌,迎来了一场真正以 AI 为核心的 I/O 发布会。

  

  比起去年,强调「整合全球信息,使人人都能从访问中受益」的使命,谷歌 CEO Sundar Pichai 今年 以「Making AI helpful for everyone」总领整个发布会。AI 将成为工具,帮助每一个人。这既包括了谷歌一贯强调的整合信息、学习,还包括 AI 成为创作力辅助、帮助企业更好地创新产品。

  模型、产品、功能、平台、硬件,一个接一个 demo,一个接一个 trailer,掌声和欢呼一刻也没有停下。

  如果没有 OpenAI 和微软带来的竞争,我们可能永远看到不到这样一场,超负荷的 Google I/O 发布会。

  在这两个半小时里,山景城的海滨露天剧场,渴望成为世界中心。

  开场三个 Demo

  开场前的表演即是一个生成式人工智能实验。

  音乐家丹·迪肯使用谷歌的 MusicLM、Phenaki 和 Bard Al 制作。「在制作这个节目的过程中,没有鸭子受到伤害。」

  Sundar Pichai 登台,「机会终于来了,」他说,「这是 AI 的好年」。

  在大模型及一系列产品功能更新前,他先上了三碟前菜。

  

  Gmail 发布新功能「帮我写」(Help Me Write),根据邮件内容,用自然语言命令 AI 撰写对应的回复。

  比如,航空公司发来航班取消的邮件,表示会送上代金券作为补偿,这时候你可以让 AI 帮你写一个全额退款的邮件,它就会结合具体邮件内容,撰写全文。

  

  Google Maps 将街景与导航结合,发布新功能「沉浸式路线视图」(Immersive View for routes)。

  用户可以在导航时,直接提前看到整个路线的动态街景视角。

  

  在这一视图中,用户还能查看路线中的交通、天气情况。

  

  Google Photos 推出「魔法编辑器」(Magic Editor)。

  

  这是编辑前的图片,仅仅使用拖拽和一键优化,孩子的位置移动了,天空变得更蓝了。

  

  PaLM2 取代了 LamDA,

  分化出四个版本

  如今谈 AI 技术,必须先亮出大模型,谷歌也不例外。

  在 I/O 之前,关于谷歌最新模型的消息就陆续传出。此前支持 Bard 的模型是一个轻量级的对话模型 LamDA,Pichai 在三月份采访中就表示,将把背后的模型升级为更大规模的 PaLM 模型。

  I/O2023 上,最新最强的 PaLM2 终于露出了庐山真面目。PaLM2 是 PaLM1 的升级版。PaLM2 在数学、编码、推理、多语言翻译和自然语言生成上的表现都更加出色。

  Pichai 现场展示了一个修改 Bug 后,用韩语对代码进行解释的例子:

  

  

  PaLM 是谷歌于 2022 年 4 月份推出的大语言模型,有 5400 亿参数。这次介绍的 PaLM2 是在此基础上的升级版。PaLM 是 Pathways Language Model 缩写。可以理解为,在 Pathway 架构上训练的模型。

  Jeff Dean 曾经专门撰文介绍 Pathway 架构,这个架构是为了可以处理多任务的通用模型而设计,采用了一种新的异步分布式数据流,这使得并行计算和运行更加高效。Pathways 还可以支持包含视觉、听觉和语言理解的多模态模型。

  PaLM2 使用谷歌自主研发的 TPU 进行计算,具体使用了多少算力计算 PaLM2 目前尚未公布,但可以参考训练 PaLM1 的数据,使用了 6144 块 TPU。

  使用谷歌最新的 TPU 架构来训练模型,意味着在基础工程上,谷歌进行了整合计算、优化缩放、改善数据集组合和模型架构等各项工作,这些也能够使得模型能力灵活被调用进各种产品、服务中。谷歌能够将模型的能力按照需求进行蒸馏和提炼。

  为了让模型的能力更灵活地服务于产品,Pichai 特地强调,PalM2 有四种不同的尺寸,分别以动物的名称命名:壁虎、水獭、野牛和独角兽。其中壁虎(Gecko)最轻量级的版本。

  

  Gecko is so lightweight that it can work on mobile devices and is fast enough for great interactive applications on-device, even when offline. This versatility means PaLM 2 can be fine-tuned to support entire classes of products in more ways, to help more people.

  Gecko 是如此轻量级,以至于它可以在移动设备上工作,而且速度足够快,可以在设备上运行交互式应用程序,即使在离线时也是如此。这种多功能性意味着可以对 PalM2 进行微调,以便以更多的方式支持整个类别的产品,从而帮助更多的人。

  最轻的模型可以在移动设备上运行交互应用程序,而在最新的三星 Galaxy 上,它能够每秒处理 16 个Token。

  此外,pathway 架构的设置,也利于在特定领域对模型进行微调。健康研究团队在此基础上进一步发展,创建了 Med-PaLM 2,它可以检索医学知识、回答问题、生成有用的模板,解码医学行话。

  在上一代 AI 视觉技术中,AI 已经被训练能够看懂 X 光片等图像,现在结合语言生成能力,模型能够根据提供的

  搜索新体验:升级 Bard 之外,

  又加了一个 Search Lab

  之前为了应对 NewBing 的挑战,谷歌匆匆上线了对话机器人 Bard。但是从各种用户反馈来看,许多人都觉得作为搜索助手的 Bard 不如 NewBing 好用。

  对话与生成将更新搜索体验,已经成为新的共识,但是具体的产品形态依旧在探索的路上。谷歌也不想用 Bard 这个产品完全定义自己未来的搜索产品形态,因此关于搜索功能的升级,Keynote 中分为两个部分来展示:Bard 产品升级,Search Lab 的新功能测试。而这些新的功能,都由最 PalM2 来支持。

  Bard 的基本功能点升级比如支持更多语言,能够识别图像信息,都属于规定动作,并无意外。让人感到惊喜的地方是,Bard 将接通谷歌自己的应用程序,以及一些外部的应用,来实现更强大的功能。

  比如,有着惊艳语言生成图像能力的 Adobe firefly,在未来几个月将直接集成到 Bard 中。这样在和 Bard 的对话中,就能够设计图片,比如请柬的封面、想象中的蛋糕。

  谷歌地图、图表能力也能够直接在 Bard 中调用。现场演示给了一个例子,用户通过提问得到了几所符合自己报考目的大学名单,让 Bard 在地图中将这几个学校的地址标出来,再让 Bard 根据学习的专业、排名、地址等相关信息生成对比表格。

  

  

  关于复杂问题的搜索,则在 Search Lab 的环节中进行演示。Search Lab 是一个探索性的产品,目前还没有全部开放,需要申请 Waitlist 才能使用。

  新的搜索体验试图帮助人们更好地分析一个复杂、或者有些模糊的问题。在人们开始搜索的时候,往往问题并不明确,而是知道一个大致的方向,又或者是问题能够再被拆分为子问题。

0
收藏
0