5月14日凌晨,OpenAI正式发布最新升级的大模型GPT-4o。GPT-4o的“o”代表“omni”。该词意为“全能”,源自拉丁语“omnis”,在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。
GPT-4o可以实时对音频、视觉和文本进行推理,能处理超过50种不同的语言,并且速度和质量大大提升。
此前GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,无法识别笑声、歌唱声和情感表达等。
而GPT-4o可以在232毫秒内对音频输入做出反应,甚至还能随意打断,与人类在对话中的反应时间相近,彻底颠覆了以往的“语音助手”。
GPT-4o在现场充当实时翻译表现亮眼,意大利语和英语即听即翻。
最重要的是,GPT-4o还可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,人机交互更加自然、全面了。
GPT-4o的能力还会向免费用户开放,不过会限制数量,免费用户达到数量之后,会自动跳回GPT-3.5。
GPT-4o还将开放相应API给GPT的开发者,价格是GPT-4-turbo的一半,速度却是GPT-4-turbo的两倍,速率限制也高5倍。
官方表示,GPT-4o将会在未来几周内陆续开放。此外,OpenAI还推出了ChatGPT的桌面版应用,不过目前只有MacOS版本,Windows版要稍晚一些亮相。
据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。
文本能力测试。
与GPT-4对比多语言考试能力。
更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。
在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。
与 Meta、谷歌的语音转写模型相比,GPT-4o 同样领先(越高越好)。
若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?
OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。
比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。
或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。
在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。
甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。
「今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。」Mira Murati 如是说道。
全部评论