OpenAI发布GPT4o:能“视频通话”、识别情绪 openai发布chatgpt4.0 openai发布gpt-4模型联网
admin
2024-05-14 20:52:42
0


当地时间5月13日,OpenAI发布了GPT4o。这一发布仅提前48小时声明,发布时长也只持续26分钟,但效果拔群。

根据OpenAI官网介绍,此次发布的GPT4o,其中“o”指代“Omni”,是一个拉丁词根,意为“所有的”“全部的”或“全能”。而GPT4o也确实不负其名:在发布过程中展现了接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的能力。

根据OpenAI官网的介绍,GPT4o可以在232毫秒内响应音频输入,平均为320毫秒,与人类在对话中的响应时间相似。在此之前,如果用户使用语音模式与ChatGPT通话,有平均为2.8秒(GPT-3.5)和5.4秒(GPT-4)的延迟。这是由于GPT-3.5和GPT-4使用的是三模型组合管道——先使用简单模型将音频转录为文本,GPT-3.5或GPT-4接收后输出文本,再将其转换回音频。这意味着在过程中GPT-4会丢失大量信息——它不能直接观察音调、多个说话者或背景噪音,也不能输出笑声、歌声或表达情感。

至于GPT4o,OpenAI专门为其训练了一个跨文本、视觉和音频的端到端的新模型,这意味着所有输入和输出都由同一个神经网络处理。因为GPT4o是OpenAI第一个结合这些模式的模型,OpenAI表示,他们仍在探索模型的功能及其局限性。

然而,即便如此,GPT4o展现出的功能已经十分强大。在OpenAI的发布直播中,OpenAI总裁Brockman现场演示,GPT4o可以识别出Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。

更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。

在演示中,Brockman让两个GPT互相对话,新版GPT4o向旧版GPT描述了Brockman的衣着打扮和房间环境。在谈话过程期间有一名女性加入,在Brockman身后比出搞怪的手势,这也被GPT4o发觉并表述出来。在对话最后,Brockman还指挥GPT4o和GPT根据此前聊天的内容对唱。

此外,GPT4o在英文文本和代码上的性能与此前发布的GPT-4 Turbo相当,在非英文文本上有则有显著改善。此外,GPT4o在API上也快得多,要价还比GPT-4 Turbo便宜50%。

这意味着GPT4o可以更便宜的价格,更高效地接入其他的应用中。在OpenAI的演示中,他们就邀请了可汗学院创始人和他的儿子试用了其延展的教育功能:视频中,GPT4o直接读出了孩子手中ipad上的题目,并根据家长的指示帮助辅导儿童,和双方进行语音实时互动。

除了辅导作业外,GPT4o更像一个全方面的AI助理,它还能在视频会议中帮用户录音、做会议纪要、会议总结;渲染合成3D物品;实时进行多语言翻译等等。OpenAI还释出重磅消息:除了GPT4o外,ChatGPT Plus也将免费向大众开放,包括视觉、联网、记忆、执行代码、GPT Store等多种功能。

采写:南都记者 胡耕硕

相关内容

热门资讯

【看表情包学Linux】进程地...   🤣 爆笑教程 👉 《看表情包学Linux》👈 猛...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
编译原理陈火旺版第三章课后题答... 下面答案仅供参考! 1.编写一个对于 Pascal 源程序的预处理程序。该程序的作用是...
MacBookPro M2芯片... MacBookPro M2芯片下如何搭建React-Native环境目录软件下载环境配置 目录 写在...
Android studio ... 解决 Android studio 出现“The emulator process for AVD ...
pyflink学习笔记(六):... 在pyflink学习笔记(一)中简单介绍了table-sql的窗口函数,下面简单介绍下...
创建deployment 创建deployment服务编排-DeploymentDeployment工作负载均衡器介绍Depl...
gma 1.1.4 (2023... 新增   1、地图工具    a. 增加【GetWorldDEMDataSet】。提供了一套 GEO...
AI专业教您保姆级在暗影精灵8... 目录 一、Stable Diffusion介绍    二、Stable Diffusion环境搭建 ...
vue笔记 第一个Vue应用 Document{{content}}{{...
Unity自带类 --- Ti... 1.在Unity中,自己写的类(脚本)的名字不能与Unit...
托福口语21天——day5 发... 目录 一、连读纠音 二、语料输入+造句输出 三、真题 一、连读纠音 英语中的连读方式有好几种...
五、排序与分页 一、排序 1、语法 ORDER BY 字段 ASC | DESC ASC(ascen...
Linux系统中如何安装软件 文章目录一、rpm包安装方式步骤:二、deb包安装方式步骤:三、tar....
开荒手册4——Related ... 0 写在前面 最早读文献的时候,每每看到related work部分都会选择性的忽略&...
实验01:吃鸡蛋问题 1.实验目的: 通过实验理解算法的概念、算法的表示、算法的时间复杂度和空间复杂度分析&...
8个免费图片/照片压缩工具帮您... 继续查看一些最好的图像压缩工具,以提升用户体验和存储空间以及网站使用支持。 无数图像压...
Spring Cloud Al... 前言 本文小新为大家带来 Sentinel控制台规则配置 相关知识,具体内容包括流控...
多项目同时进行,如何做好进度管... 多项目同时进行,如何做好进度管理? 大多数时候,面对项目进...
ATTCK红队评估实战靶场(二... 前言 第二个靶机来喽,地址:vulunstack 环境配置 大喊一声我...