OpenAI推出新旗舰模型GPT-4o “属于每个人的云端情人来了” gpt-4是最强的ai大模型吗 openai推出gpt-4视图
admin
2024-05-14 15:54:34
0

北京时间周二凌晨1点,自年初"文生视频模型"Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官米拉·穆拉蒂(Mira Murati)向外界展现了多项与ChatGPT有关的更新。

整体来看,活动主要分为两大部分:推出新旗舰模型"GPT-4o",以及在ChatGPT中免费提供更多功能。

其中最重磅的是新的模型GPT-4o。根据OpenAI的官网解释,"o"代表"全知",是朝着更自然的人类与计算机交互迈出的一步。

有情绪的AI来了

OpenAI在活动中发布了新旗舰模型"GPT-4o","可以实时对音频、视觉和文本进行推理。"据介绍,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。

据了解,GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,"与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。"

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解"紧张"的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

就从这次演示来看,这一交互层面的升级才证明了多模态确实是AI的Game Changer。

更强的是手机版的GPT-4o可以通过语音能力理解你的话语,状态(累不累,喘气粗不粗)。

还能通过视觉识别你所处的环境和你正在做的事情,并对它作出反应。帮你解数学题,没问题,解完还能陪你聊聊人生。

这就是OpenAI想做到的全知:一个陌生人看到你时所能感受到的几乎一切,它全部能接收到。因此它也有了真正能和你做与你私人相关的,符合场景的操作。

OpenAI称,"我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。"

除了在直播中重点强调的功能,在OpenAI的技术文档中,我们看到在GPT4-o的能力列表中,还包含3D能力、图像诗能力、转换卡通照片等能力。


OpenAI官方Blog中的能力探索列表比如:生成3D模型的魔法


像波德莱尔那帮现代主义诗人一样,用诗歌或logo填满规定的形象。


潜在的粘土人能力,只不过OpenAI选的是把现实头像转换卡通图像

这一切都说明, GPT-4o给我们可能带来的惊喜可能还远不止如此。

正如Sam Altamn所说,正是在这个背景下,属于每个人的云端情人HER到来了。

更多工具免费解锁

第二件事情就是宣布,ChatGPT的免费用户也能用上最新发布的GPT-4o模型(更新前只能使用GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者,将面对海量的新增用户。

当然,付费用户将会获得更高的消息限额(OpenAI说至少是5倍)。当免费用户用完消息数量后,ChatGPT将自动切换到 GPT-3.5。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。

另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户可以通过快捷键"拍摄"桌面并向ChatGP提问,OpenAI表示,Windows版本将在今年晚些时候推出。

未能参加直播活动的OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交平台X上发帖表示:"我们的新模型:GPT-4o是我们迄今为止最优秀的模型。它既智能又快速,并且是原生多模态模型。"


综合来源:每日经济新闻、财联社

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
JAVA多线程知识整理 Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
【洛谷 P1090】[NOIP... [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
国民技术LPUART介绍 低功耗通用异步接收器(LPUART) 简介 低功耗通用异步收发器...
城乡供水一体化平台-助力乡村振... 城乡供水一体化管理系统建设方案 城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
中国版ChatGPT在哪些方面... 目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
报名开启 | 共赴一场 Flu... 2023 年 1 月 25 日,Flutter Forward 大会在肯尼亚首都内罗毕...
汇编00-MASM 和 Vis... Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
【简陋Web应用3】实现人脸比... 文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
前缀和与对数器与二分法 1. 前缀和 假设有一个数组,我们想大量频繁的去访问L到R这个区间的和,...
windows安装JDK步骤 一、 下载JDK安装包 下载地址:https://www.oracle.com/jav...
分治法实现合并排序(归并排序)... 🎊【数据结构与算法】专题正在持续更新中,各种数据结构的创建原理与运用✨...
在linux上安装配置node... 目录前言1,关于nodejs2,配置环境变量3,总结 前言...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
Linux内核进程管理并发同步... 并发同步并发 是指在某一时间段内能够处理多个任务的能力,而 并行 是指同一时间能够处理...
opencv学习-HOG LO... 目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
【Unity 手写PBR】Bu... 写在前面 前期积累: GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...