OpenAI最强多模态语言模型来了:GPT-4发布
创始人
2025-05-28 11:18:21
0

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

GPT-4

(封面图由ERNIE-ViLG AI 作画大模型生成)

OpenAI最强多模态语言模型来了:GPT-4发布

OpenAI最新推出了深度学习中规模最大的多模态模型——GPT-4,它接受图像和文本输入,并生成文本输出。GPT-4虽然在许多实际场景中的能力不及人类,但在各种专业和学术基准测试中表现出了人类级别的性能。例如,它通过了模拟的律师资格考试,并获得了约排名前10%的分数,而GPT-3.5的分数约为排名倒数10%。经过6个月的迭代调整和ChatGPT的帮助,GPT-4在事实性、可操纵性和不越界方面取得了迄今为止最好的结果(尽管远非完美)。
GPT-4

1. GPT-4训练过程

GPT-4的训练过程是OpenAI与Azure合作,设计了一个超级计算机,并在过去两年中重建了整个深度学习栈。一年前,他们以GPT-3.5为“试跑”模型进行了训练,并修复了一些错误和提高了理论基础。因此,GPT-4的训练结果对于OpenAI来说是前所未有的稳定,是他们首个能够准确预测训练性能的大型模型。随着继续专注于可靠的扩展,他们的目标是磨练方法,以帮助他们更加提前预测和准备未来的能力——这对于安全至关重要。

GPT-4可以接受文本和图像输入,并生成文本输出。它比GPT-3.5更可靠、更具创造性,能够处理更多细微的指令。OpenAI测试了多种基准测试,包括模拟人类设计的考试。他们使用最新的公共测试(在奥林匹克和AP自由回答问题的情况下)或购买2022-2023年的练习考试进行测试。在这些考试中,他们没有进行特定的培训。虽然模型在训练过程中看到了少数考试问题,但OpenAI相信结果是有代表性的。他们还将GPT-4评估在传统的机器学习模型基准测试上。GPT-4相对于现有的大型语言模型以及包括基准特定工艺或额外训练协议的大多数最先进的模型(SOTA)表现出色。

GPT-4还可以接受并处理各种语言输入,包括低资源语言,如拉脱维亚语、威尔士语和斯瓦希里语等。
GPT-4 3-shot accuracy on MMLU across languages

2. 评估结果

对于语言模型而言,评估指标包括了模型的生成能力、模型对于文本逻辑结构的把握能力、模型对于事实准确性的处理能力、模型的多样性等。根据OpenAI官方发布的信息,GPT-4在这些指标上都有着不俗的表现。例如,GPT-4在某些职业和学术测试上表现出了人类水平的能力,例如在模拟律师考试时,GPT-4的得分达到了全体测试者的前10%,而之前的GPT-3.5的得分仅在后10%。

此外,GPT-4还在多语言的测试中表现出了优异的能力,对于包括低资源语言在内的26种语言的测试中,GPT-4在24种语言中都超过了GPT-3.5等其它语言模型的表现。另外,GPT-4对于图像输入的处理能力也在不断优化中,目前已经能够接受文本和图像的混合输入,并生成自然语言、代码等文本输出。在图像输入测试中,虽然还处于研究阶段,但是OpenAI官方也已经公布了一些初步的测试结果,表明GPT-4在这一领域也有着不俗的表现。

3. 使用案例——地表最强

(1)理解图片中的笑点

使用案例

(2)理解图表中的数据

使用案例

(3)直接看图片做题

使用案例

(4)理解图片中的不正常现象

使用案例

(5)阅读论文并总结

使用案例

(6)懂梗???(以后可以说脱口秀了)

使用案例

(7)理解图片中的笑话

使用案例

4. 局限性

虽然GPT-4在多个指标上都表现出了优异的能力,但是其仍然存在一些局限性。

  • 首先,GPT-4目前仍然无法完全理解和应用人类语言中的一些文化背景和情感色彩等非语义信息。虽然在一些测试中,GPT-4表现出了令人惊讶的创造力和多样性,但是在一些情境下,其生成的文本仍然存在一些逻辑不清或与上下文不符的问题。

  • 其次,GPT-4在处理一些非常具体的任务时,可能需要通过特定的预训练或针对性的微调才能够达到人类水平的表现。虽然GPT-4可以处理许多通用性任务,但是对于某些领域的专业知识,其表现仍然可能有所欠缺。

  • 最后,GPT-4在训练过程中消耗了大量的计算资源,其计算量甚至高于之前的GPT-3.5。这也使得GPT-4的训练和应用成本都较高,且在当前技术和硬件水平下,GPT-4的规模和效率仍然存在一定的瓶颈。

5. 风险

在风险和缓解措施方面,GPT-4的风险包括产生有害建议、错误代码或不准确信息等问题,但其新增的能力也导致了新的风险表面。OpenAI通过与50多个领域专家合作,测试模型行为,收集反馈和数据,以改善模型的安全性。在减少对不允许的内容的响应和增加对敏感内容的响应等方面,OpenAI已经通过模型级干预来增加了GPT-4的安全性。

  • 在训练过程方面,GPT-4的基本模型像以前的GPT模型一样,使用公开数据和已许可的数据进行预测下一个单词。通过强化学习和人类反馈,OpenAI调整了GPT-4的行为,使其在特定的范围内回答问题。

  • 在可预测性的扩展方面,OpenAI建立了一个可以进行可预测的深度学习堆栈,以满足GPT-4这样的大规模训练的需求。通过开发基础架构和优化,OpenAI可以跨多个规模具有非常可预测的行为。

同时,OpenAI还发布了一个名为OpenAI Evals的软件框架,用于创建和运行评估模型的基准测试。这个框架可以帮助评估不同的人工智能语言模型的性能,以期进一步提高这些模型的质量。

参考文献

[1] GPT-4 https://openai.com/research/gpt-4
[2] GPT-4 Technical Report https://cdn.openai.com/papers/gpt-4.pdf


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
JAVA多线程知识整理 Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
【洛谷 P1090】[NOIP... [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
国民技术LPUART介绍 低功耗通用异步接收器(LPUART) 简介 低功耗通用异步收发器...
城乡供水一体化平台-助力乡村振... 城乡供水一体化管理系统建设方案 城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
中国版ChatGPT在哪些方面... 目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
报名开启 | 共赴一场 Flu... 2023 年 1 月 25 日,Flutter Forward 大会在肯尼亚首都内罗毕...
汇编00-MASM 和 Vis... Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
【简陋Web应用3】实现人脸比... 文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
前缀和与对数器与二分法 1. 前缀和 假设有一个数组,我们想大量频繁的去访问L到R这个区间的和,...
windows安装JDK步骤 一、 下载JDK安装包 下载地址:https://www.oracle.com/jav...
分治法实现合并排序(归并排序)... 🎊【数据结构与算法】专题正在持续更新中,各种数据结构的创建原理与运用✨...
在linux上安装配置node... 目录前言1,关于nodejs2,配置环境变量3,总结 前言...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
Linux内核进程管理并发同步... 并发同步并发 是指在某一时间段内能够处理多个任务的能力,而 并行 是指同一时间能够处理...
opencv学习-HOG LO... 目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
【Unity 手写PBR】Bu... 写在前面 前期积累: GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...