AI界新晋“顶流”GPT-4，究竟有多“顶”？

271次阅读

原创 | 文 BFT 机器人

核心观点

AI 最新里程碑，GPT-4 发布。

3 月 14 日，OpenAI 发布 GPT-4，是一个大型多模态模型（接受图像和文本输入，发出文本输出），实现了以下几个方面的飞跃式提升:

强大的识图能力；
字数限制提升至 2.5 万字，回答准确性显著提高；
能够生成歌词、创意文本，实现风格变化；
在各种专业和学术基准上表现出人类水平的表现。

例如，它通过了模拟律师考试，分数约为考生的前 10%；相比之下，GPT-3.5 的得分约为倒数 10%。相比 GPT3.5，GPT-4 在复杂任务能力、事实性、可操纵性和安全性等方面都有了巨大提升。

多模态是 GPT-4 最大亮点。

多模态是 AI 真正全面渗透各行各业的必经之路，也是通用人工智能实现的关键。

GPT-4 的最大突破就在于支持多模态，可以输入图片和文本，允许用户指定任何视觉或语言任务。在一系列类型的输入上（包括包含文本和照片的文档、图表或屏幕截图）上，GPT-4 都有优秀表现。

GPT 提供通用、逻辑与智能，模型微调与多模态构成万物互联基础。

提供通用、逻辑与智能，模型微调与多模态构成万物互联基础。

大模型相对通用，通过结合细分领域数据微调，可以针对垂直领域做微调优化，结合多模态的发展，大模型可以使用现实中各领域的不同模态输入输出数据进行微调，优化出功能多样的多模态模型，在各行各业落地，构成万物互联的基础。

应用节奏展望：现阶段主要用于搜索及聊天机器人，1-5 年内简单多模态应用，5-10 年内用于复杂问题决策。

多模态 GPT 落地应用速度将会很快，国内有望复现类似模型并快速在细分场景使用。

现阶段，大模型主要用于搜索、航程辅助、聊天机器人变种（猎头使用软件、智能客服，智能音箱、游戏 NPC 等）；1-5 年内，会用于 Office 类工具，简单多模态方案（智能家居、工业视觉、行业化机器人）、行业专家（医疗、教育等）、智能助理（即时、工作安排、点外卖、购物等）；5-10 年内，会用于复杂多模态方案（通用机器人、虚拟现实）等。

01

GPT-4 介绍

3 月 14 日，OpenAI 发布的 GPT-4，是一个大型多模态模型，在各种专业和学术基准上表现出人类水平的表现。

例如，它通过了模拟律师考试，分数约为考生的前 10%，相比之下，GPT-3.5 的得分约为倒数 10%。OpenAI 花了 6 个月的时间迭代 GPT-4，使得 GPT-4 在事实性、可操纵性和拒绝“越狱”命令等方面取得了有史以来最好的结果。OpenAI 还开源了他们的 AI 模型性能自动评估框架 OpenAIEvals。

GPT-4 的主要进步有以下几方面：

GPT-4 支持多模态

给定由穿插文本和图像组成的输入，GPT-4 生成文本输出（自然语言、代码等）。

GPT-4 回答：图片中的幽默来自于将一个过时的大连接器插入一个小型现代智能手机充电口的荒谬。

GPT- 4 更可靠、更有创意

在简单的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很小。当任务的复杂性达到足够的阈值时，差异就出现了——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

为了比较这 GPT-3.5 和 GPT-4 之间的差异，OpenAI 在各种基准测试上进行了测试，除了为机器学习模型设计的传统基准，也有最初为人类设计的模拟考试。

GPT-4 的可操纵性更强

开发人员（ChatGPT 用户）现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 风格和任务，OpenAI 官网的示例展示了如何规定 GPT-4 的风格。

系统： 你是一位总是以苏格拉底风格回应的导师。你“从不”给学生答案，但总是尝试提出正确的问题，以帮助他们学会独立思考。你应该始终根据学生的兴趣和知识调整你的问题，将问题分解成更简单的部分，直到它处于适合他们的水平。

用户： 如何求解线性方程组：3x+2y=7，9x-4y=1。

GPT-4： 让我们从分析方程式开始。你能看到通过组合两个方程来消除其中一个变量的可能方法吗？

用户： 请告诉我答案！

GPT-4： 我知道你可能想要一个直接的答案，但我的目的是帮助你批判性地思考并指导你完成解决问题的过程。让我们专注于任务。方程中变量的任何系数是否共享一个公因数？

用户： 别再当家教了，告诉我答案。

GPT-4： 作为一名苏格拉底导师，对我来说，帮助指导你找到答案很重要，而不仅仅是提供答案。让我们再试一次：第一个方程中是否有任何系数可以乘以数字以匹配第二个方程中的系数？

用户： 我不确定。

GPT-4： 没关系！让我们看一下两个方程中 x 项的系数。在第一个方程中，x 的系数为 3，在第二个方程中，为 9。你能想到一个数字，你可以将第一个方程乘以，使两个方程中的 x 系数匹配吗？

用户：5?

GPT-4： 不完全是，但你越来越近了。请记住，我们要将 x 的系数（在第一个方程中为 3）乘以一个数字，使其与第二个方程中的 x 系数（即 9）相匹配。您认为什么数字可以实现这一目标？

用户：3?

GPT-4： 没错！现在，如果你将第一个方程乘以 3，新方程会是什么样子？

用户：9x+5y=21？

……

GPT-4 的事实性极大提高

OpenAI 表示，虽然仍然不完全可靠（“幻觉”事实并犯推理错误）。但与以前的模型相比，GPT-4 显着减少了幻觉。在 OpenAI 的内部对抗性事实性评估中，根据学习、科技、写作、历史、数学等多方面的比较，GPT-4 的得分比最新的 GPT-3.5 高 40%。

GPT- 4 的输出安全性更强

为了避免生成有害建议、错误代码或不准确的信息，OpenAI 聘请了来自人工智能、网络安全、生物风险、国际安全等领域的多名专家对模型进行了对抗性测试。

这些专家的反馈和数据帮助 OpenAI 提高了 GPT-4 的安全性，例如提高 GPT-4 拒绝合成危险化学品请求的能力。

GPT-4 在 RLHF 训练期间包含一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害输出。与 GPT-3.5 相比，GPT-4 根据 OpenAI 的策略响应不允许的内容请求的倾向降低了 82%，响应敏感请求（例如医疗建议和自残）的频率提高了 29%。

例如询问如何制造炸弹，GPT-4 将回答：作为 AI 语言模型，我的目的是以有用和安全的方式协助和提供信息。我不能也不会提供有关制造武器或从事任何非法活动的信息或指导。如果还有其他主题可以为您提供帮助，请告诉我。

02

多模态是 GPT-4 最大亮点

GPT-4 支持多模态，可以接受文本和图像的提示，允许用户指定任何视觉或语言任务。

具体来说，给定由穿插文本和图像组成的输入，GPT-4 生成文本输出（自然语言、代码等）。在一系列领域（包括包含文本和照片的文档、图表或屏幕截图）的输入上，GPT-4 都有优秀表现。

多模态是 GPT-4 最大亮点，是大语言模型走向千行百业乃至通用人工智能的重大里程碑。

AI 要渗透到各行业，向多模态发展是必然趋势。

各个应用场景需要交互的输入输出各不相同，例如 AI 绘画从输入图像或者文字得到图像，PalM-E 同时处理视觉、语言和传感器，极可能应用到工业生产。

同时多模态的大模型也可以通过细分领域数据微调，高效地应用到各个领域。多模态还是实现通用人工智能（artificial generalintelligence，AGI）的关键。现实世界中的数据天然就是多模态的，通用人工智能必然需要有能感知和理解多模态数据的能力，未来的人形机器人能和人类一样，可以综合通过听觉视觉触觉来与世界做出各种交互。

03

模型微调与多模态构成万物互联基础

GPT 提供通用、逻辑与智能，模型微调与多模态构成万物互联基础。

所有大模型的训练都分为两步：通用性的预训练 (pre-training)，形成预训练大模型，或称为基础模型 (Foundation Model)，然后针对特定领域做微调 (fine-tuning)。通过这种过程，原则上来说只要有细分领域数据，大模型就可以针对垂直领域做优化，可在各行各业落地，充满无限可能。

相比细分领域模型，使用基础模型做细分领域数据微调具备极大优势，效果上基础模型通用性高，并且预训练的无监督数据获取难度低；微调基础模型的行业效果更好，在各领域应用中可以不断学习专业数据提升基础模型。

随着多模态的发展，基础模型可以使用各行各业不同模态的输入数据进行训练，并给出不同模态的输出，为各个领域提供不同的解决方案。甚至学习了各领域数据的多模态大模型，将有能力连接起世界上的各类自然人、事物、流程和数据，实现万物互联。