【科技】OpenAI发布多模态大模型GPT-4：直接开放API，ChatGPT升级

178次阅读

·GPT- 4 可以接受图像和文本输入，而 GPT-3.5 只接受文本；GPT- 4 在各种专业和学术基准上的表现达到“人类水平”，在事实性、可引导性和可控制方面取得了“史上最佳结果”；当任务的复杂性达到足够的阈值时，GPT- 4 比 GPT-3.5 更可靠，更有创造力，能够处理更细微的指令。

·OpenAI 承认，GPT- 4 并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。OpenAI 将开源 OpenAI Evals，用于创建和运行评估 GPT- 4 等模型的基准。

3 月 14 日，ChatGPT 的开发机构 OpenAI 正式发布其里程碑之作 GPT-4。

GPT- 4 是一个多模态大模型（接受图像和文本输入，生成文本）。相比上一代的 GPT-3，GPT- 4 可以更准确地解决难题，具有更广泛的常识和解决问题的能力：更具创造性和协作性；能够处理超过 25000 个单词的文本，允许长文内容创建、扩展对话以及文档搜索和分析等用例。

此外，GPT- 4 的高级推理能力超越了 ChatGPT。在 SAT 等绝大多数专业测试以及相关学术基准评测中，GPT- 4 的分数高于 ChatGPT。

OpenAI 花了 6 个月时间使 GPT- 4 更安全、更具一致性。在内部评估中，与 GPT-3.5 相比，GPT- 4 对不允许内容做出回应的可能性降低 82%，给出事实性回应的可能性高 40%。GPT- 4 引入了更多人类反馈数据进行训练，不断吸取现实世界使用的经验教训进行改进。

不过，OpenAI 表示，GPT- 4 仍然有许多正在解决的局限性，例如社会偏见、幻觉和对抗性 prompt（提示）。

目前，OpenAI 在付费版的 ChatGPT Plus 上提供 GPT-4，并为开发人员提供 API（应用程序编程接口）以构建应用和服务。值得一提的是，微软的新必应（New Bing）早就用上了 GPT-4。

OpenAI 还开源了 Evals 框架，以自动评估 AI 模型性能，允许用户报告模型中的缺点，帮助其改进。

“GPT-4 是世界第一款高体验，强能力的先进 AI 系统，我们希望很快把它推向所有人。”OpenAI 工程师在介绍视频里说。

OpenAI 在官网发布公告，宣布推出 GPT-4。

比 GPT-3.5 更可靠，更有创造力

GPT 是 Generative Pre-training Transformer（生成式预训练 Transformer）的缩写。OpenAI 于 2018 年推出具有 1.17 亿个参数的 GPT- 1 模型，2019 年推出具有 15 亿个参数的 GPT-2，2020 年推出有 1750 亿个参数的 GPT-3。ChatGPT 是 OpenAI 对 GPT- 3 模型微调后开发出来的对话机器人。

3 月 14 日，OpenAI 在其官网上发布了推出 GPT- 4 的公告。公告称，OpenAI 已正式推出 GPT-4，这也是 OpenAI 在扩大深度学习方面的最新里程碑。GPT- 4 是大型多模态模型，尽管在许多现实世界的场景中能力不如人类，但它可以在各种专业和学术基准上，表现出近似人类水平的性能。

例如：GPT- 4 通过了模拟的律师考试，分数约为全部应试者的前 10%。而相比之下，GPT-3.5 的分数大约是后 10%。“我们团队花了 6 个月时间，利用对抗性测试项目以及基于 ChatGPT 的相关经验，反复对 GPT- 4 进行调整。结果是，GPT- 4 在事实性（factuality）、可引导性（steerability）和拒绝超范围解答（非合规）问题方面取得了有史以来最好的结果（尽管它还不够完美）。”

OpenAI 表示，在过去两年里，他们重构了整个深度学习堆栈，并与 Azure（微软云服务）合作，共同设计了一台超级计算机。一年前，OpenAI 训练了 GPT-3.5，作为整个系统的首次“试运行”。他们发现并修复了一些错误，改进了之前的理论基础。“因此，我们的 GPT- 4 训练、运行（自信地说：至少对我们来说是这样！）空前稳定，成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展，中级目标是磨出方法，以帮助 OpenAI 能够持续提前预测未来，并且为未来做好准备，我们认为这一点对安全至关重要。”

OpenAI 承认，在简单闲聊时，也许不太好发现 GPT-3.5 和 GPT- 4 之间的区别。但是，当任务的复杂性达到足够的阈值时，它们的区别就出来了。具体来说，GPT- 4 比 GPT-3.5 更可靠，更有创造力，能够处理更细微的指令。

GPT- 4 相比 GPT-3.5 在各项考试中的成绩。

为了理解这两个模型之间的差异，OpenAI 在各种不同的基准上进行了测试，包括模拟为人类设计的考试。“我们还在为机器学习模型设计的传统基准上对 GPT- 4 进行了评估。GPT- 4 大大超过现有的大语言模型，与多数最先进的（SOTA）模型并驾齐驱。”

许多现有的机器学习基准测试都是用英语编写的，为了初步了解 GPT- 4 在其他语言上的能力，研究团队使用 Azure Translate 将 MMLU 基准——一套涵盖 57 个主题的 14000 个多项选择题——翻译成多种语言。“在测试的 26 种语言中的 24 种语言中，GPT- 4 的表现优于 GPT-3.5 和其他大模型（Chinchilla，PaLM）的英语表现，这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等。”

多模态功能有多强大？

GPT- 4 可以接受文本和图像的提示语。比如，可以让用户指定任何视觉或语言任务，它可以生成文本输出（自然语言、代码等），给定的输入包括带有文字和照片的文件、图表或屏幕截图，GPT- 4 表现出与纯文本输入类似的能力。不过，目前图像输入仍然属于研究预览，不针对普通用户开放。

发现图片的可笑之处。

读懂图表并进行分析。

发现图片中的不寻常之处。

阅读文件并总结概要。

读懂网上的梗图。

OpenAI 表示，他们一直在努力实现 AI 的可控制性。与经典 ChatGPT 的固定语气和风格不同，开发者现在可以通过在系统消息中描述这些方向，来规定自己的 AI 的风格和任务。系统消息允许 API 用户在一定范围内大幅对用户体验进行定制。

仍然不是完全可靠的

不过，GPT- 4 仍然存在与早期 GPT 模型类似的限制。它仍然不是完全可靠的，比如会对事实产生“幻觉”，并出现推理错误。OpenAI 提醒，在使用语言模型的输出时，特别是在高风险的情况下，应该非常小心谨慎。

但相较于以前的模型，GPT- 4 大大减少了 hallucinations（网络错觉）。在内部的对抗性事实性评估中，GPT- 4 的得分比 GPT-3.5 高 40%。

“该模型在其输出中会有各种偏差，我们在这些方面已经取得了进展，但仍有更多工作要做。根据我们最近的博文，我们的目标是使我们建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内被定制，并获得公众对这些范围的意见。”公告称。

OpenAI 还指出，GPT- 4 通常缺乏对其绝大部分数据截止后（2021 年 9 月）发生的事件的了解，也不会从其经验中学习。它有时会犯一些简单的推理错误，或者过于轻信用户明显的虚假陈述。有时它也会像人类一样在困难的问题上失败，例如在它产生的代码中引入安全漏洞。GPT- 4 也可能在预测中自信地犯错。

GPT- 4 与过去的模型会存在类似风险，如产生有害的建议、错误代码或不准确信息。然而，GPT- 4 的额外能力还导致了新的风险面。“为了明确这些风险的具体情况，我们聘请了 50 多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。”OpenAI 表示，这些领域专家的反馈和数据为缓解和改进模型提供了依据，比如他们已经收集了额外的数据，以提高 GPT- 4 拒绝有关如何合成危险化学品的请求的能力。

此外，GPT- 4 在人类反馈的强化学习（RLHF）训练中加入了一个额外的安全奖励信号，通过训练模型来拒绝对此类内容的请求，从而减少有害产出。

与 GPT-3.5 相比，这些缓解措施大大改善了 GPT- 4 的许多安全性能。与 GPT-3.5 相比，OpenAI 将模型对非法内容请求的响应倾向降低了 82%，而 GPT- 4 对敏感请求（如医疗建议和自我伤害）的响应符合 OpenAI 政策的频率提高了 29%。

OpenAI 强调，总的来说，模型级干预措施增加了诱发不良行为的难度，但仍然存在“越狱”的情况，以产生违反使用指南的内容。

付费用户将获得有使用上限的 GPT- 4 权限

和之前的 GPT 模型一样，GPT- 4 基础模型的训练是为了预测文档中的下一个单词，并使用公开的数据（如互联网数据）以及 OpenAI 授权的数据进行训练。这些数据来自于极大规模的语料库，包括数学问题的正确和错误的解决方案，弱的和强的推理，自相矛盾的和一致的声明，以及种类繁多的意识形态和想法。因此，当被提示有一个问题时，基础模型可以以各种各样的方式作出反应，而这些反应可能与用户的意图相去甚远。为了使其与用户的意图保持一致，OpenAI 使用人类反馈的强化学习对模型的行为进行微调。

OpenAI 正在开源其软件框架 OpenAI Evals，用于创建和运行评估 GPT- 4 等模型的基准，同时逐个样本检查其性能。用户可以应用它来跟踪不同模型版本（将定期推出）和不断发展的产品集成的性能。“我们邀请大家使用 Evals 来测试我们的模型，并提交最有趣的例子。”

ChatGPT Plus 用户将获得有使用上限的 GPT- 4 权限。OpenAI 将根据实际需求和系统性能调整确切的使用上限，但预计容量将受到严重限制。

OpenAI 还可能为更高的 GPT- 4 使用量引入一个新的订阅级别，也希望在某个时候提供一定数量的免费 GPT- 4 查询，使没有订阅的用户也可以尝试。

要获得 GPT- 4 的 API，需要去 OpenAI 的官方等待名单上注册。获得访问权限后，用户目前可以向 GPT- 4 模型发出纯文本请求（图像输入仍处于有限的测试阶段）。定价为每 1k 个 prompt token 0.03 美元，每 1k 个 completion token 0.06 美元。

原文链接：https://www.bilibili.com/read/cv22423766/

正文完