GPT-4发布啦，比GPT-3更强大，在专业和学术能力已经达到人类水平

GPT-4 是大型多模态模型（large multimodal model），支持图像和文本的输入，并生成文本结果。

这个篇文章会汇总一下有关 GPT-4 的一些信息（包括论文中的一些要点和实际的体验）。

GPT-4 在专业和学术能力的 benchmark 上已经达到了人类水平。例如模拟律师考试分数占所有应试者的前 10%，而 GPT-3 的测试结果为倒数 10%。

现在想要提前体验的有 2 种方法：- ChatGPT Plus 订阅（可能不是所有人都有）- Poe 中已经集成了 GPT-4（同时集成的还有 Claude+ 这个新的 AI）

基于 GPT-4 的第一个产品：be my eyes 目前看起来是一个帮助视力障碍人群的辅助工具，可以使用 GPT-4 的多模态能力来识别、解释图片中的内容。

作为开发团队，现在可以做的第一件事就是先申请一下 GPT-4 的 API。

GPT-4 在各种考试中的结果几个接近满分的测试项目：- USABO Semifinal 2020（美国生物奥林匹克竞赛）- GRE Writing 可以看到数据大部分都是好于 GPT-3 的。

GPT-4 现在已经远优于大部分现有的大语言模型了，包括在许多领域上达到了 state-of-the-art (SOTA) 的模型。Benchmark 的数据

GPT-4 在不同语种上的能力表现中文的准确度大概在 80% 左右，已经要优于 GPT-3.5 的英文表现了。

官网给了一些使用的样例，这里挑几个有意思的说一下。第一个可以简单理解为就是解释图片中的内容。

这个例子就有点厉害了，直接通过图片的方式就能够总结论文

直接让 GPT-4 基于图片中的内容来回答对应的问题。

可以通过 system 参数的方式来定义 AI 的行为（这个在 ChatGPT 中已经支持了）例如这个例子中就是让 AI 使用苏格拉底的风格来回答问题，不给出具体答案，而是提出问题来帮助学生进行独立思考。

GPT-4 的局限性虽然现在模型所展示出的功能非常强大，但是与前几代的 GPT 模型存在一些类似的问题，比如生成的结果不符合事实。在这个方面，GPT-4 的得分要比 GPT-3.5 高 40%。

这个问题联想到了前几天读的 MS Research 的一篇论文：MathPrompter: Mathematical Reasoning using Large Language Models 这篇论文中提到的一个方法是使用 zero shot COT (chain of thought) + verification 的方法来保证数值计算结果的准确性。

GPT-4 的训练数据和 GPT-3 的貌似差不多，都是截止到 2021 年 9 月。

OpenAI 基于用户规则在 RLHF 上加了一个额外的奖励信号，来减少模型的有害输出。不确定是否有新的 prompt injection 的方式来进行破解。

现在部分 ChatGPT Plus 的用户已经可以体验到 GPT-4 模型了 1. 使用会有上限，并且根据访问量来控制 2. 可能会引入除 Plus 外的新的订阅级别

API 中使用的模型是：gpt-4-0314- 需要申请加入 waitlist- 现在只支持纯文本的请求（图像输入还在 alpha 阶段）- 定价：prompt – $0.03 per 1k token, completion – $0.06 per 1k token- context 长度为 8192 tokens，并且提供 32768 token 的版本（价格也更贵，$0.06 & $0.12)

举报 / 反馈

原文链接：https://baijiahao.baidu.com/s?id=1760394348252411143&wfr=spider&for=pc