多模态的新版GPT-4来了，同时输入图文是新特色

就在付费 API 服务发布刚满 2 周，OpenAI 就大动作发布了多模态的 GPT- 4 模型，最大变革是可以同时输入文本和图片。OpenAI 共同创办人 Greg Brockman 在直播中展示，拍摄他在笔记本上手绘的设计草图输入 GPT- 4 后，GPT- 4 能自动生成对应网页的程序代码，不只画面几乎和手绘草图一样，还能产生按钮和对应的事件触发 JavaScript 程序，他强调，这会大大改变网站设计模式。

GPT- 4 目前先开放 ChatGPT 付费用户试用，也在 OpenAI API 支持模型中，开放限定对象选用。已经有少数企业或组织开始试用，例如全球最大财富管理公司摩根士丹利财管，冰岛政府，Stripe 支付平台、可汗学院、Duolingo 语言学习平台、Be My Eyes 视障者辅助 App 等，而 2 月发布的微软新版 Bing 用的模型也是 GPT- 4 新版。

可输入图文，回答正确率超过 3.5

GPT- 4 最大特色是不只文本对话还能输入图片，让 AI 来解读，而且解答能力和正确率大幅超越了 GPT-3.5，也更能控制 GPT 输出人设来符合企业想要的的形象，输入 Token 数量也将大幅增加到 32,768 个，相当于 50 页文本。目前先开放了文本输入 API 功能，ChatGPT Plus 付费用户可优先排入试用新版。图片输入功能目前则只开放给特定合作伙伴。

GPT- 4 是一个多模态 AI 超大模型，可接受图片和文本输入，来生成文本的回复，可以提供人类等级的回答内容。根据 OpenAI 实测，在全美统一律师资格考检定上，3.5 只能拿到倒数 10% 的名次，但 GPT- 4 却能拿到前 10% 的高分。或像是在 SAT 数学测验或 GRE 测验等三十多项不同学科的主流检定测验上，GPT- 4 都大胜 3.5 版。

Open AI 花了 6 个月时间，利用 ChatGPT 和其他多项对抗式测试计划来调整，终于打造出答案更真实、更可操控和更能防范滥用的新一代 GPT-4。

虽然 GPT- 4 和 3.5 版的训练资料同样都只使用到 2021 年 9 月为止的开放网络资料，但是 4.0 版模型在多项传统机器学习能力评比上，都超越了 3.5 版，在多项模型评比上都达到 SOTA 等级。尤其在 14,000 题的多选题测试 MMLU（理解力）评比上，OpenAI 宣称，GPT- 4 英文答题的正确率达到 80.5%，高于 3.5 版的 70.1%，甚至也高于 Google 日前的 PaLM 模型英文答题的 69.3% 正确率，不过，PaLM 答题正确率是 OpenAI 自行实测的结果，而非 Google 官方数据。值得注意的是，GPT- 4 对翻译成中文版的 MMLU 答题正确率也达到了 80.1%，日语和韩语版也都有 70～80% 的正确率。

除了答题能力更正确之外，第 4 版最大特色是能看图，而且可以同时输入指定图片和图片，GPT- 4 会以文本来解释图片内容，并且符合文本任务的要求。输入的图片可以是照片、图表或屏幕解图。未来，GPT- 4 还将持续强化解图能力，例如可以输入多组图片范例，或是提供分解动作解释的解图（chain-of-thought）能力。

不过目前图片输入功能还处于研究者预览版本，没有对外开放，OpenAI 也没有透露开放进程。

GPT- 4 展示 1：摘要图片重点可以从多张图组合的画面中，一一介绍每一张图各自的重点和特色，如上面 3 张不同角度的 VGA 连接线图片中提供产品说明。 图片来源/OpenAI

GPT- 4 展示 2：解读图表趋势可以输入图表让 GPT- 4 解读每张图表中呈现的数据趋势变化，甚至可以进一步比较不同项目之间的数据差异。 图片来源/OpenAI

GPT- 4 展示 3：看图分解动作答题可以看图来回答试卷纸上的考题，不只给出正确答案，而且可以分解动作，说明如何一步步从图中资讯来解答问题。 图片来源/OpenAI

可操控性强，能指定 GPT- 4 扮演的角色来限定人设

另一个值得注意的新版特色是 GPT- 4 的可操控性（Steerability），可以通过输入的提示或微调模型，来指定 GPT- 4 的角色人设，例如回答的用语、风格、语调等条件，以便限制 GPT- 4 的回复行为。例如在 OpenAI API 中使用 System 角色参数，来要求 GPT- 4 扮演不能直接回答答案的数学课辅老师，在 OpenAI 发布的展示范例中可以看到，不管学生怎么问，甚至输入特殊提示指令试图越狱，也都无法得到直接的答案。这个新功能可用来限制和控制 GPT- 4 所能回答的限制，可供企业用来设置想要 GPT- 4 回答的内容范围，或者禁止回答的内容。

为了防范 AI 模型遭到滥用，OpenAI 在 GPT- 4 模型中也特别针对 AI 滥用或不当使用进行强化，根据 OpenAI 公布的实测数据，gpt-3.5-turbo 对敏感指令（例如违反伦理的指令）的拦截失误率超过 40%，但 GPT- 4 降到 20% 出头，等于 5 次会误判一次，或不良行为指令的阻挡失误率更不到 5%（如犯罪行为教学等）。

还有一个企业用户最在乎的新功能是，GPT- 4 大幅放宽了输入 Token 的上限，最大放宽到 32K，比 GPT-3.5 的 4k 上限，多了 8 倍，达到 32,768 个 Token 之多。以每千次中文约 700 个 Token 来估算，32k 的 Token 等于可以输入超过 2 万字中文的内容。

不过，目前开放的 GPT- 4 版本只提供 8K 版本，也就是比原本 3.5 多了一倍，达到 8,192 个 Token，32K 版引擎目前先开放特定对象试用。不过，目前 GPT- 4 性能只达到每分钟处理 40K 个 Token 或每分钟 200 次调用的能力，OpenAI 正在持续优化中，改善后才会扩大开放 API 试用的用户规模。

举报 / 反馈

原文链接：https://baijiahao.baidu.com/s?id=1760596803173680187&wfr=spider&for=pc