多模态的新版GPT-4来了,同时输入图文是新特色

126次阅读
多模态的新版 GPT- 4 来了,同时输入图文是新特色

就在付费 API 服务发布刚满 2 周,OpenAI 就大动作发布了多模态的 GPT- 4 模型,最大变革是可以同时输入文本和图片。OpenAI 共同创办人 Greg Brockman 在直播中展示,拍摄他在笔记本上手绘的设计草图输入 GPT- 4 后,GPT- 4 能自动生成对应网页的程序代码,不只画面几乎和手绘草图一样,还能产生按钮和对应的事件触发 JavaScript 程序,他强调,这会大大改变网站设计模式。

GPT- 4 目前先开放 ChatGPT 付费用户试用,也在 OpenAI API 支持模型中,开放限定对象选用。已经有少数企业或组织开始试用,例如全球最大财富管理公司摩根士丹利财管,冰岛政府,Stripe 支付平台、可汗学院、Duolingo 语言学习平台、Be My Eyes 视障者辅助 App 等,而 2 月发布的微软新版 Bing 用的模型也是 GPT- 4 新版。

可输入图文,回答正确率超过 3.5

GPT- 4 最大特色是不只文本对话还能输入图片,让 AI 来解读,而且解答能力和正确率大幅超越了 GPT-3.5,也更能控制 GPT 输出人设来符合企业想要的的形象,输入 Token 数量也将大幅增加到 32,768 个,相当于 50 页文本。目前先开放了文本输入 API 功能,ChatGPT Plus 付费用户可优先排入试用新版。图片输入功能目前则只开放给特定合作伙伴。

GPT- 4 是一个多模态 AI 超大模型,可接受图片和文本输入,来生成文本的回复,可以提供人类等级的回答内容。根据 OpenAI 实测,在全美统一律师资格考检定上,3.5 只能拿到倒数 10% 的名次,但 GPT- 4 却能拿到前 10% 的高分。或像是在 SAT 数学测验或 GRE 测验等三十多项不同学科的主流检定测验上,GPT- 4 都大胜 3.5 版。

Open AI 花了 6 个月时间,利用 ChatGPT 和其他多项对抗式测试计划来调整,终于打造出答案更真实、更可操控和更能防范滥用的新一代 GPT-4。

虽然 GPT- 4 和 3.5 版的训练资料同样都只使用到 2021 年 9 月为止的开放网络资料,但是 4.0 版模型在多项传统机器学习能力评比上,都超越了 3.5 版,在多项模型评比上都达到 SOTA 等级。尤其在 14,000 题的多选题测试 MMLU(理解力)评比上,OpenAI 宣称,GPT- 4 英文答题的正确率达到 80.5%,高于 3.5 版的 70.1%,甚至也高于 Google 日前的 PaLM 模型英文答题的 69.3% 正确率,不过,PaLM 答题正确率是 OpenAI 自行实测的结果,而非 Google 官方数据。值得注意的是,GPT- 4 对翻译成中文版的 MMLU 答题正确率也达到了 80.1%,日语和韩语版也都有 70~80% 的正确率。

除了答题能力更正确之外,第 4 版最大特色是能看图,而且可以同时输入指定图片和图片,GPT- 4 会以文本来解释图片内容,并且符合文本任务的要求。输入的图片可以是照片、图表或屏幕解图。未来,GPT- 4 还将持续强化解图能力,例如可以输入多组图片范例,或是提供分解动作解释的解图(chain-of-thought)能力。

不过目前图片输入功能还处于研究者预览版本,没有对外开放,OpenAI 也没有透露开放进程。

多模态的新版 GPT- 4 来了,同时输入图文是新特色

GPT- 4 展示 1:摘要图片重点可以从多张图组合的画面中,一一介绍每一张图各自的重点和特色,如上面 3 张不同角度的 VGA 连接线图片中提供产品说明。 图片来源/OpenAI

多模态的新版 GPT- 4 来了,同时输入图文是新特色

GPT- 4 展示 2:解读图表趋势可以输入图表让 GPT- 4 解读每张图表中呈现的数据趋势变化,甚至可以进一步比较不同项目之间的数据差异。 图片来源/OpenAI

多模态的新版 GPT- 4 来了,同时输入图文是新特色

GPT- 4 展示 3:看图分解动作答题可以看图来回答试卷纸上的考题,不只给出正确答案,而且可以分解动作,说明如何一步步从图中资讯来解答问题。 图片来源/OpenAI

可操控性强,能指定 GPT- 4 扮演的角色来限定人设

另一个值得注意的新版特色是 GPT- 4 的可操控性(Steerability),可以通过输入的提示或微调模型,来指定 GPT- 4 的角色人设,例如回答的用语、风格、语调等条件,以便限制 GPT- 4 的回复行为。例如在 OpenAI API 中使用 System 角色参数,来要求 GPT- 4 扮演不能直接回答答案的数学课辅老师,在 OpenAI 发布的展示范例中可以看到,不管学生怎么问,甚至输入特殊提示指令试图越狱,也都无法得到直接的答案。这个新功能可用来限制和控制 GPT- 4 所能回答的限制,可供企业用来设置想要 GPT- 4 回答的内容范围,或者禁止回答的内容。

为了防范 AI 模型遭到滥用,OpenAI 在 GPT- 4 模型中也特别针对 AI 滥用或不当使用进行强化,根据 OpenAI 公布的实测数据,gpt-3.5-turbo 对敏感指令(例如违反伦理的指令)的拦截失误率超过 40%,但 GPT- 4 降到 20% 出头,等于 5 次会误判一次,或不良行为指令的阻挡失误率更不到 5%(如犯罪行为教学等)。

还有一个企业用户最在乎的新功能是,GPT- 4 大幅放宽了输入 Token 的上限,最大放宽到 32K,比 GPT-3.5 的 4k 上限,多了 8 倍,达到 32,768 个 Token 之多。以每千次中文约 700 个 Token 来估算,32k 的 Token 等于可以输入超过 2 万字中文的内容。

不过,目前开放的 GPT- 4 版本只提供 8K 版本,也就是比原本 3.5 多了一倍,达到 8,192 个 Token,32K 版引擎目前先开放特定对象试用。不过,目前 GPT- 4 性能只达到每分钟处理 40K 个 Token 或每分钟 200 次调用的能力,OpenAI 正在持续优化中,改善后才会扩大开放 API 试用的用户规模。

举报 / 反馈

原文链接:https://baijiahao.baidu.com/s?id=1760596803173680187&wfr=spider&for=pc

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-29发表,共计2306字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。