GPT-4 是大型多模态模型(large multimodal model),支持图像和文本的输入,并生成文本结果。

这个篇文章会汇总一下有关 GPT-4 的一些信息(包括论文中的一些要点和实际的体验)。
GPT-4 在专业和学术能力的 benchmark 上已经达到了人类水平。例如模拟律师考试分数占所有应试者的前 10%,而 GPT-3 的测试结果为倒数 10%。
现在想要提前体验的有 2 种方法:- ChatGPT Plus 订阅(可能不是所有人都有)- Poe 中已经集成了 GPT-4(同时集成的还有 Claude+ 这个新的 AI)
基于 GPT-4 的第一个产品:be my eyes 目前看起来是一个帮助视力障碍人群的辅助工具,可以使用 GPT-4 的多模态能力来识别、解释图片中的内容。

作为开发团队,现在可以做的第一件事就是先申请一下 GPT-4 的 API。
GPT-4 在各种考试中的结果几个接近满分的测试项目:- USABO Semifinal 2020(美国生物奥林匹克竞赛)- GRE Writing 可以看到数据大部分都是好于 GPT-3 的。

GPT-4 现在已经远优于大部分现有的大语言模型了,包括在许多领域上达到了 state-of-the-art (SOTA) 的模型。Benchmark 的数据

GPT-4 在不同语种上的能力表现中文的准确度大概在 80% 左右,已经要优于 GPT-3.5 的英文表现了。

官网给了一些使用的样例,这里挑几个有意思的说一下。第一个可以简单理解为就是解释图片中的内容。

这个例子就有点厉害了,直接通过图片的方式就能够总结论文

直接让 GPT-4 基于图片中的内容来回答对应的问题。

可以通过 system 参数的方式来定义 AI 的行为(这个在 ChatGPT 中已经支持了)例如这个例子中就是让 AI 使用苏格拉底的风格来回答问题,不给出具体答案,而是提出问题来帮助学生进行独立思考。

GPT-4 的局限性虽然现在模型所展示出的功能非常强大,但是与前几代的 GPT 模型存在一些类似的问题,比如生成的结果不符合事实。在这个方面,GPT-4 的得分要比 GPT-3.5 高 40%。

这个问题联想到了前几天读的 MS Research 的一篇论文:MathPrompter: Mathematical Reasoning using Large Language Models 这篇论文中提到的一个方法是使用 zero shot COT (chain of thought) + verification 的方法来保证数值计算结果的准确性。
GPT-4 的训练数据和 GPT-3 的貌似差不多,都是截止到 2021 年 9 月。
OpenAI 基于用户规则在 RLHF 上加了一个额外的奖励信号,来减少模型的有害输出。不确定是否有新的 prompt injection 的方式来进行破解。

现在部分 ChatGPT Plus 的用户已经可以体验到 GPT-4 模型了 1. 使用会有上限,并且根据访问量来控制 2. 可能会引入除 Plus 外的新的订阅级别
API 中使用的模型是:gpt-4-0314- 需要申请加入 waitlist- 现在只支持纯文本的请求(图像输入还在 alpha 阶段)- 定价:prompt – $0.03 per 1k token, completion – $0.06 per 1k token- context 长度为 8192 tokens,并且提供 32768 token 的版本(价格也更贵,$0.06 & $0.12)
举报 / 反馈
原文链接:https://baijiahao.baidu.com/s?id=1760394348252411143&wfr=spider&for=pc