GPT-4的前世、今生和未来！

168次阅读

作者 | 王思若编辑 | 夕小瑶的卖萌屋

点击下方卡片，关注“ 自动驾驶之心”公众号

ADAS 巨卷干货，即可获取

前言

诚然，从关系数据库到互联网信息检索，每一次知识表示和调用方式的跃迁都会在科技史引起一场巨大的技术变革。当 ChatGPT 发布之后，生成式 AI 成了新的技术范式，这场变革从微软、Google、百度这一众搜索引擎开始，星火燎原，越来越多的工作将会发生不可逆转的改变，有研究声称至少 80% 的工作都将或多或少受其影响^[1]。

在这场狂欢之中，有声称 5000 万美金入局的投资者，有李沐等技术大牛离职做大模型创业，声音越来越嘈杂，大有风雨欲来之势。主流的声音慢慢从技术的探讨变成了“AI 取代人类”的惶恐不安，警告人们‘不要温和地走入那个良夜’，更不乏有人开始去思考人类是否可以创造一个全知全能的神这样的终极命题。

有人狂喜，声称自己是 ChatGPT 的忠实拥趸；有人毫不关心，认为又是一个资本鼓吹的泡沐。无论哪种视角，这都将是一场势不可挡的技术浪潮，在这里，我们追溯从 GPT- 1 到 GPT- 4 的时间线^[2]，挑拨缕析地探讨一下 GPT- 4 的前世、今生和未来!

一、前世

如果追溯 GPT 系列发展的时间线，我们会发现这是一项横跨五年的技术探索，从 GPT- 2 到 GPT-3，其实也只是在几乎不改变模型框架的基础上从 15 亿的参数量迭代到 1750 亿，不同于 Google 推出 T5、Switch Transformer 和 PaLM 等一系列大模型的赛马机制，OpenAI‘矢志不渝’地坚持着 GPT 路线。

GPT- 4 的前世、今生和未来！

这种坚持在现在看来也尤为不易。2020 年，OpenAI 提出了大模型的缩放法则 (Scaling Laws)，增大参数规模可以极大提升模型性能一时成为了“金科玉律”，由此也开启了炼大模型的‘狂飙’时代。1760 亿参数的 BLOOM、5300 亿的 MT-NLG、5400 亿的 PaLM、更有‘贪心者’用 MoE(Mixture of Experts) 架构强行将参数量堆叠到了万亿，当时关于 GPT- 4 模型参数量将达到 100 万亿的谣言一时甚嚣尘上。

但如果把视角拉到 22 年年中，我们会发现国内几乎所有人都在造大模型狂刷 SOTA 之后迷茫了，学术界‘fine-tune’和‘promot’的百般招式皆已用上，工业界又难以对大模型落地，‘顶不了天，立不了地’，留下的只是盲目跟风追求大模型之后的“一地鸡毛”。一方面 Epoch AI 发文称语言数据将在 2026 年耗尽^[3]，另一方面越来越多的 inverse scaling 现象（逆向缩放，即模型规模越大，效果越差）不断被发现^[4]，超大模型的前进道路似乎弥漫着茫茫迷雾。

然而，当继续加大模型规模并在超过某个阈值之后，模型性能出现了井喷式的能力提升，这种神奇的现象被称作大模型的涌现性 。例如，随着模型规模的进一步提升，研究人员发现模型准确率会呈现“U 型”曲线^[5]，超大规模的模型似乎在某个临界点之后不可预料得表现出极为强大的能力。新的进步与发现似乎完全改变了游戏规则，很多提示增强(augmented prompting) 技术在小模型上并没有效果，但在模型达到某个规模之后会突然有效。

GPT- 4 的前世、今生和未来！

在此背景下，OpenAI 将 RLHF(人类反馈强化学习，Reinforcement Learning from Human Feedback)技术应用到 GPT- 3 模型中，简而言之，RLHF 将预训练语言模型按照人类反馈进一步微调以符合人类偏好。看似简单，RLHF 这条道路，OpenAI 同样走了五年^[6]。

2017 年，OpenAI 提出该技术，少量人类反馈作为奖励函数得以让系统处理复杂任务，在 Atari 游戏上表现出不错的效果，‘小火柴棍’学会了后空翻^[7]。
2021 年，OpenAI 利用该技术进行摘要生成，雇佣了 80 位人工标注者生成了 6.48 万条数据对模型进行调校，粗略计算仅标注数据的成本就在 300 万左右^[8,9]。，这一工作证明了 RLHF 确实能够在语言模型上奏效，可以针对人类价值观等模糊的目标进行优化。
2022 年，OpenAI 将 RLHF 应用于 GPT- 3 并开发出 InstructGPT，相对于 GPT- 3 更善于遵循用户意图，虽然参数量只有 1.3B，比 175B GPT- 3 模型参数少了 100 多倍，但更加遵循指令和事实，并大幅度减少有毒输出(toxic generation)，微调成本更是只有 GPT- 3 的 2%。

GPT- 4 的前世、今生和未来！

RLHF 应用开发 ChatGPT 的技术路线

OpenAI 宣称 RLHF 是一种“有效提升 AGI(通用人工智能系统)与人类意图对齐的技术”，但 OpenAI 对齐团队负责人 Jan Leike 坦言，优越对齐能力的出现并未有坚实的理论基础，换言之，该方法只是秉持着“评估比生成更容易”的动机而不是正式的理论。

回归主题，基于 RLHF 技术，OpenAI 构造了 ChatGPT。当然，更重磅的新闻是所有人翘首以盼的 GPT- 4 来了，OpenAI 创始人 Sam Altman 开门见山的简绍说这是我们迄今为止功能最强大的模型，一个史上最强大的多模态模型！

一场技术革命似乎开始了。《财富》杂志描述其为 Netscape Navigator（网景）时刻：在一代人的时间中总有一种产品的出现，它将工程技术从昏暗的地下室、书呆子们臭气熏天的卧室和爱好者们孤独的洞穴中发射出来，变成了你的祖母都知道如何使用的东西。早在 1990 年就诞生了网络浏览器，但直到 1994 年 Netscape Navigator（网景浏览器）的出现，大多数人才发现了互联网。我们现在迎来了 AI 的 Netscape Navigator 时刻！

二、今生

GPT- 4 的前世、今生和未来！

接着上述时间线：

3 月 14 日，GPT- 4 发布，OpenAI 给出了技术报告和 3 分钟的预告片。GPT- 4 支持多模态，能够识图、生成歌词、做网站，并且刷爆了人类社会各个领域的考试，已经达到了哈佛、斯坦福等顶尖高校的水平。现已集成到微软 New Bing 和 ChatGPT Plus。
3 月 16 日，OpenAI 的首席科学家兼联合创始人 Ilya Sutskever 表示 OpenAI 不会分享更多关于 GPT- 4 的信息。Sutskever 表示出于竞争和安全的考量，当然主要是同行的竞争，当被问及为什么 OpenAI 改变了分享其研究成果的方式时，Sutskever 简单地回答说：坦率地说，我们错了。如果你像我们一样相信，在某个时候，人工智能将变得极其强大，那么开源就没有意义了，我完全希望在几年内，每个人都会完全清楚开源 AI 是不明智的^[10]。
3 月 17 日，微软 Microsoft 365 全面引入生成式 AI 助手 Copilot，将 GPT- 4 集成到了 Word、Excel、PowerPoint、Outlook 和 Teams 等应用中，用户可以提出问题并提示 AI 撰写草稿、制作演示文稿、编辑电子邮件、制作演示文稿、总结会议等。
3 月 20 日，OpenAI 发布了 GPT 模型和技术对劳动力市场潜在影响的论文，预计将影响 80% 的工作岗位^[11]。

已构建好技术壁垒的 OpenAI 开始拒绝技术开源，甚至DeepMind 首席执行官 Demis Hassabis 也同样表示：我们正在进入一个时代，我们必须开始考虑贪图便宜的人，或者那些正在阅读但没有为该信息库做出贡献的人，这也包括民族国家，这很明显，你可能会想到谁。他表示人工智能行业公开发布其发现的文化可能很快需要结束^[12]。

不知道大家对此作何感想？

这里 OpenAI 的前政策主管 Jack Clark 做了我的嘴替，Clark 强烈反对 GPT-4，他表示：事情变得越来越奇怪，这更像是一个政治时刻，而不是技术时刻，GPT-4 基本上是通过计算呈现的硬实力政治，GPT-4 无疑会引起社会变革，但同样会因垄断引发重大的政治反弹^[13]。

回归到技术本身，OpenAI 表示在发布 GPT- 4 之前，他们花费了八个月进行安全研究、风险评估和迭代，因此，GPT- 4 的初始可用日期是在 2022 年 8 月。GPT- 4 是包括视觉语言模型组件的大型语言模型，类似于 DeepMind 的 Flamingo 模型，输入可以是文本或图像，但所有的输出都是文本。

GPT-4 的数据收集是由 Wojciech Zaremba（数据集团队经理）和 Qiming Yuan（数据集采购和处理负责人）领导的一项艰巨任务。数据集贡献来自一个由 35 名 OpenAI 员工组成的团队。在预训练阶段，OpenAI 过滤了 GPT-4 的数据集组合，以专门减少不适当的色情文本内容的数量。通过结合内部训练的分类器和基于词典的方法来识别被标记为极有可能包含不当色情内容的文档。

OpenAI 拥有利用来自包括谷歌在内的竞争对手的其他数据集的经验^[15], 依赖最先进的 DeepMind MassiveText 和 Google Infiniset 数据集，且 OpenAI 与 Microsoft 的合作伙伴关系允许访问 GitHub 等大型数据集，我们可以推测 GPT- 4 可能是在 1.7T-2.9T 的文本 tokens 上进行的训练，模型参数量包括 800-1400 亿的语言模型参数 +200 亿的视觉模型参数。

GPT- 4 的前世、今生和未来！

此外，GPT- 4 的文本生成长度被显著提高，一个 token 通常对应大约 4 个字符，而 1 个汉字大致是 2~2.5 个 token，在 GPT- 4 之前，token 的限制大约在 4096 左右，大约相当于 3072 个英文单词，一旦对话的长度超过这个限制，模型就会生成不连贯且无意义的内容，到了 GPT- 4 其最大的 token 数是 32768 个，大约相当于 24576 个单词，相当于 48 页文本，生成长度被扩大了八倍。

GPT- 4 的前世、今生和未来！

GPT- 1 到 GPT- 4 的上下文窗口数量，注：目前 GPT- 4 限制的上下文长度限制为 8192 个 token，允许 32768 个 token 的版本名为 GPT-4-32K，目前暂时限制了访问权限。

就价格而言，GPT-4 比 ChatGPT 贵大约 30 倍，比 GPT-3 davinci 贵大约 3 倍。

GPT- 4 的前世、今生和未来！

三、未来

我们可以从 GPT- 4 的结果就可以看到其巨大的潜力，美国高考 SAT：1410（满分 1600，前 6%），美国大学预科考试 AP：100%（5/5）。有人在去年 8 月就获得了 GPT- 4 的访问权限，并用其写了一本书 —–Amplifying our Humanity through AI（通过人工智能放大我们的人性）^[15,16]。

当然未来的潜力远不止如此，我们可以从和 GPT- 4 的合作企业管中窥豹。

GPT- 4 的前世、今生和未来！

和教育行业合作，去一探学习的未来，和可汗学院（khan academy, 教育性非盈利组织）合作推出 Khanmigo，和多邻国（Duolingo，语言学习软件）推出 Duolingo Max，让 AI 去辅导学生作业和学习外语。
和 IT 行业合作，集成到微软 Bing 和 Microsoft 365 全家桶上，重新定义了生产力；发布 AI 聊天机器人 Fin 等，这将会是第一个最懂你的 AI 机器人；集成到笔记软件 Mem 中，辅助我们去畅想未来，探索未知。
和专业服务公司合作，联合波士顿咨询公司合作推出 BCG X，汇集了先进的技术知识和雄心勃勃的企业家精神，可帮助组织开展下一次重大投资并实现大规模创新。
在其合作名单中，甚至有可口可乐公司，摩根士丹利等金融服务公司和冰岛等政府机构。

这一次，工作范式将要改变，我们可以将越来越多的事务托付给 AI 完成，人类将会有更多的自由和可能，甚至某一天人类可能会将思考的权力也让渡给了 AI，那个时候我们就要去重新追寻人类的价值，而这对于我们而言，依然有很长的路要走！

往期回顾

史上最全综述 | 3D 目标检测算法汇总！（单目 / 双目 /LiDAR/ 多模态 / 时序 / 半弱自监督）

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV 感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4 感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

GPT- 4 的前世、今生和未来！

（扫码学习最新视频）

国内首个自动驾驶学习社区

近 1000 人的交流社区，和 20+ 自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D 目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI 模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文 + 代码 + 视频，期待交流！

GPT- 4 的前世、今生和未来！

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D 目标检测、BEV 感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI 求职交流等方向；

GPT- 4 的前世、今生和未来！