图源 Pinkeyes on Shutterstock
来源 :AI 科技评论
作者 : 钱磊、Ailleurs
编辑 : 陈彩娴
不久前 , 谷歌发布基于他们最新一代人工智能架构 Pathways 研发的 5400 亿参数大模型——PaLM, 具备标记因果关系、上下文理解、推理、代码生成等等多项功能 , 其中常识推理能力更是较以往的语言模型有较大提升。
但同时 , 大家也一如既往地注意到 PaLM 的计算成本 : 用了 6144 块 TPU。如果租显卡训练 , 最高花费可能达到 1700 万美元 ( 人民币超过 1 个亿 ,“一个小目标”)。
显然 , 这很烧钱 , 不符合“经济可用”的原则。难怪业内人士常常吐槽 : 苦大模型久矣。
如果模型往大走 , 一个劲地砸钱 , 何时是个尽头 ? 有学者也向 AI 科技评论表示 : 类似 PaLM 这样的大模型在结果上确实取得了不错的突破 , 但训练与计算的成本非常高 , 没必要将许多任务拼在一起。
对于大模型的未来发展 ,GPT 系列或许能提供一些新的见解。
近日 ,Cambrian AI 的分析师 Alberto Romero 便发表了一篇文章 , 基于 OpenAI 首席执行官 Sam Altman 在数月前的说法 , 推测 GPT- 4 即将在今年 7 月到 8 月发布 , 并基于 Altman 在去年的一场问答 , 对 GPT- 4 的特征进行了预测。
可以肯定的是 ,Altman 称 ,GPT- 4 的参数不会达到 100T。
Alberto Romero 也猜测 , 或许 GPT- 4 的规模会比 GPT- 3 略大 , 但“大”不会像 GPT- 3 一样成为 GPT- 4 的“卖点”。相反 ,OpenAI 更致力于如何让规模较小的模型发挥更大的性能。
1
预测 1 :GPT- 4 不会太大
首先 ,Alberto 判断 ,GPT- 4 不会是最大的语言模型。Altman 也称它不会比 GPT- 3 大很多。与前几代的神经网络相比 ,GPT- 4 肯定会很大 , 但大小不会是它的显著特征。GPT- 4 可能介于 GPT- 3 和 Gopher (175B-280B) 之间。
接着 ,Alberto 给出了他预测的理由 :
去年由英伟达和微软开发的 Megatron-Turing NLG 有 530B 参数 , 一直是最大的密集神经网络——其大小已是 GPT- 3 的 3 倍——直到最近出现了谷歌的 PaLM, 其大小为 540B。但值得注意的是 ,MT-NLG 之后的一些较小的模型达到了更高的性能水平。
也就是说 , 更大 ≠ 更好。小型模型的存在有两个意义。
其一是 , 企业已经意识到 , 要改善性能 , 扩大模型的规模不是唯一的方法 , 也不是最好的方法。2020 年 ,OpenAI 的 Jared Kaplan 和同事得出结论 , 当增加的计算预算主要分配到增加参数的数量上时 , 性能的提高是最显著的 , 并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind 和其他开发语言模型的公司从表面上看接受了这一指导原则。
论文地址 :https://arxiv.org/pdf/2001.08361.pdf
MT-NLG 虽然规模很大 , 但在性能方面并不是最好的。事实上 , 它在任何单一类别基准上都不是最好的存在。像 Gopher (280B) 或 Chinchilla (70B) 这种更小的模型——哪怕仅仅是其一小部分——在任务上的表现都比 MT-NLG 好得多。
第二个意义是 , 公司开始拒绝“越大越好”的教条。虽然增加参数很简单 , 但是拥有更多参数只是众多可以提高性能的因素之一 , 而附带损害 ( 如碳足迹、计算成本或进入死路 ) 反而使其成为最糟糕的因素之一。如果企业能够从一个较小的模型中获得类似或更好的结果时 , 在构建一个庞大的模型之前就会三思而后行。
Altman 说 , 他们不再专注于制造非常大的模型 , 而是致力于让较小的模型发挥最大的作用。OpenAI 的研究人员是缩放假设 (scaling hypothesis) 早期的倡导人 , 但现在他们可能已经意识到其他还没走过的路可以改进模型。
相比将 GPT- 4 做大 ,Alberto 更倾向于认为 ,OpenAI 会将把重点转移到其他方面——比如数据、算法、参数化或对齐——这些因素可以更显著地改进模型。
2
预测 2 :GPT- 4 试图寻找“最优”
当涉及到优化时 , 语言模型会遇到一个关键的问题。训练如此昂贵 , 以至于企业不得不在准确性和成本之间做出权衡。而这种抉择常常会导致模型明显未优化。
GPT- 3 只被训练了一次 , 仍有一些错误 , 这些错误在某些情况下可能会导致重新训练。由于成本太高、负担不起 ,OpenAI 决定不进行优化 , 而这使得研究人员无法找到模型的最佳超参数集 ( 例如学习速率、批尺寸、序列长度等 )。
训练成本很高导致的另一个后果是模型行为的分析受到限制。当 Kaplan 的团队总结出模型大小是提高性能最相关的变量时 , 他们没有考虑到训练令牌的数量——也就是输入模型的数据量。这样做将需要大量的计算资源。
科技公司遵循 Kaplan 的结论 , 因为这已是他们所知最好的想法。讽刺的是 , 正是受到经济限制的影响 , 谷歌、微软、Facebook 和其他公司在越来越大的模型上“浪费”了数百万美元 , 并且在这个过程中产生了大量的污染。
现在 , 以 DeepMind 和 OpenAI 为首的公司正在探索其他方法。他们试图找到最优模型 , 而不仅仅是更大的模型。
最佳参数化
上个月 , 微软和 OpenAI 证明 , 如果使用最优超参数训练模型 ,GPT- 3 可以得到进一步的改进。他们发现 ,6.7B 版 GPT- 3 的性能提高了很多 , 可以与最初的 13B 版 GPT- 3 媲美。超参数调优 ( 对于较大的模型来说不可行 ) 赋予的性能提升相当于参数数量增加了一倍。
他们发现了一种新的参数化 (μP), 在这种参数化中 , 小型模型的最佳超参数也同样适用于同类大型模型。μP 使他们能够优化任意大小的模型 , 而且只需花费很小一部分的培训成本。然后这些超参数可以几乎不花钱地转移到更大的模型中。
最优计算模型
几周前 ,DeepMind 重新审视了 Kaplan 的发现 , 并意识到训练令牌的数量与模型大小一样影响性能 , 而这与人们的看法相反。他们的结论是 , 随着更多的计算预算可用 , 应该将其平均分配给可缩放参数和数据。他们通过训练 Chinchilla 来证明自己的假设 ,Chinchilla 是一个 70B 模型 ( 是曾经的 SOTA, 比 Gopher 小 4 倍 ), 它使用的数据是 GPT-3 (1.4T 令牌 - 来自典型的 300B) 以来所有大型语言模型的 4 倍。
结果是明确的。在许多语言基准测试中 ,Chinchilla“一致且显著地”优于 Gopher、GPT-3、MT-NLG 和所有其他语言模型 , 而目前的模型有过大的问题 , 且训练不足。
考虑到 GPT- 4 将略大于 GPT-3, 根据 DeepMind 的发现 ,GPT- 4 需要达到计算优化的训练令牌数量将约为 5 万亿 , 比当前的数据集高出一个数量级。他们需要训练模型以达到最小训练损失的失败次数 , 将比他们使用 GPT-3( 使用 Gopher 的计算预算作为代替 ) 时多 10 – 20 倍。
Altman 在问答中说 GPT- 4 将比 GPT- 3 使用更多的计算时 , 可能就是在指这一点。
OpenAI 肯定会对 GPT- 4 进行优化相关的调查——尽管具体到什么程度还无法预测 , 因为他们的预算是未知的。可以肯定的是 ,OpenAI 将专注于优化除模型大小之外的其他变量。找到超参数的最佳集合 , 最优计算模型大小和参数的数量可以在所有基准测试中带来难以置信的改进。如果将这些方法合并到一个模型中 , 那这个模型将会达到一个所有预测都难以想象的高度。
Altman 还说 , 如果不把模型做大 , 人们就不会相信模型能有多好。他可能是指扩大模型尺寸的工作目前已经结束。
3
预测 3 :GPT- 4 将是一个纯文本模型
深度学习的未来是多模态模型。人类的大脑有多种感觉 , 这是因为我们生活在一个多模态的世界。每次只以一种模式感知世界 , 极大地限制了人工智能处理或理解世界的能力。
然而 , 良好的多模态模型比良好的仅用语言或仅用视觉的模型要难得多。将视觉信息和文本信息组合成单一的表示形式是一项艰巨的任务。我们对大脑是如何做到这一点的了解非常有限 ( 并不是说深度学习社区考虑了认知科学对大脑结构和功能的见解 ), 所以我们不知道如何在神经网络中实施。
Altman 在问答中说 GPT- 4 不会是多模态的 ( 像 DALL·E 或 LaMDA 那样 ), 而是一个纯文本模型。因此 ,Alberto 的猜测是 , 在跳到下一代多模态人工智能之前 , 他们试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限。
4
预测 4 :GPT- 4 将是一个密集模型
稀疏模型利用条件计算 , 使用模型的不同部分处理不同类型的输入。稀疏模型最近取得了巨大的成功 , 其可以很容易地扩展到超过 1T 参数标记 , 而不会产生高额的计算成本 , 能够在模型大小和计算预算之间创建一个看似正交的关系。然而 ,MoE 方法的好处在非常大的模型上就没那么多了。
考虑到 OpenAI 关注密集语言模型的历史 ,Alberto 认为 ,GPT- 4 大概率也将是一个密集模型。又因为 Altman 说 GPT- 4 不会比 GPT- 3 大很多 , 我们可以得出结论 , 稀疏性不是 OpenAI 的选择——至少目前是这样。
鉴于人工智能的灵感来源 , 即人类大脑 , 严重依赖于稀疏处理。与多模态一样 , 稀疏性很可能会主导未来几代的神经网络。
5
预测 5 :GPT- 4 会比 GPT- 3 更对齐
OpenAI 在解决 AI 对齐问题上投入了大量的精力 : 如何让语言模型遵循我们的意图并坚持我们的价值观——不管这到底意味着什么。这不仅是一个数学难题 ( 例如 , 我们如何让人工智能准确理解我们想要的东西?), 而且也是一个哲学难题 ( 比如没有一种通用的方法可以让人工智能与人类保持一致 , 因为人类价值观在不同群体之间的差异是巨大的 , 而且常常互相冲突 )。
他们使用 InstructGPT 进行了第一次尝试 , 这是一种通过人类的反馈来学习遵守指令的新 GPT-3(不管这些指令是出于好意还是恶意 , 都没有被纳入模型中)。
InstructGPT 的主要突破在于 , 不管其在语言基准上的结果如何 , 其都被人类评审认为是一个更好的模型 ( 这些评审是一个由 OpenAI 员工和英语人士构成的同质的群体 , 所以我们应该对得出的结论保持谨慎的态度 )。这显著表明 , 我们有必要克服把基准作为评估人工智能能力的唯一指标。人类如何感知这些模型可能同样重要 , 如果不是更重要的话。
考虑到 Altman 和 OpenAI 要遵守作为一个有益 AGI 的承诺 , 我相信 GPT- 4 将实现并构建他们从 InstructGPT 中获得的发现。
我认为他们将改进对齐模式的方式 , 因为目前为这个模型制作标签的仅限于 OpenAI 员工和英语人士。而真正的对齐应该包括各种性别、种族、国籍、宗教等方面群体。这是一个巨大的挑战 , 朝着这个目标迈进的任何一步都将受到大众的欢迎。
6
总结
模型大小 :GPT- 4 将比 GPT- 3 大 , 但与目前最大的模型 (MT-NLG 530B 和 PaLM 540B) 相比不是很大。模型规模不会是一个显著的特征。
最优性 :GPT- 4 将比 GPT- 3 使用更多的计算。GPT-4 将实现对参数化 ( 最优超参数 ) 和比例法则 ( 训练令牌的数量与模型大小同样重要 ) 的新优化见解。
多模态 :GPT- 4 将是一个纯文本模型 , 而不是多模态模型。OpenAI 希望在完全跳到像 DALL·E 这样的多模态模型之前先充分利用好语言模型。
稀疏性 : 按照 GPT- 2 和 GPT- 3 的趋势 ,GPT- 4 将是一个密集模型 ( 所有参数将用于处理任何给定的输入 )。在未来 , 稀缺性将变得更加重要。
对齐 :GPT- 4 将比 GPT- 3 更对齐 , 其将从 InstructGPT 进行学习 , 而 InstructGPT 是根据人类的反馈进行训练的。不过 , 人工智能的对齐还有很长的路要走 , 我们应该仔细评估所做出的工作 , 而不应该对此进行炒作。
你怎么看 ?
参考链接 :
https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45
https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe
https://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/
未来智能实验室的主要工作包括 : 建立 AI 智能系统智商评测体系 , 开展世界人工智能智商评测 ; 开展互联网 ( 城市 ) 大脑研究计划 , 构建互联网 ( 城市 ) 大脑技术和企业图谱 , 为提升企业 , 行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣 , 欢迎加入未来智能实验室线上平台。 扫描以下二维码或点击本文左下角“阅读原文”
原文链接:https://blog.csdn.net/cf2SudS8x8F0v/article/details/124287053