拥有100万亿参数GPT-4将比GPT-3大500倍:超大型的神经网络是实现AGI的最佳方式吗?

108次阅读

OpenAI 的诞生是为了应对实现通用人工智能 (AGI) 的挑战——一种能够做人类能做的任何事情的人工智能。

正如我们所知 , 这样的技术将改变世界。如果使用得当 , 它可以使我们所有人受益 , 但也可能成为落入坏人之手的最具破坏性的武器。为确保每个人都能平等受益 :“我们的目标是以最有可能造福全人类的方式推进数字智能。”, 这就是 OpenAI 接手这个任务的原因。

然而 , 这个问题的复杂性使它可以说是人类已经投入的最大的科学事业。尽管计算机科学和人工智能取得了所有进步 , 但没有人知道如何解决它或它何时会成为现实。

有些人认为深度学习不足以实现 AGI。伯克利的计算机科学教授、人工智能先驱 Stuart Russell 认为 ,“专注于原始计算能力完全没有抓住要点 [……] 我们还不知道如何让机器拥有真正智能——即使它有宇宙的大小。”

相比之下 ,OpenAI 相信以大型数据集为基础并在大型计算机上训练的大型神经网络是实现 AGI 的最佳方式。OpenAI 的首席技术官 Greg Brockman 在接受《金融时报》采访时表示 :“我们认为 , 谁拥有最大的计算机 , 谁就会获得最大的收益。”

他们也是这么做的 , 开始训练越来越大的模型 , 以唤醒深度学习中隐藏的力量。朝这个方向迈出的第一个非微妙步骤是 GPT 和 GPT-2 的发布。这些大型语言模型将为节目的明星 :GPT-3 奠定基础。一个拥有 1750 亿个参数比 GPT-2 大 100 倍的语言模型。

GPT-3 发布后是当时最大的神经网络 , 并且现在仍然是最大的神经网络。它的语言专长和无数能力令大多数人感到惊讶。尽管一些专家仍然持怀疑态度 , 但大型语言模型已经让人感到新奇。对于 OpenAI 研究人员来说 , 这是一个巨大的飞跃并且可以强化他们的信念并让我们相信 AGI 是深度学习的一个问题。

三位一体——算法、数据和计算机

OpenAI 相信扩展假设。给定一个可扩展的算法 , 在这种情况下是 transformers——GPT 系列背后的基本架构——它可能有一条通向 AGI 的直接路径 , 该路径可以基于该算法训练越来越大的模型。

但大型模型只是 AGI 难题的一部分。训练它们需要大量的数据集和大量的计算能力。

当机器学习社区开始揭示无监督学习的潜力时 , 数据不再是瓶颈。这与生成语言模型和小样本任务迁移 (few-shot task transfer) 一起解决了 OpenAI 的“大数据集”问题。他们只需要使用大量的计算资源来训练和部署他们的模型就可以了。

这就是他们在 2019 年与微软合作的原因。作为可以在商业上使用 OpenAI 的一些模型的交换 ,OpenAI 换取了对微软云计算基础设施和他们所需的强大 GPU 的访问权。

但是 GPU 并不是专门为训练神经网络而构建的。游戏行业开发了这些用于图形处理的芯片 , 而人工智能行业只是利用了这些芯片对并行计算的适用性。OpenAI 想要最好的模型和最好的数据集 ,GPU 还不够的 , 他们也想要拿到最好的计算机芯片。

许多公司也意识到了这一点 , 并开始构建内部专用芯片旨在训练神经网络 , 在节省成本的同事不会降低效率。然而 , 像 OpenAI 这样的纯软件公司很难将硬件设计和制造融为一体。这就是为什么他们采取了另一条路线 : 使用第三方 AI 专用芯片。

这时 Cerebras Systems 出现了。这家芯片公司已经在 2019 年制造了有史以来最大的用于训练大型神经网络的芯片。现在他们和 OpenAI 合作 , 又开始了新的研究。

WSE- 2 芯片和 GPT- 4 模型

两周前 ,《Wired》杂志发表了一篇文章里面包含了两条重要消息。

首先 ,Cerebras 再次制造了市场上最大的芯片 ,Wafer Scale Engine Two (WSE-2)。它大约 22 厘米 , 有 2.6 万亿晶体管。相比之下 , 特斯拉全新的训练芯片只有有 1.25 万亿晶体管。

Cerebras 找到了一种有效压缩计算能力的方法 , 因此 WSE- 2 有 85 万个核心(计算单元), 而典型的 gpu 只有几百个。他们还用一种新颖的冷却系统解决了散热问题 , 并创建了高效的 IO 流。

像 WSE- 2 这样的超级专业、超级昂贵、超级强大的芯片用途并不多。训练大型神经网络就是其中之一。所以 Cerebras 和 OpenAI 进行了对话。

这是第二条新闻 :Cerebras 首席执行官 Andrew Feldman 对《Wired》杂志表示:“从与 OpenAI 的对话来看 ,GPT- 4 将会有大约 100 万亿个参数。(……)但是发布的话可能还需要几年的时间。。。”

从 GPT- 3 开始 , 人们就对 OpenAI 及其下一个版本充满了期待。现在我们知道它会在几年内问世 , 而且会非常大。它的尺寸将超过 GPT- 3 的 500 倍。你没看错:500 倍。

我们可以从 GPT-4 中期待什么 ?

100 万亿个参数很多。要了解这个数字有多大 , 让我们将它与我们的大脑进行比较。一般人类的大脑有大约 80-1000 亿个神经元和大约 100 万亿个突触。
拥有 100 万亿参数 GPT- 4 将比 GPT- 3 大 500 倍:超大型的神经网络是实现 AGI 的最佳方式吗?

GPT-4 将拥有与大脑具有突触一样多的参数。

将人工神经网络与大脑进行比较是一件棘手的事情。这种比较看似是公平的 , 但这只是因为我们假设人工神经元至少松散地基于生物神经元。最近发表在 Neuron 上的一项研究表明情况并非如此。他们发现至少需要一个 5 层神经网络才能够模拟单个生物神经元的行为。也就是说需要大约 1000 个人工神经元才能够模拟一个生物神经元。

这么看来 GPT- 4 还是没有达到我们大脑的水平 , 但是即使 GPT-4 没有我们的大脑那么强大 , 它也肯定会给我们带来惊喜。与 GPT-3 不同它可能不仅仅是一个语言模型。OpenAI 的首席科学家 Ilya Sutskever 在 2020 年 12 月撰写有关多模态的文章时暗示了这一点 :

“到 2021 年 , 语言模型将开始了解视觉世界。仅文字就可以表达关于世界的大量信息 , 但它是不完整的因为我们也生活在视觉世界中。”

我们已经在 DALL·E 中看到了其中的一些 , 它是 GPT-3 的较小版本 (120 亿个参数 ), 专门针对文本 - 图像对进行训练。OpenAI 当时表示 ,“通过语言描述视觉概念现在已经触手可及。”

OpenAI 一直在不停地利用 GPT-3 的隐藏能力。DALL·E 仅仅是 GPT-3 的一个特例 , 很像 Codex。但它们并不是绝对的改进更像是特殊情况。而 GPT-4 能够提供更多的功能。例如 DALL·E( 文本图像 ) 和 Codex( 编码 ) 等专业系统的深度与 GPT-3( 通用语言 ) 等通用系统的宽度相结合。

那么其他类似人类的特征呢 , 比如推理或常识 ? 在这方面 ,Sam Altman 说他们也无法确定 , 但他仍然“乐观”。

目前看来 , 问题还是很多但答案却很少。没有人知道 AGI 是否真的称为可能 , 也没有人知道如何建造它。没有人知道更大的神经网络是否会越来越接近它。但不可否认的是虽然可能还要等几年 , 但 GPT-4 将是值得关注的东西 , 让我们拭目以待。

作者 :Alberto Romero

原文链接:https://blog.csdn.net/deephub/article/details/120301481

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-27发表,共计2798字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。