「炫富」的GPT-3来了：45TB数据，1750亿个参数，还会三位数加减法

鱼羊发自凹非寺量子位报道 | 公众号 QbitAI

那个语言模型又迭代了，现在有 1750 亿个参数。

这个让英伟达狂喜，让调参师流泪的数字来自 OpenAI，史上最大 AI 语言模型——

GPT-3。

单单论文就有72 页。

OpenAI 表示，通过 GPT-3，他们证明了无需梯度更新，无需微调，规模更大的语言模型就可以大大改善无关任务和小样本（few-shot）学习的性能，达到最先进微调方法的水准。

在部分任务中，甚至超越了最先进微调方法。

不仅如此，这个语言模型，还能做加减法。

GPT- 3 是什么

不妨先来看看 GPT- 3 的实际表现。

比如，先告诉 GPT- 3 这样一个示例：

“whatpu”是坦桑尼亚的一种小型、毛茸茸的动物。一个使用 whatpu 造句的例子是：我们在非洲旅行时，看到了非常可爱的 whatpu。

此后不再给 GPT- 3 任何特定任务提示，就向它抛出问题：

“Burringo”是指加速度非常快的汽车。一个使用 Burringo 造句的例子是：

GPT- 3 造出的句子是这样的：

在我们的车库里有一辆 Burringo，我爸天天开着它上下班。

至于编故事的能力，在 500 个词的情况下，人类判断出其为 AI 生成的概率仅为 52%。在最佳案例中，判断准确率甚至降到了12%。

能自己编故事、纠正英语语法，甚至，GPT- 3 还学会了 3 位数基本运算。

表中，{2,3,4,5}D{+,-}表示 2、3、4、5 位数加法或减法，2Dx 代表 2 位数乘法，1DC 代表 1 位数复合运算。

无需微调

前文也说到了，达到这样的效果，不需要梯度更新，不需要微调。只需要指定任务、展示少量演示，来与模型文本交互，就能使其完成任务。

这样一来，一方面，对于新任务，就不需要重新收集大量带标签的数据。

另一方面，可以避免微调阶段出现过拟合，导致模型泛化能力下降的问题。

而实现的关键，总结起来就是：大力出奇迹。

不仅模型尺寸增大到了 1750 亿，数据量也达到了 45TB。V100 嘛，是“微软提供的高带宽群集中的 V100 GPU”。

研究人员将预训练模型在三种不同的设置下进行了探索。

本文的重点放在零样本、单样本和小样本学习上。研究人员没有对 GPT- 3 进行微调，不过，论文谈到，原则上是可以微调 GPT- 3 的。

模型与架构

具体到模型与架构，研究人员采用了与 GPT- 2 相同的模型和架构，不过，在 tranformer 各层中使用了交替稠密（alternating dense）和局部带状稀疏注意力（locally banded sparse attention）模式，类似于 Spare Transformer。

GPT- 3 的影响

知乎问题「如何评价 1700 亿参数的 GPT-3」的标签，已经透露出玄机。

知乎用户 CloudySky 就说，看了 GPT-3，再看看自己 i9+2080ti+2TB 硬盘的台式，想想有空还是打开 steam，趁打折多买几个 3A 大作比较合适。

他还发出了灵魂一问：

有见过人用窜天猴去调试火箭发射井嘛？

复旦邱锡鹏教授则认为，Pretrain+finetune 仍然会是未来几年的主流。

虽然如此恐怖的计算成本让人有些望而却步，但 EECVC 联合创始人 Dmytro Mishkin 认为：

按 10 年前的标准，ResNet50 的计算代价也是令人望而却步的，但事实证明它们的存在是必要的。

也有网友表示：

GPT- 3 可能还是无法帮助 OpenAI 盈利，也无法直接上线显著造福网民，但是从中积累的大模型训练经验是 OpenAI 及其背后的微软 Azure 一笔巨大的财富。这就像，人类登上火星 / 月球可能并不能带来直接的资源收益，但是从中积累的科学技术却可以推动人类社会的发展。做 NLP，虽然有了资源不一定行，但是没有资源现在肯定是不行了。

不管怎么说，看到这 GPU 熊熊燃烧的场面，想必老黄已经乐开了花。

目前，GPT- 3 尚未开源，可以期待一下，OpenAI 这回会挤多久牙膏了。

参考链接

论文地址：https://arxiv.org/abs/2005.14165GitHub 地址：https://github.com/openai/gpt-3https://zhuanlan.zhihu.com/p/144597974https://www.zhihu.com/question/398114261/answer/1254053398https://www.zhihu.com/question/398114261/answer/1254692810

— 完 —

举报 / 反馈

原文链接：https://baijiahao.baidu.com/s?id=1668272763031974594&wfr=spider&for=pc