「炫富」的GPT-3来了:45TB数据,1750亿个参数,还会三位数加减法

101次阅读

鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI

那个语言模型又迭代了,现在有 1750 亿 个参数。

这个让英伟达狂喜,让调参师流泪的数字来自 OpenAI,史上最大 AI 语言模型——

GPT-3

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

单单论文就有72 页

OpenAI 表示,通过 GPT-3,他们证明了 无需梯度更新 无需微调,规模更大的语言模型就可以大大改善无关任务和小样本(few-shot)学习的性能,达到最先进微调方法的水准。

在部分任务中,甚至超越了最先进微调方法。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

不仅如此,这个语言模型,还能做加减法。

GPT- 3 是什么

不妨先来看看 GPT- 3 的实际表现。

比如,先告诉 GPT- 3 这样一个示例:

“whatpu”是坦桑尼亚的一种小型、毛茸茸的动物。一个使用 whatpu 造句的例子是:我们在非洲旅行时,看到了非常可爱的 whatpu。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

此后不再给 GPT- 3 任何特定任务提示,就向它抛出问题:

“Burringo”是指加速度非常快的汽车。一个使用 Burringo 造句的例子是:

GPT- 3 造出的句子是这样的:

在我们的车库里有一辆 Burringo,我爸天天开着它上下班。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

至于编故事的能力,在 500 个词的情况下,人类判断出其为 AI 生成的概率仅为 52%。在最佳案例中,判断准确率甚至降到了12%

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法
「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

能自己编故事、纠正英语语法,甚至,GPT- 3 还学会了 3 位数基本运算。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

表中,{2,3,4,5}D{+,-}表示 2、3、4、5 位数加法或减法,2Dx 代表 2 位数乘法,1DC 代表 1 位数复合运算。

无需微调

前文也说到了,达到这样的效果,不需要梯度更新,不需要微调。只需要指定任务、展示少量演示,来与模型文本交互,就能使其完成任务。

这样一来,一方面,对于新任务,就不需要重新收集大量带标签的数据。

另一方面,可以避免微调阶段出现过拟合,导致模型泛化能力下降的问题。

而实现的关键,总结起来就是:大力出奇迹

不仅模型尺寸增大到了 1750 亿,数据量也达到了 45TB。V100 嘛,是“微软提供的高带宽群集中的 V100 GPU”。

研究人员将预训练模型在三种不同的设置下进行了探索。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

本文的重点放在零样本、单样本和小样本学习上。研究人员没有对 GPT- 3 进行微调,不过,论文谈到,原则上是可以微调 GPT- 3 的。

模型与架构

具体到 模型与架构,研究人员采用了与 GPT- 2 相同的模型和架构,不过,在 tranformer 各层中使用了交替稠密(alternating dense)和局部带状稀疏注意力(locally banded sparse attention)模式,类似于 Spare Transformer。

GPT- 3 的影响

知乎问题「如何评价 1700 亿参数的 GPT-3」的标签,已经透露出玄机。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

知乎用户 CloudySky 就说,看了 GPT-3,再看看自己 i9+2080ti+2TB 硬盘的台式,想想有空还是打开 steam,趁打折多买几个 3A 大作比较合适。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

他还发出了灵魂一问:

有见过人用窜天猴去调试火箭发射井嘛?

复旦邱锡鹏教授则认为,Pretrain+finetune 仍然会是未来几年的主流。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

虽然如此恐怖的计算成本让人有些望而却步,但 EECVC 联合创始人 Dmytro Mishkin 认为:

按 10 年前的标准,ResNet50 的计算代价也是令人望而却步的,但事实证明它们的存在是必要的。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

也有网友表示:

GPT- 3 可能还是无法帮助 OpenAI 盈利,也无法直接上线显著造福网民,但是从中积累的大模型训练经验是 OpenAI 及其背后的微软 Azure 一笔巨大的财富。这就像,人类登上火星 / 月球可能并不能带来直接的资源收益,但是从中积累的科学技术却可以推动人类社会的发展。做 NLP,虽然有了资源不一定行,但是没有资源现在肯定是不行了。

不管怎么说,看到这 GPU 熊熊燃烧的场面,想必老黄已经乐开了花。

「炫富」的 GPT- 3 来了:45TB 数据,1750 亿个参数,还会三位数加减法

目前,GPT- 3 尚未开源,可以期待一下,OpenAI 这回会挤多久牙膏了。

参考链接

论文地址:https://arxiv.org/abs/2005.14165GitHub 地址:https://github.com/openai/gpt-3https://zhuanlan.zhihu.com/p/144597974https://www.zhihu.com/question/398114261/answer/1254053398https://www.zhihu.com/question/398114261/answer/1254692810

— 完 —

举报 / 反馈

原文链接:https://baijiahao.baidu.com/s?id=1668272763031974594&wfr=spider&for=pc

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-27发表,共计1874字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。