GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍

68次阅读

  对于机器学习来说,参数可以算得上算法的关键:它们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。

一般来说,在 NLP 领域,参数数量和复杂程度之间具有正相关性。而 OpenAI 的 GPT- 3 则是迄今为止最大的语言模型之一,有 1750 亿个参数。

那么,GPT- 4 会是什么样子的?

近日有网友就对 GTP- 4 及其「开源版」GPT-NeoX 进行了大胆的预测。

GPT- 4 参数将达 10 兆!此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

作者认为,GPT- 4 的参数或许可以达到 10T,是现在 GPT- 3 模型的 57 倍还多,而 GPT-NeoX 的规模则可以和 GPT- 3 持平。

等下,如果是这样,程序员们还能不能在 GPT-NeoX 上愉快地调参了?

模型

发布时间

Tokens

参数

占 1.75T 的百分比

训练文本

GPT-2

(OpenAI)

Feb 2019

10B

1.5B

0.09%

40GB

GPT-J

(EleutherAI)

Jun 2021

400B

6B

0.34%

800GB

GPT-3

(OpenAI)

May 2020

499B

175B

10.00%

570GB

PanGu (Chinese)

Apr 2021

40B

200B

11.43%

1.1TB

HyperCLOVA (Korean)

May 2021

560B

204B

11.66%

1TB?

Wudao 2.0 (Chinese)

Jun 2021

500B?

1.75T

100.00%

2.4TB

LaMDA

(Google)

Jun 2021

1T?

200B?

11.43%

1TB?

GPT-4

(OpenAI)

TBA

20T?

10T?

571.43%

5TB?

GPT-NeoX

(EleutherAI)

TBA

500B?

175B?

10.00%

825GB?

数据集分析

目前应用最广的 GPT- 3 的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引,分类,过滤和加权,而且还针对重复的部分也做了大量的删减。

专门为 Openai 开发并由 Microsoft Azure 托管的世界最强超算之一完成了对 GPT- 3 的训练。超算系统有超过 285,000 个 CPU 核心,超过 10,000 个 GPU,并且以 400Gbps 的速度运行。

GPT- 4 参数将达 10 兆!此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

GPT-3

Wikipedia DataSet是来自于 Wikipedia 的英文内容。由于其质量,写作风格和广度,它是语言建模的高质量文本的标准来源。

WebText数据集(以及扩展版本 WebText2)是来自从 Reddit 出站的大于 4500 万个网页的文本,其中相关的帖子会有两个以上的支持率(upvotess)。

由于具有大于 4.3 亿的月活用户,因此数据集中的内容可以被认为是最「流行」网站的观点。

Books1Books2 是两个基于互联网的书籍数据集。类似的数据集包括:

  • BookCorpus,是由未发表的作者撰写的免费小说书籍的集合,包含了至少 10,000 本书。
  • Library Genesis (Libgen),一个非常大的科学论文、小说和非小说类书籍的集合。

Common Crawl是一个包含了超过 50 亿份网页元数据和提取文本的开源存档开放的数据平台:

  • 八年来 PB 级的数据(数以千计的 TB,数以百万计的 GB)。
  • 25B 个网站。
  • 数以万亿计的链接。
  • 75% 英语,3% 中文,2.5% 西班牙语,2.5% 德语等。
  • 排名前 10 域名的内容:Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。
GPT- 4 参数将达 10 兆!此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

GPT- 3 使用的数据集

GPT-Neo 和 GPT-J

今年 3 月,Eleuther AI 在 GitHub 上推出了 GPT-Neo 开源项目,可以在 Colab 上进行微调。

虽然 GPT-Neo 与 GPT- 3 比,参数量仍然很小(1.3B 和 2.7B),但开源又免费,仍然得到了「同性好友们」的认可。

今年 6 月 Eleuther AI 再次推出 GPT-J-6B,它可以说是 GPT-Neo 的增强版本,顾名思义,模型的参数量增加到了 6B。

GPT- J 的训练也是基于 The Pile 数据库 —— 一个 825GB 的多样化开源语言建模数据集,由 22 个较小的、高质量的数据集合组成。

The Pile 除了专业论坛和知识库,如 HackerNews、Github 和 Stack Exchange,论文预印本网站 ArXiv 以外,还包括如 Youtube 字幕,甚至安然邮件(Enron Emails)语料库。

GPT- 4 参数将达 10 兆!此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

GPT-Neo 和 GPT- J 使用的数据集

在 zero-shot 任务上,GPT- J 性能和 67 亿参数的 GPT- 3 相当,也是目前公开可用的 Transformer 语言模型中,在各种下游 zero-shot 任务上表现最好的。

这么看来,确实可以期待一下和 GPT- 3 相同规模的 GPT-NeoX 的表现了。

网友评论

GPT- 4 怎么这么大?

「GPT- 3 已经接近理论上每个 token 的最大效率了。如果 OpenAI 模型的工作方式是正确的,更大的模型只是对算力的浪费。」

GPT- 4 参数将达 10 兆!此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

有网友解答说:「规模确实可以带来改善。因为本质上是一种关系隐喻模型,『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然,这也同时是一个营销的方式。」

GPT- 4 参数将达 10 兆!此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

 

 

原文链接:https://www.51cto.com/article/671910.html

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-27发表,共计2055字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。