【新智元导读】GPT- 4 将会有高达 10 兆个参数？近日，有网友在分析了 GPT- 3 和其他语言模型之后大胆预测，GPT- 4 将会达到 GPT- 3 的 57 倍！而「开源版本」则会达到和 GPT- 3 同等的规模。

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的一部分。

一般来说，在 NLP 领域，参数数量和复杂程度之间具有正相关性。而 OpenAI 的 GPT- 3 则是迄今为止最大的语言模型之一，有 1750 亿个参数。

那么，GPT- 4 会是什么样子的？

近日有网友就对 GTP- 4 及其「开源版」GPT-NeoX 进行了大胆的预测。

作者认为，GPT- 4 的参数或许可以达到 10T，是现在 GPT- 3 模型的 57 倍还多，而 GPT-NeoX 的规模则可以和 GPT- 3 持平。

等下，如果是这样，程序员们还能不能在 GPT-NeoX 上愉快地调参了？

数据集分析

目前应用最广的 GPT- 3 的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引，分类，过滤和加权，而且还针对重复的部分也做了大量的删减。

专门为 Openai 开发并由 Microsoft Azure 托管的世界最强超算之一完成了对 GPT- 3 的训练。超算系统有超过 285,000 个 CPU 核心，超过 10,000 个 GPU，并且以 400Gbps 的速度运行。

GPT-3

Wikipedia DataSet是来自于 Wikipedia 的英文内容。由于其质量，写作风格和广度，它是语言建模的高质量文本的标准来源。

WebText数据集（以及扩展版本 WebText2）是来自从 Reddit 出站的大于 4500 万个网页的文本，其中相关的帖子会有两个以上的支持率（upvotess）。

由于具有大于 4.3 亿的月活用户，因此数据集中的内容可以被认为是最「流行」网站的观点。

Books1和 Books2 是两个基于互联网的书籍数据集。类似的数据集包括：

Common Crawl是一个包含了超过 50 亿份网页元数据和提取文本的开源存档开放的数据平台：

GPT- 3 使用的数据集

GPT-Neo 和 GPT-J

今年 3 月，Eleuther AI 在 GitHub 上推出了 GPT-Neo 开源项目，可以在 Colab 上进行微调。

虽然 GPT-Neo 与 GPT- 3 比，参数量仍然很小（1.3B 和 2.7B），但开源又免费，仍然得到了「同性好友们」的认可。

今年 6 月 Eleuther AI 再次推出 GPT-J-6B，它可以说是 GPT-Neo 的增强版本，顾名思义，模型的参数量增加到了 6B。

GPT- J 的训练也是基于 The Pile 数据库——一个 825GB 的多样化开源语言建模数据集，由 22 个较小的、高质量的数据集合组成。

The Pile 除了专业论坛和知识库，如 HackerNews、Github 和 Stack Exchange，论文预印本网站 ArXiv 以外，还包括如 Youtube 字幕，甚至安然邮件（Enron Emails）语料库。

GPT-Neo 和 GPT- J 使用的数据集

在 zero-shot 任务上，GPT- J 性能和 67 亿参数的 GPT- 3 相当，也是目前公开可用的 Transformer 语言模型中，在各种下游 zero-shot 任务上表现最好的。

这么看来，确实可以期待一下和 GPT- 3 相同规模的 GPT-NeoX 的表现了。

网友评论

GPT- 4 怎么这么大？

「GPT- 3 已经接近理论上每个 token 的最大效率了。如果 OpenAI 模型的工作方式是正确的，更大的模型只是对算力的浪费。」

有网友解答说：「规模确实可以带来改善。因为本质上是一种关系隐喻模型，『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然，这也同时是一个营销的方式。」

参考资料：

https://lifearchitect.com.au/ai/models/#contents

举报 / 反馈

原文链接：https://baijiahao.baidu.com/s?id=1705151020272489648&wfr=spider&for=pc

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍