🔔✅ChatGTP3.5免费使用，AI绘图低至0.059元/次🔥🔥🔥🔥

这里是知道AI网 ! 速记本站地址：idknowai.com 🏠 I don't know AI

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

169次阅读

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的一部分。

一般来说，在 NLP 领域，参数数量和复杂程度之间具有正相关性。而 OpenAI 的 GPT- 3 则是迄今为止最大的语言模型之一，有 1750 亿个参数。

那么，GPT- 4 会是什么样子的？

近日有网友就对 GTP- 4 及其「开源版」GPT-NeoX 进行了大胆的预测。

GPT- 4 参数将达 10 兆！此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

作者认为，GPT- 4 的参数或许可以达到 10T，是现在 GPT- 3 模型的 57 倍还多，而 GPT-NeoX 的规模则可以和 GPT- 3 持平。

等下，如果是这样，程序员们还能不能在 GPT-NeoX 上愉快地调参了？

模型	发布时间	Tokens	参数	占 1.75T 的百分比	训练文本
GPT-2 (OpenAI)	Feb 2019	10B	1.5B	0.09%	40GB
GPT-J (EleutherAI)	Jun 2021	400B	6B	0.34%	800GB
GPT-3 (OpenAI)	May 2020	499B	175B	10.00%	570GB
PanGu (Chinese)	Apr 2021	40B	200B	11.43%	1.1TB
HyperCLOVA (Korean)	May 2021	560B	204B	11.66%	1TB?
Wudao 2.0 (Chinese)	Jun 2021	500B?	1.75T	100.00%	2.4TB
LaMDA (Google)	Jun 2021	1T?	200B?	11.43%	1TB?
GPT-4 (OpenAI)	TBA	20T?	10T?	571.43%	5TB?
GPT-NeoX (EleutherAI)	TBA	500B?	175B?	10.00%	825GB?

数据集分析

目前应用最广的 GPT- 3 的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引，分类，过滤和加权，而且还针对重复的部分也做了大量的删减。

专门为 Openai 开发并由 Microsoft Azure 托管的世界最强超算之一完成了对 GPT- 3 的训练。超算系统有超过 285,000 个 CPU 核心，超过 10,000 个 GPU，并且以 400Gbps 的速度运行。

GPT- 4 参数将达 10 兆！此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

GPT-3

Wikipedia DataSet是来自于 Wikipedia 的英文内容。由于其质量，写作风格和广度，它是语言建模的高质量文本的标准来源。

WebText数据集（以及扩展版本 WebText2）是来自从 Reddit 出站的大于 4500 万个网页的文本，其中相关的帖子会有两个以上的支持率（upvotess）。

由于具有大于 4.3 亿的月活用户，因此数据集中的内容可以被认为是最「流行」网站的观点。

Books1和 Books2 是两个基于互联网的书籍数据集。类似的数据集包括：

BookCorpus，是由未发表的作者撰写的免费小说书籍的集合，包含了至少 10,000 本书。
Library Genesis (Libgen)，一个非常大的科学论文、小说和非小说类书籍的集合。

Common Crawl是一个包含了超过 50 亿份网页元数据和提取文本的开源存档开放的数据平台：

八年来 PB 级的数据（数以千计的 TB，数以百万计的 GB）。
25B 个网站。
数以万亿计的链接。
75% 英语，3% 中文，2.5% 西班牙语，2.5% 德语等。
排名前 10 域名的内容：Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。

GPT- 4 参数将达 10 兆！此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

GPT- 3 使用的数据集

GPT-Neo 和 GPT-J

今年 3 月，Eleuther AI 在 GitHub 上推出了 GPT-Neo 开源项目，可以在 Colab 上进行微调。

虽然 GPT-Neo 与 GPT- 3 比，参数量仍然很小（1.3B 和 2.7B），但开源又免费，仍然得到了「同性好友们」的认可。

今年 6 月 Eleuther AI 再次推出 GPT-J-6B，它可以说是 GPT-Neo 的增强版本，顾名思义，模型的参数量增加到了 6B。

GPT- J 的训练也是基于 The Pile 数据库 —— 一个 825GB 的多样化开源语言建模数据集，由 22 个较小的、高质量的数据集合组成。

The Pile 除了专业论坛和知识库，如 HackerNews、Github 和 Stack Exchange，论文预印本网站 ArXiv 以外，还包括如 Youtube 字幕，甚至安然邮件（Enron Emails）语料库。

GPT- 4 参数将达 10 兆！此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

GPT-Neo 和 GPT- J 使用的数据集

在 zero-shot 任务上，GPT- J 性能和 67 亿参数的 GPT- 3 相当，也是目前公开可用的 Transformer 语言模型中，在各种下游 zero-shot 任务上表现最好的。

这么看来，确实可以期待一下和 GPT- 3 相同规模的 GPT-NeoX 的表现了。

网友评论

GPT- 4 怎么这么大？

「GPT- 3 已经接近理论上每个 token 的最大效率了。如果 OpenAI 模型的工作方式是正确的，更大的模型只是对算力的浪费。」

GPT- 4 参数将达 10 兆！此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

有网友解答说：「规模确实可以带来改善。因为本质上是一种关系隐喻模型，『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然，这也同时是一个营销的方式。」

GPT- 4 参数将达 10 兆！此表格预测全新语言模型参数将是 GPT- 3 的 57 倍

原文链接：https://www.51cto.com/article/671910.html

正文完

openai 预测模型

发表至：资讯

2023-07-27

版权声明：本站原创文章，由不知道 2023-07-27发表，共计2055字。

转载说明：声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

人工智能的发展与应用！

简述人工智能应用。

人工智能、多智能体协同控制、扩展现实方向高薪博士博后机会汇总—全球最新PhD/博后

这些事，文心一言替你做

ChatGPT-3.5和ChatGPT-4的区别

GPT-4前奏？OpenAI发布120亿参数图像版GPT-3