五一这一天稍微有点空,再讲讲 ChatGPT 和大模型相关的一些东西。
其实最近我也在各个平台上看到很多言论,例如有些流传广度的“GPT-3/ChatGPT 都开源几个月了,国内厂商才抄出来”这种甚至都懒得反驳的谣言。
不过这次主要还是把以前零零散散说过的东西整合一下,主要还是帮大家理解,也不能算是辟谣吧。
(1)前不久我发了一个专栏:
网传 GPT- 5 已经看完所有人类视频?简单找了下这条消息的来源
其实这个推特原文中还提到了“它可以瞬间标记出所有它看过的视频中的一切声光信息。准确到每一秒都行”。有没有一种可能,做到这种事情不需要 GPT?有没有一种可能,我只要写个简单的程序就可以了?不过 1s 确实有些麻烦,但做些索引啥的应该问题不大。而 GPT 这样的大模型想要 1s 推理实际上是很麻烦的。再往后就不展开了,就好像我要论证火箭发射不是用煤一样。
对了,一开始有人认为 GPT- 5 已经开始训练了,主要是因为一位老哥在看 GPT- 4 的技术报告的时候猜测出来的。
(2)当然,可能有朋友会问,万一里面说的“GPT-5”实际上不是 OpenAI 做的呢?毕竟 OpenAI 老总说他们其实没有在训练 GPT-5,那么是不是其他人做了个模型,命名为 GPT- 5 了呢?确实有这个可能。包括很多地方有很多实际上不是 GPT 的程序披着 GPT 的名号发布 APP 啥的,不过 OpenAI 最近想要给“GPT”做商标啥的(我对版权、商标啥的不是很熟,总之 OpenAI 的目的就是防止“GPT”被泛滥的使用,而且“想要”就是说明在写这篇专栏的时候,就我所知,还没做好),目的也是防止山寨货横行。
(3)回到一开始的那一条“GPT-3/ChatGPT 都开源几个月了,国内厂商才抄出来”。首先,GPT- 3 就是没有开源的,有 API 调用和开源是两码事。开源主要指的是模型架构和参数的开源,再不济是开源训练数据和训练方法,包括超参啥的,让人能够不进行额外的探索就可以轻松复现。
GPT- 3 论文中只是简单说明一下模型参数量和一些架构细节,顺带提了下上下文学习啥的,远远称不上是开源。
ChatGPT 更是连论文都没有,只是在网页上说明它用了 RLHF 等技术,你能找到的相似论文,或者说姐妹模型的论文是 InstructGPT,然而很关键的一点,即 ChatGPT 的 RLHF 用了多少数据,用了什么样的数据,我们是不清楚的。
GPT- 4 更是只有技术报告,连有多少参数都不知道。
(4)有人会说可是 GPT- 2 开源了啊,不是说 GPT- 3 只是在 GPT- 2 的基础上狂暴的增加参数而已吗?确实,很多人批评 GPT- 3 的主要的一点就在于 GPT- 3 完全没有创新。但是参数量从几亿增加到千亿级别,是需要相关资源全部配套到位才可以的,你需要更好的硬件、更好的优化策略、更好的处理分布式、更好的既懂得硬件有懂得软件的工程师、更好更多的数据以及更多的钱。整个工程难度不是 GPT- 2 可以比的。
(5)GPT- 3 的复刻问题。其实并不是说我们之前就完全没有关注 GPT 的发展,GPT- 3 出来以后,就有很多复刻的尝试,但大都失败了,流传下来了很多复刻失败的经验。那么,有没有复刻成功的呢?有的,目前唯一已知公开宣布复刻成功的只有达摩院,而且达摩院也是从 GPT-1(其实狭义上的 GPT 指的就是 GPT-1,而且我们业界一般不说 GPT- 1 的,就直接叫 GPT,不过 GPT- 1 毕竟简单易懂)开始就跟着复刻了,有不少相关经验
(6)其实 ChatGPT 刚开始火的时候,我就猜到有很多国内的人会很着急,当然我那时候也说了,大模型不是一两天就能训练出来的,至少要等几个月。到现在各种类 GPT 一个个冒出来也说明了 ChatGPT 出来之后,很多组织跟进的还是挺及时的,然而差距还是有的。这也侧面验证了 GPT- 3 并不是 GPT- 2 的简单扩大。
(7)这里提一下清华的 ChatGLM。我看了论文才知道 GLM 实际上是双向的(GPT- 3 以及一系列模型都是单向的),双向的好处是对输入文本的理解能力更强,但是这样做会导致在同等参数量的情况下,双向模型会小很多,可能会影响能力涌现。
(8)接下来说说“抄”的问题。实际上也没必要那么在意,包括前不久有人说文心一言的文生图是中译英再文生图的。但是开源的目的就是让人用的,用开源的东西并不可耻。并且说白了现在大部分大模型不还是 transformer 架构吗,也没人整天说这些模型都抄袭“Attention is all you need”这篇论文啊。当然,文心一言的实际使用过程中确实可以看到很多值得吐槽的点,整体性能只能说是能用的程度。
(9)大家当然希望我们国家的一些技术能够自主创新一些,这也能理解,但是对于没有实际参与过大模型训练的人来说可能很难体会到这个东西到底有多么难做。我整个 4 月都在和大模型打交道,快把我逼疯了也没做出什么有价值的东西,我们实验室训练出的 LLaMA 模型性能,实话实说,也不怎么样。在我看来,能在几个月内搞出点东西,甚至敢发布,都可以说是很值得称赞了。
(10)说回 Transformer,Transformer 是编码器 - 解码器架构,Transformer 出现之后,BERT 和 GPT 就对其“肢解”了,BERT 是纯编码器,GPT 是纯解码器。我也说过很多次了,之前很多的研究主要走的是 BERT 这一支,毕竟 BERT 在当时给人的震撼是立竿见影的,这就导致即使 GPT- 3 也同样惊艳、有很多神奇的现象的情况下,大模型的研究也主要是 BERT 这条线,直到 ChatGPT 的出现才让大部分人意识到事情的不对劲。
其实还有很多想说的,但也写了快一个小时了,就先这么多吧。
由于我个人比较忙,就不一一把相关的证据搬出来了,包括有些资料也不太好翻找。可能会有些错误,还请大家见谅。
原文链接:https://www.bilibili.com/read/cv23408119