GPT4最值得关心的6个问题｜见智研究

234次阅读

摘要：

1、多模态带来成本的提升是非常正常的。

2、科技越往后成本会越低。从长远来看，OpenAI 的边际成本将无限趋近于 0。

3、人机交互界面的改变是 GPT3.5 开始被产业界重视的原因

4、多模态 4.0 的本质：所有的文字，语音，图像，视频都可以抽象成一组向量。GPT 本质上就是一个向量的输入，通过它的相关性输出另一组向量，从而转换成图像、语音或者视频，本质上是一样的，不同的是所消耗的算力资源。

5、现在其实有两个革命，一个是能源革命，基于锂电池，从过去的化石能源到我们的现在的锂电能源。另一个革命就是以 ChatGPT 为代表的 AGI 通用人工智能，未来在有了更灵敏的机械反馈后，机器人就是最大的一个应用场景，但数字人一定会比机器人更先应用。

6、AI 演绎路径：肯定是先软件后硬件，先云端，后端，最后是边端。

丁奇：微软将 GPT4 嵌入 Bing、Office 全家桶这是一次天作之合。GPT4 的核心就是多模态，能够生成文字、图像和视频，这对搜索引擎和办公有非常大的促进作用，像搜索引擎的核心需要的不仅是链接，而是答案，GPT4 就可以直接生成我们想要的具体关于某个问题的答案。

我们平时一般通过办公软件、PPT、Word、Excel 来生成内容，现在 GPT 成了非常强大的助手，比如一键生成 PPT，极大促进了办公效率。所以我们认为微软和 OpenAI 合作必将对生产内容带来革命性的变化，也希望国内相关办公软件尽快推出相关的功能，让人享受到办公的便利。

见智研究：如何看待 GPT4 的运行成本？

丁奇：首先 GPT4 现在并没有公开论文说参数到底是多少，不过 360 董事长周鸿祎先生根据 GPT4 的效果做了一个预估，可能是万亿量级的参数。不过这点对于成本来讲还没有那么重要。

另外，过去的计价和现在的计价，都是基于 token，现在的单位计价贵了 30 倍左右（过去是 1000 个 token0.002 美元，现在是 0.06 美元）。为什么会更贵了？因为 token 的计价方式不同。通用计价方式是你看输入的参数，现在输入同样词更贵了，因为不能光看输入端的成本，还要看输出端的成本。过去的输入和输出都是文字，所以成本是比较低的。而 GPT 4.0 输出完全可能是图片，甚至以后是视频，输出量是大幅增加的，所以多模态带来成本的提升是非常正常的。

见智研究：GPT 3.5 Turbo 为什么能做到参数量更多，但是价格反而更低？

丁奇：3.5 相比 3.0，核心参数在调优后是有所下降的。成本可以分为两块，一块是训练成本，一块是推理成本。从 3.0 之后，模型是做好了一个大概的训练，很多成本是有所摊销的，到了 3.5 之后，大家摊的更多的是推理成本。

科技就是这样的，在一开始的时候肯定是贵的，因为它有大量的研发投入、大量的基础设施投入。当然越往后它会越便宜，因为用的人越多，成本也会分摊的越多。

所以 OpenAI 说，从长远来看，它的边际成本是无限趋近于 0 的。其实就像我们现在的搜索引擎一样，现在点一次搜索成本是极其低的。只不过 4.0 相比过去的 3.5 生成的内容不一样，图像、视频对网络带宽、计算量消耗很大，所以短期成本也会提升。

见智研究：GPT4 发布后，如何看待之前版本的价值量？GPT1、2、3、3.5 到 4 代大模型的演进变化是怎样的？

丁奇：1.0 是 2018 年出的，2.0 是 2019 年出的，但是其实在产业界没有激起太大的水花，都是 transformer 往 NLP（自然语言理解）上的尝试。过去在 NLP 上大家体验效果其实不太好的，比如语音的转写，翻译效果其实是不太尽如人意的。

过去的人工智能，它的主要算法是基于 CNN，RNN，LSTM 这三种。它在模仿人的神经元，认为信号是从一个神经元传递到另一个神经元的，也就是从一个单词找到相邻单词之间的相关性。这种方法在图像上特别有效，因为从图像上来讲，相邻的颜色，纹理都会很相似，也诞生出了人工智能的 CV 领域。

但是像语音、文字就不一定是相邻相关的，需要结合上下文的语境，甚至在前几章就可能埋了伏笔，需要对上下文要有一个完整的记忆和解读。关键就是如何让机器能够实现语境理解。

Transformer 架构提供了一个非常好的思路。既然我们生活中的理解、智慧、经验跟很多东西都相关。那就把参数组扩大，一直扩大到十亿或者是几十亿的范围。这样就能从各种各样的训练数据里找到更多的相关性。

之前 Transformer 架构没表现出厉害的特质，本质上只是做一个统计相关。当它只有 1.17 亿参数的时候，也就是 GPT1.0，大家也没有觉得多了不起。到 GPT2.0 的时候，大概 15 亿的参数，大家也觉得好像也没有什么特别大的突破。GPT3.0 到 3.5，大家就发现发生了本质的变化。当它的容量扩到上千亿参数的时候，可以想象关联了多少知识在里面，这个时候它的准确率就有一个飞跃。所以直到 GPT3.0 和 3.5 问世才被产业界真正开始重视起来。

3.5 跟 3.0 的根本区别在于改变了人机交互的界面，这是非常大的一个突破。InstructGPT 能够更好的将语言模型和人类的意图、偏好进行匹配，并且在反馈的机制上进行微调。而 4.0 的本质就是多模态了。

见智研究：多模态是如何实现的？

丁奇：无论中文还是英文，常用词也就上万个词，完全可以用矩阵做一个编码。图像其实是由像素点形成，每一个像素点是由三种颜色涂在一块，是三个数字的小矩阵，把若干个矩阵连在一起，就会形成一个大矩阵。图像本质上就是这样的。

每一个语音就是一个正弦波，对它抽样，它也变成一组数字视频，其实就是一张图像把它叠起来，所以本质上所有的文字，语音，图像，视频都可以抽象成一组向量。GPT 本质上就是一个向量的输入，通过它的相关性输出另一组向量，向量转换成图像、语音或者视频，本质上是一样的，不同的是所消耗的算力资源。所以为什么能实现多模态？因为本质上都变成了一组矩阵，所有的东西都可以抽象成一组矩阵，这是能变成多模态的底层原因。

其实我们做 Transformer 也好，做这 GPT 也好，根本目的是想使用一个通用人工智能 (AGI) 做到在不同的情境下都能用。过去都是专用人工智能，比如专门做人脸识别的，专门做车牌识别的，或者专门做工业检测的，都是在某些专业领域的。人机交互一定是多模态的，这也是为什么 4.0 能够让业界感到欢心鼓舞，这是意味着我们离 AGI 更近了一步。

见智研究：GPT4 应用具有怎样的想象力？

丁奇：搜索一定是落地的第一个场景，比如 New Bing 最先接入; 其次就是办公软件，比如 office365；电子邮件、视频会议也是生成内容类的场景。此外，像服务机器人、智能客服也是非常好的应用领域。

现在其实有两个革命，一个是能源革命，基于锂电池，从过去的化石能源到我们的现在的锂电能源。另一个革命就是以 ChatGPT 为代表的 AGI 通用人工智能，未来在有了更灵敏的机械反馈后，机器人就是最大的一个应用场景。

数字人一定会比机器人更先应用。因为机器人受掣肘的地方比较多，包括续航、关节自由度等等，落地的困难要大很多。如果是数字世界里面的一个数字人，它的到来可能就会快很多，比如主持人、直播带货、数字明星等等。

此外，对游戏行业的影响也很大，特别是能够直接大幅降低游戏的开发成本。用 AI 画图能够极大提高游戏创意师的工作效率。

未来 AI 机器能够替代很多简单的工作，所以人的创意，人的思想就变得特别重要。所以我们觉得对于内容创意者会带来特别大的需求提升。

见智研究：AI 产业是硬件迭代的速度更快，还是应用侧发展会更快？

丁奇：我觉得要分两个阶段，初期一定是应用会更快，现在海外有很多的企业都接入了 API 接口。国内也有百度的文心一言，后面也会开放 API 接入很多的应用。

现在看起来国内和海外的发展路径非常类似，有一两个企业做出一些通用的大模型，接入 API 后向上层的应用软件进行拓展，就可以极大提升效率。Office365 就是一个很典型的代表。

硬件的迭代要取决于几个条件。云端的硬件就是以 GPU 服务器为代表，国内相比英伟达还是有一定差距的，不是短期之内能够迅速追上的。而云端，我们相信以后在端侧也会有一些智能硬件，这些端侧硬件现在的计算能力、内存能力，肯定是难以支持千亿参数的大模型。

而一些应用变得智能，也需要对大模型去做剪枝。可能对参数范围进行圈定，在特定领域有特定应用，从一个大模型变成一个专用领域的特定模型，使得一些边缘侧的智能硬件也可以用。

我们认为首先起来的是云端的软件，以一种 SaaS 化的方式给大家提供。其次就是云端的硬件，因为云端的硬件要怎么去做，其实已经有标杆在那里了，只是大家要踏踏实实地基于路径去做。

后面才是端侧怎么做，现在 open AI 也没有答案，大家现在的精力也不在这上面，但我们相信未来的这些硬件一定会被智能化的，所以路径肯定是先软件后硬件，尤其是先云端，到后端，最后是边端。

原文链接：https://cpu.baidu.com/pc/1022/275122716/detail/75959331576728387/news?chk=1

正文完

人工智能

发表至：资讯

2023-07-29

转载说明：声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

GPT分区是什么?GPT分区怎么分区？小编教你GPT分区详细教程

什么是GPT

技术洞察|人工智能赋能教育

2023年必备的20款AI工具

关于GPT-4，这是14个被忽略的惊人细节！