ChatGPT和宋丹丹，谁陪你聊天更贵？给人工智能当保姆，都要操哪些心？

给人工智能 ” 大模型 ” 当保姆

都要操哪些心？

文 | 史中

（一）ChatGPT 和宋丹丹，谁陪你聊天更贵？

“ 有人花钱吃喝，有人花钱点歌，有人花钱美容，有人花钱按摩，今儿我雇个好活，有人花钱，雇我陪人儿唠嗑儿。”

二十三年以后，我等到了 ChatGPT。

先问你个问题：ChatGPT 和宋丹丹，你觉得谁陪你聊天会更贵一些？

看上去有点儿无厘头，其实这是个严肃的问题。你先在心里盲猜一个答案，然后我给你求解：

先来看钟点工的价格。

小品里宋丹丹说了，唠一小时 40 块。

再来看 ChatGPT。

它唠嗑的价格，一般人不知道，但中哥我知道。

这是浚源告诉我的。

给你介绍一下，浚源有三个身份：

一、人工智能老师傅；二、字节跳动火山引擎旗下 ” 方舟平台 ” 的研发负责人；三、不仅关心 AI 马儿跑，更关心马儿吃多少草的 ” 现实主义者 ”。

话说，2022 年底，ChatGPT 刚横空出世那阵儿，作为人工智能界的 ” 老炮儿 ”，浚源简单跟它对话了几句，就得出了两个了不得的结论：

一、这种大模型加持的 AI，掌握了理解上下文的能力，可以像人一样你一言我一语地 ” 连续对话 ”。

就凭这一样，已经华丽丽地实现了几代人工智能科学家半个多世纪的梦想。

二、能做到这一点，是因为他们掌握了 AI 大模型的 ” 涌现机制 ”。

从专业角度看，这个进步不是 ” 骗炮 ”，它很可能让人工智能摆脱如中世纪般漫长的 ” 人工智障阶段 ”，得以在各行各业迅速普及！

一想到 ” 普及 ” 两个字，他不困了，按捺不住想要算算这大模型运转的成本是多少。

话说，ChatGPT 的 ” 工资 ” 也是明码标价的——它是按照 Token 来计算的。

啥是 Token？咱们人类理解语言的基本单位是字词，但是大模型理解语言的方法稍有不同，它的基本单位就是 Token。

一个 Token 有时候对应半个词，有时候对应多个词，大部分时候对应一个词。

为了方便，咱们就简单理解为一个 Token 对应一个词吧。

这张图直观展示了啥是 ”Token”。

ChatGPT 跟你聊天，分为两步：

1）先理解你说的话；

2）再生成它说的话。

这 ” 一听 ”+” 一说 ”，里头总共有多少 Token，它就收你多少钱。

现在 ChatGPT 有两个版本，普通版的 ChatGPT 3.5，还有史诗级的 ChatGPT 4.0。调用 ChatGPT 3.5 的价格是 ” 每 1000 个 Token 0.002 美金 ”；调用 ChatGPT 4.0 的成本大概是 ” 每 1000 个 Token 0.06 美金 ”。

咱们就按一问一答 500 个 Token 算：ChatGPT 3.5 回答一个问题大概是不到 1 分钱人民币，ChatGPT 4.0 回答一个问题大概是不到 5 毛钱人民币。

也就是说，如果你打字飞快，把 ChatGPT 4.0 壁咚到墙角一顿唠，一小时能问出去几十个问题，极限状态也能耗费掉 30-40 块钱。

说到这儿，我们的问题大概就有答案了：

目前人类最先进的 AI 大模型——ChatGPT 4.0——竟然和宋丹丹老师陪聊的价格差不多。。。

它聊一小时也相当于黄宏老师的 1 小锤，0.5 大锤。。。

相当于赵丽蓉老师的 0.22 杯宫廷玉液酒。。。

好，不开玩笑了。其实刚才这些计算都是非常粗略的，不足作为商业参考，我讲这些只是为了让你能直观地感受到：

人工智能不是省油的灯——” 大模型 ” 干起活来，其实成本并不低。

而我们今天要讲的所有故事，皆与此相关。

话说，大模型干活的成本高低，本来和浚源也没太大关系。因为他当时还在忙另一个项目，测试大模型只是满足一下自己该死的求知欲。

可是，2023 年 3 月底的一天，他的命运轨迹突然如秋名山的赛道，来了一个急转弯。

当时火山引擎智能算法负责人吴迪找到他，开门见山：眼看大模型的浪头已经开始翻涌，火山引擎准备跳进这个历史大潮里，你要不要来？

“ 来！” 浚源回答很干脆。

（二）一帮人工智能老师傅，发现了啥惊天大幂幂？

老规矩，在讲 ” 老师傅搞事情 ” 之前，为了让浅友们都能上车，咱们还是先把时间暂停，强势科普一点儿基本姿势。

问：到底啥是大模型？

答：就像飞机是用钢铁模仿鸟儿翅膀一样，大模型是用计算机模仿人类的大脑。

咱们的大脑之所以能做决策，是因为它把学过的知识、见过的人、想过的事情都做成了 ” 缩略图 ” 存在了脑细胞里——遇到啥问题，去 ” 缩略图 ” 上查一下，就能得出答案。

你老板之所以给你发工资，不就是因为你有这个技能点么？

大模型也是一样——你只要把全世界的知识都拿来，然后像虎妈一样督促它 ” 好好学习 ”，也能在它 ” 大脑 ” 里生成缩略图。

和你一样，大模型也能用这个能力 打工赚钱！

问：那一个大模型从 ” 啥也不是 ” 到能 ” 打工赚钱 ”，中间拢共分几步？

答：分五步。

1、找一座 ” 贵族学校 ”。

众所周知，训练 ”AI 模型 ” 需要用 GPU 卡。训练 AI 大模型，更是得用成千上万个 GPU 卡。

GPU 卡堪比黄金，每张都得一万美元起步，堆在一起妥妥就是盖了一座贵族学校嘛！这也没办法，大模型的本质就是氪金魔法，没有金刚钻，别练大模型。

2、找来一堆 ” 课本 ”。

所谓课本，就是数据，成吨的数据。（训练一个靠谱的大模型，怎么也得几千亿 Token 吧。。。）

课本里的知识越多、越纯、越高级，最终学出来的大模型就越厉害。

3、找一群 ” 老师 ” 来上课。

所谓老师，就是 ” 机器学习平台 ”。把一个小孩纸丢进学校里，他是没办法自学成才的，得有老师来讲课。

同样，AI 也需要 ” 灵魂的工程师 ”。

机器学习平台负责 ” 安排课表 ”，然后对照 ” 课本 ” 上的知识一堂一堂地给大模型 ” 上课 ”。所有知识都学完，大模型就毕业了。

4、找一群 ” 师傅 ” 来带徒弟。

你懂的，很多毕业生虽然满脑袋都是知识，但啥也干不好，因为没有专业领域的实践经验嘛！

大模型也一样，得根据它将要承担的具体工作，找个 ” 师傅 ” 来继续做 ” 职业培训 ”。这个过程就叫对模型的 ” 精调 ”。至此，大模型的 ” 训练 ” 阶段终于结束，可以出徒了。

5、大模型开始 ” 搬砖 ”。

大模型搬砖的姿势，学名叫做 ” 推理 ”。比如，我给大模型提一个请求，它在 ” 大脑 ” 里过一下，输出一个结果，就完成了一次推理。

当然，每次推理都会耗费一些计算力。

注意，有趣的事情来了：

推理的计算力成本和 ” 模型大小 ” 有关系。

说到一个模型的大小，其实就在说它包含多少个参数。就拿 ChatGPT 3.5 来说，它的模型大概有几千亿个参数（具体数量没有公布），而 ChatGPT 4.0 大概有上万亿个参数（具体数量也没公布）。

你可以把参数类比为人的 ” 脑细胞 ”。

思考同样的问题，脑细胞多的 ” 大脑袋 ” 比脑细胞少 ” 小脑袋 ” 更耗费能源。当然，” 大脑袋 ” 能解决的问题也更复杂。很公平，对吧？

诶，就在这里，老师傅们发现了一个惊天大幂幂。

啥秘密呢？

AI 大模型的复杂度并不是随着任务复杂度 ” 同步增加 ”。任务复杂，模型必须指数级增大。这也意味着推理成本会随之提升。

人脑则不同：随着思考问题难度的增加，推理成本几乎不会上升。（当然人脑存在一个思考极限。）

大幂幂来了：假如要处理的问题难到一定程度，”AI 大模型解题的成本 ” 就会超过 ” 人脑解题的成本 ”。

那 AI 大模型大到啥程度，就会比（同等聪明的）人更贵了呢？

拿 2023 年的科技水平来说，至少在 ChatGPT 4.0 能处理的任务复杂度这个级别，人和 AI 的成本已经大致相当了。（这下你明白为啥我在文章开头要算那个账了吧？）

当然，浚源强调这样简单比较并不准确。但一个总体趋势是：特别难的任务推理成本还太高，目前不太实用。

了解了这些，我们再回到吴迪和浚源他们身边，你就能跟上这群 ”AI 老炮儿 ” 当时的思考逻辑了：

像 GPT 4.0 那样超大的模型，更靠近通才——靠一个模型就能胜任多种工作。虽然研发一劳永逸，适配各行各业相对简单，但是它的推理成本会很高，甚至超过真人！

明显用人来干更便宜的情况下，谁会用 AI 去干呢？

像 GPT 3.5 那样或者更小一点的大模型，更靠近专才——必须针对各个工作单独调整模型，才能完美胜任。（或者说它也是通才，但比真正的通才更专一些。）

虽然适配工作很麻烦，但是，它的推理成本低啊！大家用得起，才有商业化的动力。

话说，就在我们故事开始的 2023 年 3 月，眼看中国大大小小的企业都已经开始研发大模型，堪称 ” 百模大战 ”。

当时很多看客觉得，中国大模型要想追上 ChatGPT 3.5 的水平，起码得 2 - 3 年。但浚源掐指一算，不用那么久——预计到 2023 年底，大家就能追上 ChatGPT 3.5 的水平。

这也意味着，” 小而专 ” 的大模型在中国的商用已经箭在弦上。

有了这些共识，老师傅们再盘腿坐在一起，商量火山引擎要搞点儿啥事情。

他们得出结论：既然这么多小而专的大模型想进入各行各业，必然需要根据具体的工作种类进行定向精调、各种适配。

那作为云计算服务商，能不能把各家大模型都放在一起，火山引擎提供统一的平台和工具，帮这些大模型在各行各业落地呢？

这不就是那个经典逻辑么？在美国西部淘金热的时候，赚大钱的不是那些亲自淘金的，而是在一旁卖铲子的。。。

但我转念一想：不对啊！帮大模型在各行各业落地，这是你说帮就帮的么？这些大模型愿意么？各行各业的客户愿意么？

其实，2023 年春天吴迪忽悠浚源 ” 入伙 ” 时，浚源就提出了这个疑问：” 咱们家里到底有啥矿，让人家非得和我们火山引擎合作不可嘞？？”

吴迪呵呵一笑：你有所不知，就在此时此刻，智谱、MiniMax、出门问问、澜舟科技、百川智能这些明星公司的大模型已经跑在咱们火山引擎上了！

（三）火山引擎的 ” 朋友圈 ” 来之不易

实话实说，第一次听到吴迪说 ” 中国很多明星大模型都跑在火山引擎上 ”，我也觉得他在吹牛。

怎么可能有这么多嘛？！

但是仔细了解了 ” 火山简史 ” 之后我发现，如果我是大模型创业公司，可能也会把大模型放在火山引擎上来训练。

听我来讲讲这段故事。

火山引擎跟人工智能的关系，怎么说呢。。。就主打一个 ” 家传 ”。

就拿抖音举例，它有一个熊熊燃烧的人工智能推荐引擎，可以对平台上发生的一切细节进行实时计算，然后针对每个正在刷抖音的用户，找到此时此刻你最有可能喜欢的短视频，随着你手指轻轻一划，这条短视频就传输到了你的屏幕上。

想想看，能给几亿人 ” 量体裁衣 ” 推荐视频的人工智能，训练起来得有多艰难、运转起来得有多壮观。

有关这个推荐引擎，篇幅有限今天就不展开了，浅友们可以参考。

我要说的是，它就运转在火山引擎上。

你注意过抖音登录屏幕这行小字么？

其实，火山引擎这些年一直在给自家业务提供服务，2020 年才正式挂牌对外提供基础计算力，算是云计算的后后后来者了，在市场份额上自然照阿里云、腾讯云有不少距离。

但这里要注意，我所说的距离是指以 ”CPU” 为基础算力的传统云；在以 ”GPU” 为基础算力的人工智能云上，火山引擎可是并不逊色。

刚才咱们说，训练大模型很像 ” 送 AI 去上学 ”，不仅是指学的过程像，连 ” 卷 ” 的样子也像。

咱们人类教育已经卷到了极致，卷完学区房卷学校，卷完学校卷老师，卷完老师卷辅导。

送 AI 上学也一样，家家不都得找 ” 师资力量 ” 最强的学校么？！

火山引擎 ” 师资力量 ” 咋样呢？我说两个事儿你感受一下：

第一，火山引擎上有 ” 名校 ”。

刚才说过，GPU 是大模型的学校。

无论是前几年互联网的蓬勃时代，还是疫情的低迷时期，火山引擎对于 GPU 卡可是从不吝啬，一直在买买买。

然鹅，这客观上导致火山引擎成为了中国 GPU 的大户。

虽然官方没有披露数据，但是火山引擎手里掌握的 AI 计算力，绝对是全中国数一数二的，数三都不太可能。。。

现在全世界都掀起大模型浪潮，所有人都在争抢 AI 计算力，在这种 ” 饥荒 ” 状态下，看到火山引擎手里充沛的 AI 计算力，那不就是饿了三天看到肉包子的效果么？

第二，火山引擎上有 ” 名师 ”。

刚才也说过，” 机器学习平台 ” 就是大模型的老师。

可这老师具体是咋工作的嘞？我简单给你摆一摆。

1）你可以把大模型看成是一个有千亿个脑细胞的大脑，老师教授知识的过程，从细节上看就是在 ” 调整每一个脑细胞的参数 ”。

2）每一本 ” 书 ” 进入大脑，都会刷新一遍所有脑细胞的参数。老师孜孜不倦地一本一本往脑袋里装书，脑细胞参数就一遍一遍被 ” 刷新 ”。

3）但这里的问题是，由于操作太精密，每一波脑细胞参数完全刷新之后才能存档（CheckPoint），进行过程中是不能 ” 存档 ” 的。

一旦中断，至少得 ” 一本书 ” 从头再来。

4）训练一个大模型，需要几千张 GPU 卡连续工作几个礼拜，你中间卡碟，心若在梦就在，只不过是重头再来，那前面白算的一段成本谁给报销？！

5）所以，训练必须一！遍！过！

仔细想想：这种大模型训练过程，跟杂技 ” 顶碗 ” 是一样一样的，所有的碗必须全部到位，一个碗碎了，整个杂技就都废了。

这还不够，GPU 是人类最精密最凶残的造物——每张 GPU 卡 700w，一个机箱里插 8 张——光是发热已经秒杀了一般的电暖气。。。

你想想看，这大夏天的，人脑子都容易热傻了，何况电脑。一堆 ” 电暖气 ” 在一起绞尽脑汁儿算数，一个不小心就会导致故障。

还没完，在保证不出故障的情况下，你还得尽量提高 GPU 的使用效率，确保整个 ” 教学任务 ” 用最短的时间完成。

所以，火山引擎这群 ” 老师 ”（机器学习平台），必须同时做到三点：

1、制定最有效率的教学大纲（保证训练总时长最短）；

2、严谨地教书育人（保证训练过程不出错）；

3、维持课堂秩序（保证底层硬件之间的协作顺畅）。

这难度就不是顶碗了，这是顶碗的时候踩着平衡木，手里还得扔着五个球。。。

怎么样，这活儿不是谁都能干的吧？

话说这些技能，火山引擎的老师傅也不是一开始就会的。但是。。。这几年为了支撑抖音用户从 1 亿到 2 亿，从 3 亿到 6 亿，老师傅不会也得会。

比如他们搞出了 ”0 碎片 ” 技术，保证每一丝 GPU 都被用到极限；比如他们研发了一套 AI 专用的通信框架，让原来 25 天才能训完的模型用 15 天就能搞定。

大模型，那可是各家公司的宝贝疙瘩，很多创业公司几十号人就开发这么一个模型，自然要找最好的 ” 学校 ” 来培养。

看了一圈，火山引擎又有名校又有名师，妥妥的重点学校，来这儿也是顺理成章了。

就这样，从 2022 年开始，火山引擎和这些大模型公司陆续交上了朋友。

老师傅很清楚，这豪华 ” 朋友圈 ” 可不是误打误撞得来的，而是人家从心底相信火山引擎过去十年苦练的真功夫才会慕名而至——每一个朋友都来之不易，绝不能辜负，得帮人帮到底，送佛送到西啊！

怎么才算帮人帮到底呢？

吴迪掏出老司机的经验，开始盘算：

从 2023 年初到 2023 年底，这个阶段大家应该都在 ” 卷 ” 大模型本身，AI 计算力主要会用于 ” 模型训练 ”；

但从这个时间节点往后，大家的模型都训练得差不多了，目标是进入各行各业，那就得有 ” 师傅 ” 来进行各种 ” 职业培训 ”，也就是 ” 模型精调 ”。

显然从那时起，” 精调 ” 所占用的 AI 计算力肯定会慢慢攀升——2- 3 年后，” 精调消耗的算力 ” 就可能超越 ” 训练消耗的算力 ”。

就像下图所示：

如此说来，火山引擎要想让手里的 AI 算力和 AI 底层技术在历史长河里奔腾不息，就得不断根据水流调整开船的姿势：

1）先把大模型请上船，帮它们用最低成本和最高效率做训练；

2）再把千行百业务的客户也请上船，帮他们做精调和适配，让大模型这种新技术顺畅地融入他们的血液！

这，就是 ” 火山方舟 ” 大模型服务平台的由来。

怎么样，目标很清晰吧？吴迪拍拍浚源的肩头，去干吧！

不过突然被推入大海，从零开始造船，浚源还有点儿蒙——既然要做 ” 平台 ”，火山方舟就得一手托两家，左手是大模型公司，右手是用大模型的各行各业——得同时满足两方的需求才行。

那。。。怎么才能让两方都满意嘞？

浚源首先想到的就是：得给大模型配个 ” 脑壳 ”！

（四）大模型最怕 ” 裸奔 ”

细心的朋友想必已经观察到了，人的大脑一般是不裸露在外面的。。。

这当然是因为大脑很柔软，也很精密，需要被格外地保护起来。

大模型也是如此。

简单来说，大模型有 ” 两怕 ”。

第一怕：大模型开发者怕使用者探测到它的模型结构。这样一来，花费上千万美元成本训练的模型，就可能被人白嫖了呀。。。

第二怕：大模型使用者怕模型开发者看到它的数据。如果 ” 用于精调的数据 ” 和用户使用模型时的 ” 请求数据 ” 被拿走，那相当于企业机密就走光了呀。。。

这麻杆打狼两头害怕，还怎么合作呀？！

诶，有办法——像人脑那样，给大模型加个 ” 脑壳 ” 呗！

浚源告诉我，这个 ” 脑壳 ” 的学名叫做 ” 安全沙箱 ”。

简单来说，它的原理是酱的：

1）安全沙箱绑在火山引擎上，既不属于大模型生产方，也不属于大模型使用方，与世隔绝。（沙子都漏不出去嘛！）

2）大模型生产方把模型 Copy 一份放在沙箱里，大模型的使用方把一条条 ” 请求 ” 加密之后送进沙箱，再把用于解密的钥匙放在沙箱里。

这样，全世界就只有这个沙箱里的大模型可以看到请求的明文。

3）同样，一条条回答从沙箱里送出来时，也是加密的，只有大模型用户有解密钥匙，这样，就做到模型使用全程只有 ” 天知地知你知我知 ”。

4）如果需要对模型进行 ” 精调 ”，也是同样的操作。大模型的使用方把自己用于精调的数据加密之后送进沙箱。

精调后的模型参数就留在沙箱里，大模型的开发者也拿不出来。

总之，沙箱就像一个完美的特工：该说的说；不该说的打死也不说。

对于字节这群顶级老师傅来说，做出这个安全沙箱简直是洒洒水，真正难的，是如何 ” 一次成型 ” 地把它快速做好。

确切地说，留给浚源的时间只有两个月。

为啥要的这么急呢？

很简单的道理：火山引擎上的各个大模型正在紧锣密鼓，都快训练得八九不离十了！

脑子都快好了，脑壳还没好，这哪行？！

可是，一个大模型的运转过程中，数据会像水流一样在云上的 计算、存储、网络 这三个基础设施里来回 ” 流窜 ”。

要想造出一个滴水不漏的沙箱，就必须像大坝截流一样，把这三个峡口都堵严实，但凡有一样隔离不彻底，都有可能造成数据泄露。

更难的是，这三样基础设施是由火山引擎底层技术部门维护的，不是浚源团队自己说干就干的，得靠兄弟团队配合。。。

幸好浚源平时靠谱。这张脸，此时不刷，更待何时？！

这不，整个四月份，他派出了好几支 ” 方舟远征军 ”，驻扎在各个产品团队里，上午说需求、中午聊架构，下午跟他们一起撸代码，晚上一起撸串。。。

老师傅们就这样一起撸了两个月代码，感情越撸越好，配合越来越默契，终于做出了一个紧致无比沙箱。

然后，他们马不停蹄把几大合作伙伴的顶尖大模型都塞进沙箱里。

至此，赛博世界华灯璀璨，老师傅们在街边列队整齐，伸出温热的小手，向千行百业的客户招呼——来呀，感受中国大模型的汹涌澎湃呀！

这个画面太美，不妨让它暂停一会儿。我先问你个问题：说了半天 ” 千行百业 ”，你知道大模型到底能用在什么行业么？

我就不逞能了，直接让吴迪回答吧。

他把目前大模型的应用场景分成三类：

第一类是“ 生成 ”。比如大模型看了一堆 A 产品的资料后，就能变身 ”AI 客服 ”，顾客买了 A 产品，不用看说明书，遇到不会用的地方尽管提问，它都能对答如流。

第二类是“ 控制 ”。比如把大模型塞进汽车，它就能变成 ”AI 管家 ”。你说一句 ” 我想在车里打个盹儿 ”，它就能帮你把座椅放倒，把空调打到不吹人的舒适温度，车内灯光调暗，没准还给你来个摇篮曲。

第三类是“ 辅助创作 ”。比如让大模型看一堆游戏设定和美术稿，他就能变身 ”AI 设计师 ”，游戏开发者可以让它自动生成符合游戏画风的道具、场景、NPC，还能创作符合 NPC 人设的对白。人类设计师只要在它的基础上修改就行，大大节省了创作成本。

你发现没，这些工作的共性就是：需要一些创造力，但不多。

或者你可以简单理解：目前大模型能胜任的工作难度，大致相当于大专院校毕业 3 年以内人类社畜的水平吧。

之前说过，由于推理成本的限制，做这些工作只能使用比较小的大模型。

比较小的大模型，只有适配后才能更好地完成任务。模型越小，这个适配工作就越多。

那，这个 ” 保姆 ” 要谁来干呢？

吴迪想来想去，在火山引擎内部，还真有一个 ” 服务型人才 ”，那就是老科。

你还记得字节跳动有一张技术王牌么？

没错，就是那个熊熊燃烧的可以同时帮几亿人推荐内容的 ” 推荐引擎 ”。

好东西自然不能独享。早在火山引擎还没正式成立的 2017 年，” 推荐引擎 ” 就对外服务了——大大小小的企业都能用到 ” 抖音同款 ” 推荐引擎。而负责把这个推荐引擎接入千家万户的服务团队，正是老科的团队。

让他们来带领大模型面向企业的服务（AI to B）团队，有两个肉眼可见的好处：

第一、火山的推荐引擎已经接入了千行百业，很多公司都已经成为了好朋友，老科团队可以从里面挑选最好最好的朋友 ” 送福利 ”，让他们优先试用 ” 火山方舟 ”。

第二、毕竟大模型是人类科技的风口浪尖，客户试用之后难免会遇到些小问题。鉴于老科团队跟客户们都有交情，客户们要是有啥不满意，想打人的时候。。。下手不会太重。。。

2023 年 5 月，火山引擎的几位老师傅去桂林团建，在大自然鬼斧神工的美景里，吴迪看着远方，问老科：” 要不要来？”

老科说：” 来！”

（五）大模型的 ” 保姆 ” 和 ” 红娘 ”

话说，要想保姆出场，得先让红娘出场。

因为在我看来，老师傅面临的困难，首先是“ 唐伯虎点秋香问题 ”。

举个例子吧：

我是 A 公司的老板，我们公司生产一种 ” 夺命 3000″ 的格斗神器，想用大模型做一个 ”AI 客服 ”。

此时我的角色就是唐伯虎。

我面前有一群 ”AI 大模型 ”，我知道，里面一定有一个模型最适合做 ”AI 客服 ”——成本最低，效果也最好。它就是我的 ” 秋香 ”。

唯一的问题是：这群大模型都盖着盖头，我不知道谁是 ” 秋香 ”。。。

大模型是封闭在沙箱里的，开发者不可能打开脑壳给我看；就算开发者愿意给我看，面对一堆代码，我哪知道它到底适不适合我？

这里就要轮到 ” 大模型红娘 ” 出场了！

老师傅键盘敲得飞起，开发了一套 ” 大模型评测工具 ”，专门在 ” 不掀开盖头（头盖）” 的情况下，通过对话来评测这个大模型是不是你的 ” 秋香 ”。

简单来说，这个评测工具有两个功能。

第一个功能：” 自动化评测 ”。

还拿 A 公司举例吧。我不是想做 ”AI 客服 ” 么，那我可以自己写一些符合我要求的 ” 问题和答案 ”，打包成一个数据集，放在这个评测工具里。

它会自动把火山引擎上所有的模型都跑一遍，然后给出分值。

分值越高，就说明这个模型给出的答案最接近我的数据集，那它就八九不离十是我的秋香了！

第二个功能：” 人工评测 ”。

我觉得我家的 ”AI 客服 ” 不仅要能回答问题，说话还要有文采。

但 ” 文采 ” 这个事儿非常主观，萝卜青菜各有所爱，自动评测就不太好用了。

这时我就需要 ” 自主命题 ”，比如让所有的大模型都围绕 ” 萝卜 ” 给我写首诗，我最喜欢谁的风格就选谁！

注意，我一直在说 ” 我的秋香 ”，而不是 ” 秋香 ”。

意思就是，这些顶尖大模型之间的 ” 优劣 ” 差异本没那么大，反而是看谁更适合你的任务需求。

换句话说，你的 ” 秋香 ” 不一定是别人的秋香，有可能是别人的 ” 如花 ”。

这就引出了一个新问题：

这相当于我不仅有唐伯虎，还有祝枝山、文徵明、徐祯卿。。。他们日后分别要和秋香、冬香、春香、夏香配对协作。

但每个大模型开发者都不同，可想而知操作它们的姿势也不尽相同，这就很麻烦。

不用说，又到了 ” 大模型红娘 ” 出场的时候了。

当时意识到各个模型操作不统一的问题，老师傅火速开发了一个 ” 统一工作流平台 ”。

简单来说就是，在每一个大模型的基础上，都安装一套 ” 火山牌 ” 转接插头。

这样一来，七国八制的大模型就被归拢为同一套操作流程，我只要学会跟 ” 秋香 ” 合作，那冬香、春香、夏香就都用同样的姿势就 OK 了！

扫清了这些障碍，我的 A 公司终于能 ” 迎娶 ” 秋香过门了！

这时，终于到了大伙儿一直期待的重要步骤——对秋香进行调教，也就是所谓的 ” 模型精调 ”。

从这开始，也是老科的 ” 保姆 ” 团队重点要做的事情了。

话说之前咱们一直没来得及解释，到底啥是精调。

沿用我们的比喻，就是唐伯虎迎娶秋香之前，要把唐家府上的各种规矩拿出来，给她进行一套 ” 职业培训 ”。让她在学习了社会的一般规范（在模型训练阶段就完成了）的基础上，继续学习唐府的个性规范（需要精调来做）。

具体的做法和训练模型时类似，也要拿来一些教科书（如果让它做 ”AI 客服 ”，这里就需要 ” 产品说明书 ” 的数据），然后请老师（机器学习平台）来上课，把大脑里的所有模型再刷几遍。

精调之后，秋香就不再是纯粹的秋香，而是 ” 唐家夫人 ” 了。

到这儿，保姆可以撤了吧？！不行，还有重要任务没完成。

那就是——玩儿命降低模型推理成本。

别忘了，在大模型训练的时候，” 秋香 ” 可是看了全世界的知识，这些知识她都学杂了，既会三国杀，又会 C ++。从摩托车维修技术到母猪产后护理，没它不懂的。

但讲真，做为一个 ”AI 客服 ”。。。并不需要懂母猪的产后护理。

所以，这里就要对模型进行剪枝，也就是忘掉一些一辈子都用不到的知识。

忘记之后大脑就 ” 瘦身 ” 了，每次思考时 ” 过电 ” 的脑细胞少了，耗费的能源自然就少了，推理成本也就大幅下降了！

剪枝做完了，保姆的任务完成了吗？还没有。

老师傅还可以通过算子优化，继续降低推理成本。

简单来说就是：既然知道这个 ”AI 客服 ” 日后会经常思考哪些内容，不如现在就把这部分 ” 脑回路 ” 加固一下，做成一些思考的 ” 快捷方式 ”。让它每次推理这些固定问题时能够更快速、更省流。

毕竟模型日后要进行亿万次推理，每次哪怕省出几个电子，那累积起来都是巨大的成本节省。

看到没，老科带着老师傅 ” 逮住蛤蟆攥出团粉 ”——把能想的办法都想绝了。。。

有的模型经过他们一番调整，推理成本甚至能下降到最初的十分之一！

话说，大模型在整个人类历史中也才出现了半年，虽然老科是人工智能老司机，但很多地方也得摸着石头过河。

为了尽快积累经验，他们经常是组团去给客户精调模型——客户那边出一个工程师，老科这边能派出去好几个，这阵仗可给客户吓得不轻。。。

“ 这么干，成本能受得了么？” 我表示震精。

“ 我们当然不会一直这样做。每次回来，我们都会把适配的经验尽快沉淀成工具，以后再做同样的事情，就会用工具辅助人来做。慢慢地工具的比重越来越大，人的比重越来越小，最终的目的就是让客户自己用工具轻松完成精调和适配！”

他笑。

聊到这儿时，我突然想到了字节跳动创始人张一鸣的一句话：” 大部分事情你做第二遍的时候，要么做得更快，要么做得更好。”

这恐怕是 ” 人类 ” 和 ” 人工智能 ” 所共享的进步哲学，也是根植在字节跳动这群老师傅心里的技术信仰。

总之，整个 2023 年的 6 月，火山方舟上老师傅和用户面前仿佛摆了一桌 ” 螃蟹 ”，两边一起吃，边聊边吃，把酒临诗，一场人类技术的艰难求索，就此变成了江心纵舟，登极远目。

2023 年 6 月 28 日，老师傅向左跟几个大模型供应商挑了挑眉毛，向右跟几十家内测客户确认了眼神，决定正式对外发布 ” 火山方舟 ” 平台。

从春天艰难的从零起步，到夏天方舟气象初成，只经历了三个月时间。

（六）” 人类之子 ”

在我和火山这群老师傅聊天的时候，方舟平台刚刚发布。

无数具体的大模型应用都在紧锣密鼓的精调训练中，老科得帮客户保守秘密，不能给我讲得太详细。

他告诉我，不用着急，丑媳妇肯定会见公婆——从现在开始到年底之前，大家会看到各行各业的大模型应用 ” 井喷 ”。

大模型对我们的生活到底有啥改变，每个人都都能用今后的每一天慢慢体会。

但是，对于火山方舟的老师傅来说，他们没工夫坐在山头抽着旱烟欣赏自己的 ” 造物 ”，打怪升级的道路才刚刚开始。

大模型就像一个 ” 人类之子 ”，他可以不只有 ” 脑子 ”，还可以有 ” 手脚 ”。

啥是手脚呢？

比如，大模型可以写代码，但是写好的代码只能展示给人类，人类再粘贴到运行环境里运行。如果给大模型插上一个运行环境，它不就可以直接写好代码运行了吗？如果遇到代码错误，它就可以根据运行结果继续调试，直至开发成功。

再比如，大模型可以给你生成菜谱，但需要你照着菜谱自己炒菜啊！如果把一个机械臂连在大模型上，它就可以按照菜谱给你直接把菜做出来了！

这些连在大模型上的系统，统称 ” 插件 ”。有了插件，大模型就相当于有了手脚。

怎么样，你有什么感觉？

没错，这不就是科幻电影里的 ” 机器人 ” 么？

你看，一旦有了插件，大模型就从一个 ” 缸中之脑 ” 变成了开放世界的真实玩家。

脚下的地图拓展成无穷，伴随的可能性也变成了无穷。在人间游走，它对伦理、文化、技术边界、哲学的冲击，可能将会次第展开。

可以这样说：

站在天空俯瞰，人类对大模型的应用历史就像一座迷宫。

但此时此刻，我们不仅不知道出口，而且，连迷宫的形状和特点还没完全探索清楚。

但除了接受挑战，我们别无选择。

不过对于火山方舟的老师傅来说，仍旧有三件事儿是绝对正确的，那就是：降低成本、降低成本、还是降低成本！！

浚源告诉我，除了老师傅十年来磨炼的人工智能 ” 训练加速 ” 和 ” 推理优化 ” 技术之外，还有一些更大的变量在影响大模型的成本。

比如，有没有可能继续把大模型做得更 ” 精专 ”？

现在各行各业正在使用的大模型一般都有 1000 多亿个参数。但是，如果大幅降低大模型的参数，例如降到 60-70 亿个，会怎么样呢？

这种大模型，在普通人眼里显然不够 ” 聪明 ”，但它用来完成极其特定的任务，却是非常省钱的！

就拿微软来说，他们就做了一个极小的 GPT，塞进 Excel 里，做成了 ExcelGPT。

这个 ExcelGPT 只会做一件事儿——按照常识帮你把表格补齐。

你看，这个大模型既不用懂摩托车修理，也不用懂母猪的产后护理，它只需要理解简单的常识。用一个极小的大模型就能完成任务！

看到这你也许有点懵，那到底多大的模型最合适呢？

这个问题，火山引擎的负责人谭待在方舟发布会上，用一个有趣的比喻做了回答：

就拿我们公司来说，我们有一些博士，攻坚最难的任务；但我们公司不都是博士，也有很多研究生、有更多本科生，他们每个人都负责相应的任务，让成本和产出达成最优的平衡。

相信大模型也是这样，未来一个公司可能同时使用很多大模型，有超大的模型负责最需要创造力的任务，也有小模型和专业模型负责更普遍的任务。

这些模型结合起来，各安其位，才是大模型的完整生态。

除了模型大小以外，底层的 GPU 的算力当然也会影响大模型的成本。

那。。。GPU 未来的算力会怎样发展呢？

浚源非常乐观：” 在 AI 算力上，摩尔定律并没有失效，这些年都是非常平稳地 ” 两年翻一倍 ”。”

英伟达创始人黄仁勋曾经预言，GPU 计算力仍将以超越摩尔定律的速度增长。

“ 那，大模型岂不是会越来越聪明？” 我惊讶。

“ 我个人预计，大概 20 年后，人工智能的算力会达到现在的几百倍至一千倍。到那时，我们就能做出和人脑复杂度差不多的大模型。” 他说。

“ 你的意思是，那时我们就能做出和人脑一样聪明的人工智能？” 我问。

“ 希望如此。毕竟越来越多的证据表明，人脑本身没什么秘密，算力到了，数据量到了，自然就会达到这样的能力。而且，复制一个人要 20 年，它的遗传还不稳定；而复制一个大模型，我们只需要 20 分钟。“

如此科幻的结论，他却说得很冷静。

告别浚源和这群老师傅之后，这些话在我脑袋里反复回荡。

我感觉自己仿佛站在一扇大门前，雪白的光浪从外面拍打着大门，我站在一个广袤的新世界跟前，只是尚且不能目睹它的真容。

火山方舟试图降低 ” 智能的成本 ”。

而从 ” 智能的成本 ” 这个角度出发去思考，本身就充满了野心——它在让脑力劳动标准化。

自古以来，有无数哲学家、经济学家、社会学家都试图为人类的思考定价。

然而，人有不同的价值观，有不同的经历和过往，有复杂的情感诉求——你我的付出和回报，并非用简单的成本和收益就能计算。从这个角度来讲，并不存在一个普遍意义上的 ” 平均的人 ”。

以至于，精巧的经济学理论可能在一个历史时期做出精确预测，但终究会随着人类精神的进步而走向失效。

大模型这个 ” 人类之子 ” 恰恰解决了这个问题。

当无数个 ” 人类之子 ” 崛起，AI 在全社会脑力劳动中占比越来越高时，” 智能 ” 就会成为一种新的石油——如汽油按照纯度进行标号，人类也将制造出不同标号的 ” 大脑 ”，从而清晰地为 ” 智力劳动 ” 定价。

在这个锚点之上，技术就会成为一个跷跷板：

在它的一边，AI 的成本不断下降，去做过去不得不由人类完成的 ” 平均智力劳动 ”；

在另一边，宝贵的、无法定价的人类思考会从泥泞中解放出来，去思考更加宝贵的、无法被定价的命题。

未来的某一天，我们也许会坐在漫天星光之下，琢磨自己存在的意义。

那时，不知有没有人会突然回想起几十年前，曾有这样一群人为了创造一个完美世界而拼尽全力。

原文链接：http://app.myzaker.com/news/article.php?pk=64b8b0238e9f094055795eba