阿里推出GPT全家桶，一把手亲自抓的“神仙打架”，能超越OpenAI吗？

211次阅读

转自：上观新闻

“终于有了一个 AI‘嘴替’，它叫‘鸟鸟分鸟’。”

4 月 4 日，知名脱口秀演员鸟鸟展示了她的语音助手——搭载在天猫精灵上的类 GPT 模型，不仅能对答如流，还能模仿她的音色、语气与文本风格。4 月 7 日，阿里云悄然开放了通义千问的内测入口。4 月 11 日，阿里巴巴集团董事会主席兼 CEO 张勇宣布通义千问将接入阿里系所有产品。

继百度文心一言之后，“阿里版 GPT”终于来了。

随着 ChatGPT 升级为 GPT-4，百度、阿里、腾讯、美团、京东、360 等国内互联网厂商也在紧跟 GPT 浪潮，不少公司还当作“一把手”工程，甚至出现同一天三个官宣的盛况。毕竟，谁都害怕成为“被 GPT 颠覆的失败者”。

看似“神仙打架”的热闹背后，国产 GPT 实力到底如何，短板还有哪些？受访专家普遍表示，ChatGPT 的成功验证了 NLP（自然语言处理）的发展前景，国内 AI 企业集中进入 GPT 赛道有望迎来新机遇，但受限于各家大模型的特点，仍需与商业模式相适配，避免红海竞争。

通义千问将成阿里系“标配”

“面向 AI 时代，所有产品都值得用大模型重新升级。”张勇为“阿里版 GPT”通义千问站台时如是说。这也是他在阿里“一拆六”后首次以阿里云 CEO 的身份出现在公众视野。

近一个月前，百度率先推出了 GPT 类产品文心一言，随后开放试用时曾遭受到不少质疑。记者和不少人测试后普遍觉得，通义千问的 AI 对话能力初步达到“可接受”的程度，但是距离“令人满意”仍相距甚远。与 GPT- 4 以及文心一言一样，通义千问在整合资料时也会闹出笑话，比如将文心一言解释为阿里巴巴达摩院的产品（实为百度的产品），还会坦然承认“文心一言在技术实力和应用场景方面可能更强一些”。

不过，经过 ChatGPT、文心一言等多个 GPT 类产品的尝鲜，业界对通义千问的内测结果较为冷静，反而更关注“阿里版 GPT”的应用场景。

张勇并未现场展示通义千问的能力，但他宣布阿里所有产品都将接入大模型进行全面改造，这一计划被人称为“GPT 全家桶”。其中钉钉、天猫精灵率先接入测试，将在评估认证后正式发布新功能。资料显示，在钉钉文档中，通义千问可以创作诗歌小说、撰写邮件、生成营销策划方案等，在钉钉会议中，通义千问可以随时生成会议记录并自动总结会议纪要、生成待办事项，还能自动总结未读群聊信息中的要点。最惊艳的是，钉钉展示了拍照生成小程序场景，上传一张功能草图，不用写一行代码，可立刻生成订餐轻应用。

虽然通义千问姗姗来迟，但阿里巴巴布局大模型并非一朝一夕。早在 2019 年，达摩院便已启动通义中文大模型研发，目前已申请注册“通义万象”“通义晓语”“通义博研”等商标，可以想象的是，通义大模型一旦接入电商数据，或将掀起又一起网购模式的变革。

“隐形头部玩家”早已蛰伏

除了通义千问，国内各大 GPT 类产品近期如雨后春笋般集中面世。短短一天内，同时有三家厂商宣布了 GPT 产品的最新消息。

4 月 10 日，商汤科技发布“日日新 SenseNova”大模型，推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力，还推出自研中文语言大模型应用平台“商量 SenseChat”。

同一天，昆仑万维宣布与奇点智源合作自研的国产大语言模型“天工 3.5”将于 4 月 17 日启动邀请测试。搜狗创始人王小川也宣布名为“百川智能”的创业计划，底座产品将在年底公布。

京东也在前几日高调宣布将在今年发布“ChatJD”，定位为产业版本 ChatGPT。目前京东的大模型主要聚焦于文本、语音、对话和数字人生成等 4 个方面开展工作，比如给商品自动生成长度不等的文案，包括标题、卖点文案和直播文案等。

相较之下，腾讯和华为的大模型显得低调不少，但他们仍是这个赛道的“隐形头部玩家”。

去年，腾讯推出了万亿级别中文 NLP 预训练模型 HunYuan-NLP-1T（混元 AI 大模型），覆盖了 NLP、CV（计算机视觉）、多模态等基础模型和众多行业模型，先后在中文语言理解权威评测集合 CLUE 与 VCR 等多个权威多模态数据集榜单中登顶。目前，腾讯正在研发类 GPT 聊天机器人，将集成到 QQ、微信上。

去年 4 月，华为云发布了 30 亿参数的视觉预训练模型，并与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的中文语言预训练模型，而华为云盘古大模型还曾获得 2021 世界人工智能大会“SAIL 之星”奖。

大模型在学术界也成了“香饽饽”。早在今年 2 月，复旦大学邱锡鹏教授团队发布国内首个类 ChatGPT 模型 MOSS。3 月，中国人民大学卢志武团队自主研发多模态对话大模型并落地了第一款应用“元乘象 ChatImg”……

据国研新经济研究院创始院长朱克力介绍，国内各家大模型存在一些差异化，例如文心一言在语言理解、文本生成、问答能力等方面具有优势，通义千问则在机器翻译、图像识别、自然语言生成等方面较为突出，盘古大模型在此基础上更能适应中文语境下的应用场景，MOSS 则侧重文本分类、情感分析、知识推理。“这些模型之间的差异化主要体现在其技术特点、训练方法和应用场景等方面。”

上海市人工智能行业协会秘书长钟俊浩也表示：“国内各家大模型还在发展初期，尚未定型，随着大模型技术不断演进，未来可能会有更多新的特点和区别出现。”

AIGC 在国内应用另辟蹊径

自 ChatGPT“出圈”以来，国内类 GPT 产品在短短 3 个月内呈现爆发式增长态势，这也引起了不少人的质疑：既然国内各大互联网厂商在多年前已布局大模型和 AIGC（人工智能生成内容），为什么起了大早却赶了晚集？

“无需苛责中国没有出现 GPT 这种现象级产品，因为 GPT 的能力涌现是超预期的，只有当基础模型被喂养足够多的数据，有足够大的算力，才能出现如此惊奇的涌现能力。”钟俊浩对此非常坦然，此前主流的自然语言训练模型（如谷歌 BERT）更偏向于双向自编码，而 GPT 作为单项自回归的生成式模型，技术路线较为小众，最初也不为业界看好。

更关键的是，GPT 模型需要大量的数据和计算资源进行训练。有专家估算，ChatGPT 的训练门槛是一万张高性能 GPU 芯片，成本约十亿元，模型训练算力可达每秒一千万亿次，需运行 3640 天。“技术方向的选择，投入资源多少，研究时间的长短都需要体系化考虑。”他认为，ChatGPT 的出现证明了技术路线的可行性，国内加快追赶步伐也不算晚。

值得一提的是，在国内，上海不少公司在自然语言处理领域已位于前列。乐言科技的文本对话 AI 在电商领域积累了多年的行业经验，构建垂直行业大模型，实现智能客服机器人的大规模应用。达观数据、壹沓科技等专注于专门从事文档的自动化审核、写作等系统的开发，达观还推出了国产 GPT“曹植”系统，面向金融、制造、政务等垂直行业开发专用的大语言模型和类似微软 Copilot 的“达观助手”。

相比于文本对话，国内 AI 企业在图像视觉领域的成就更为突出，如图像识别、图像分类、图像处理等方面都有不少成功的应用。“深度学习在图像和影像领域最早被市场接受，如人脸识别应用于安防领域，图像识别应用于电商和广告领域，医学影像分析应用于医疗领域等。”钟俊浩认为，AI 在图像视觉方面的应用能够带来较大的商业价值和社会效益，因此在国内受到了更多关注和投入。

ChatGPT 诞生不久，刚在业界刚打响第一枪之时，中国的 AI 作画已闯出了一条商业之路。

去年 8 月，基于文心大模型，百度推出“AI 作画”文心一格，只需输入创想文字, 选择期望的画作风格, 即可一键生成 AI 画作。几个月后，由文心一格续画的陆小曼未尽稿联同海派画家乐震文补全的同名画作《未完·待续》，以 110 万元落槌成交，也成了全球首个 AI 山水画作的成功拍卖。

早在 2019 年，商汤首次发布了 10 亿参数的视觉大模型，2022 年发布了 320 亿参数的视觉大模型，这也是目前世界上最大的视觉模型。在最新发布的“日日新 SenseNova”大模型中，商汤科技也集成了大量的图像视觉元素，比如“秒画”文生图创作平台，可支持 6K 高清图的生成，还可根据自身需求训练生成模型，“如影”AI 数字人视频生成平台，仅需一段 5 分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身……

国内 GPT 仍在起步阶段

“国内互联网平台在大模型方面的布局和投入虽然已经开始，但是还需要克服技术、人才、商业模式等方面的难题，才能够实现 ChatGPT 这种现象级产品。”朱克力告诉记者，国内各家大模型与 GPT- 4 主要存在训练数据集、超参数调整和解析能力三方面的差距：GPT- 4 在训练时使用海量的自然语言数据，需要各种语言和主题的文本库，国内大模型在训练时需要更多的本地化数据来进行训练，以更好地理解本地语言和文化。同时，GPT- 4 有足量的数据进行超参数微调，以获得更好的性能。国内大模型则需要更多时间来进行超参数调整，以优化模型的性能。出色的解析能力也是 GPT- 4 在理解自然语言的优势之一，国内大模型需要对自然语言有深入的理解，离不开 NLP 相关专业人才和技术积累，这也是国内人才市场中较为紧缺的。

钟俊浩也有类似的看法，OpenAI 起步早、积累久、投入大，国内 GPT 在核心能力和全面性都存在较大差距，特别是推理能力、问题理解能力、文本生成能力，系统工程能力等方面，“最核心的是 OpenAI 在对于大模型涌现能力的把握上拥有更丰富的经验，怎么去发现和利用这样智能的涌现，这种核心能力的差距，需要一段时间来追赶，要追多长时间还不好说。”

虽然 GPT 产品目前仍处于发展早期阶段，但是让大家看到了 NLP 巨大的想象空间。为此，钟俊浩也认同这一观点：从基础大模型到个人端的应用，从垂直领域大模型到商业端的应用，GPT 技术可以重新构建互联网和软件。“个人用户从 C 端感受到 GPT 类产品友好的交互体验，对企业用户而言，GPT 不仅是停留在交流界面的优化上，实现效能提升才是作为 B 端工具的关键要点。”

正如张勇所说：“一家企业的想象力终归是有限的，释放 AI 潜力要靠无数人探索。”随着 GPT 模型层和应用层各自演进，上下游产业链也将连带受益。业内人士普遍认为，百度、阿里等大公司的优势在有足够的资金和算力去训练大模型，大力出奇迹，而小公司可以扎根垂直领域，通过 AI 赋能 SaaS（软件运营服务），打造竞争壁垒，行业经验结合大模型的能力，“站在巨人的肩膀上”也能实现弯道超车。

栏目主编：李晔