“文心一言” 一言难尽

203次阅读

集微网报道（文 / 陈兴华）“中国版 ChatGPT”终于登场。3 月 16 日下午，百度于北京总部正式发布新一代大语言模型、生成式 AI 产品文心一言。百度创始人、董事长兼首席执行官李彦宏表示，业界对文心一言的期望值是对标ChatGPT，甚至要对标 GPT-4，这个门槛还是很高。

但他指出，在全球大厂当中，百度第一个发布了同类型、同级别的产品，因为微软是直接调用 OpenAI，而 谷歌、Meta、亚马逊并没有真正发布。

一定程度上，在 ChatGPT 的强力刺激下，文心一言颇有些“千呼万唤始出来”。不过，百度似乎并没有充分准备好。李彦宏也坦承，发布文心一言基于百度自身产品及合作伙伴需要，但根据目前内测中的体验，文心一言的能力确实还并不完美。

“文心一言”一言难尽

文心一言并没有在资本市场为百度带来利好，其推出后百度股价跌幅反而扩大至近 10%。但无论如何，百度依然代表了中国人工智能在包括图像、视频、语音等多模态的顶尖水平，同时业界应给予中国公司耐心和时间，以及相信从大模型、算力到应用的整个产业链投资机会。

具备四层技术栈独特优势

随着 ChatGPT 在全球刮起前所未有的人工智能旋风，国内科技及互联网企业也纷纷加码布局类似技术产品，其中 AI 技术开发领头羊百度走在了热潮前沿。

据悉，作为基于文心大模型推出的生成式对话产品，文心一言是继文心一格和文心百中后的系列第三款产品，于 2 月 7 日在内部正式立项，上升到百度集团优先级最高的项目，由 CTO 王海峰亲自挂帅。

对于为何选择在 3 月 16 日发布文心一言，李彦宏表示，一是基于百度旗下 搜索、智能云、自动驾驶 和小度等 多个产品业务线发展的需要。一是百度的客户和合作伙伴都需要使用先进的人工智能技术。短短一个多月的时间，已有超 650 家合作伙伴宣布加入文心一言生态。

在发布会现场，李彦宏展示了文心一言在五个使用场景的表现，包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。

从总体表现看，某种程度上文心一言具有了对人类意图的理解能力，回答的准确性、逻辑性、流畅性都逐渐接近人类水平。但正如李彦宏提及，这类大语言模型还远未到发展完善的阶段，有赖于通过真实的用户反馈而逐步迭代。

“文心一言”一言难尽

王海峰称，“文心一言在 ERNIE 及 PLATO 系列模型的基础上研发，六大关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。”

其中前三项是大语言模型都会采用的技术，ERNIE 和 PLATO 中也已经有应用和积累，在文心一言中又有了进一步强化和打磨；后三项则是百度基于已有技术优势的再创新，也是文心一言未来越来越强大的基础。

李彦宏表示，目前百度是全球大厂中第一个做出对标 ChatGPT 产品的企业，“无论是哪家公司，都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。”

他认为，百度是全球为数不多在“芯片 - 框架 - 模型 - 应用”四层进行全 栈布局的人工智能公司。而百度 AI 全 栈布局的优势在于，可以在技术 栈的四层架构中实现端到端优化，大幅提升效率。尤其是框架层和模型层之间有很强的协同作用，可以帮助构建更高效的模型，并显著降低成本。

整体而言，经过持续深耕，百度已具有系列相关领先技术。例如在算法方面，文心旗下最先进的自然语言大模型 ERNIE 3.0 Zeus 在国内同业中处于领先水平；在生态方面，文心依托于国内最先进的训练框架飞桨平台，可提供各类开发套件、针对具体场景的微调服务等。

与 GPT 差距将会大幅缩短

分层来看，虽然李彦宏称百度在芯片层、框架层、模型层和应用层各层面都具备领先业界的自研技术，但在一些底层核心及关键技术上，百度与国外领先水平仍存在一定差距。

“文心一言”一言难尽

据集微网获得的一份深度参与百度文心项目的专家会议解读纪要称，百度 阳泉超算 中心主要为文心一言做训练推理，主要采用 英伟达 A100 以及 寒武纪思元 590 等 国产化产品。与 A100 对比，思元590 要增加 20-30% 的工作量和时间。

因此，文心一言的高优先级还是采用 A100，而可以把控的测试用国产芯片。

随着大模型技术不断提升，多模态是生成式 AI 一个重要发展趋势。在发布会现场，李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。有趣的是，文心一言能够生成四川话等方言语音，但视频生成能力则因成本较高，现阶段还未对所有用户开放。

有行业专家认为，文心一言跨模态方面和 GPT 类似产品相比大概有一代到两代的差距，比如 GPT- 4 可以做的事项百度至少要半年以后才能做，视频、图片生成要半年以后大概能有一个相对比较稳定、高质量的输出。目前，文心一言在高质量的文本形态生成上比较有把握。

对于如何缩短与 GPT- 4 的差距，百度方面的目标是与 GPT-4、GPT- 5 逐渐拉平，主要方式是基于百度现有研发资源，以及初级版本内测过程中的问题修复进行迭代升级。当前，初级版本 0 - 1 的过程中耗时比较多，但从 1 -100 过程相对进度就会以非线性去迭代。

专家认为，“现在看是半年（差距），之后根据资源投入不同去评估，应该会大幅度缩短。”比如今日发布会上，文心一言中文语料占比 75-85%，绝对量根据内部观察是 GPT3.5 的 10 倍以上的量级。

此外，成本方面确实是百度方面面临的重要挑战，由于文心一言现在属于内测阶段，投入主要 是算力资源 、人力资源、数据生成和采集资源， 其中算力占50% 以上，人力成本 20% 出头，数据成本 15-20%，剩下的是算法成本。

实际上，当前百度对文心大模型的资金投入已经不菲。财报显示，百度研发投入是营收的 20%，但其中 50-60% 是和文心大模型相关的投入。

对于实现文心大模型变现方式，专家指出，百度方面的策略是 通过百度智能 云对外 做一些行业生态合作伙伴的共创，以及先选择一批客户做初步的协议定价，然后再根据情况看市场迭代效果，但现在还没有太多清晰的商业化的方向。

值得一提的是，在发布文心一言后，百度港股一度跌近 10%。截至 3 月 16 日收盘，百度港股跌 6.36%，报收 125.1 港元。

（校对 / 张轶群）

原文链接：https://www.163.com/dy/article/HVVTCUEF0511RIVP.html

正文完

人工智能李彦宏百度科技新闻

发表至：资讯

2023-08-10

转载说明：声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

文心一言：下一代AI聊天机器人的未来

盘点OpenAI最新发布的38款GPTPlugin

超50%苹果手机打折卖的；菜鸟半日达加速扩张；阿里云通义千问开源

一本书读懂AIGC：ChatGPT、AI绘画、智能文明与生产力变革

“文心一言”横空出世，百度领跑人工智能浪潮之巅