文心一言，走出“改变未来”第一步

213次阅读

作者|一橙

出品|网易科技《态℃》栏目

从宣布 ALL IN 大语言模型，到推出“文心一言”，百度没有让大家等很久。

3 月 16 日 14 时，百度在北京总部召开新闻发布会，正式推出基于百度新一代大语言模型的生成式 AI 产品文心一言。从现场演示来看，文心一言的使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。

“全球大厂中百度是第一个发布的”，李彦宏坦承，这段时间不断有人问他为什么现在发布文心一言，百度是否真的 ready？“从我自己在内测过程中体验到的文心一言的能力来说，（当前）确实不能叫作‘完美’”。

文心一言，走出“改变未来”第一步

李彦宏表示，这个时间点发布是因为有市场需求，百度的各个产品线都在等待这样的技术，客户也在等待，因而需要尽早推出。“这类大语言模型还远未到发展完善的阶段，有赖于通过真实的用户反馈而逐步迭代。”

改变的本质，是通过行动摆脱原有的束缚，去开发更多的可能性，逼迫自己走出舒适区。百度和文心一言，迈出了“改变未来”的第一步。

“文心一言，未来将越来越强大”

当下，全世界互联网都刮起了一阵 ChatGPT 风，其中钻研 AI 能力十年的百度，以及其推出的大语言模型“文心一言”，被市场寄予最大厚望。

目前来看，“文心一言”的基础能力还算扎实，作为国内完全自研的语言大模型，在自然语言处理、中文理解、文本生成和人机对话上有着相对成熟的表现。

首先，文心一言具备文学创作能力，可以进行总结、分析、内容、检索，延伸至检索增强。值得注意的是，文心一言在许多专业测试中表现出“人类水平的性能”，甚至发生“智能涌现”，涌现出了知识和逻辑推理能力。

发布会上，百度展示了文心一言的创意文本能力，大模型目前已经能够完成“起名字”、“写新闻稿”、“写标语”、“生成歌词”等操作。尤其是对于中文的理解，在内测过程中《态℃》栏目发现，文心一言正确解释了网络流行语“躺平”的含义，还能够劝诫年轻人，“应该注意不要将躺平视为逃避显示或自我解放的方式，而是应该积极面对生活，寻找解决问题的方法。”

同时百度还公布了文心一言的邀请测试方案。3 月 16 日起，首批用户可通过邀请测试码，在文心一言官网体验产品，后续将陆续开放给更多用户。

此外，百度智能云即将面向企业客户开放文心一言 API 接口调用服务。3 月 16 日起正式开放预约，搜索“百度智能云”进入官网，可申请加入文心一言云服务测试。

百度打的是目标明确的仗，因为用户对于大语言模型的需求始终是清晰确定的，多模态一定是生成式 AI 一个明确的发展趋势。

据百度介绍，文心一言的视频生成能力则因成本较高，现阶段还未对所有用户开放，未来会逐步接入。李彦宏也表示，“未来，随着百度多模态统一大模型的能力增强，文心一言的多模态生成能力也会不断提升。”

对标 Chat GPT，文心一言目前确实还存在着差距，但后发也有可能先制。百度作为国内 AIGC 的先行者，对比同类企业中已经占据了先发优势。

百度首席技术官王海峰表示，文心一言，是新一代知识增强大语言模型，是在 ERNIE 及 PLATO 系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术，ERNIE 和 PLATO 中也已经有应用和积累，在文心一言中又有了进一步强化和打磨；后三项则是百度已有技术优势的再创新，也是文心一言未来越来越强大的基础。

李彦宏强调：“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮，效果会迅速提升，给你‘士别三日，当刮目相看’的惊喜。”

高强度的研发投入壁垒

百度之所以敢于以身证道、勇于下注，正因深耕 AI 10 年坚持全栈部署，累计研发投入超过 1000 亿元，是全球大厂中极少数具有能支撑训练大语言模型的公司。

文心一言，走出“改变未来”第一步

对于百度而言，去做语言大模型这件事，并不存在着艰难的冷启动。

百度一直坚持压强式、马拉松式的研发投入。2022 年百度核心研发费用 214.16 亿元，占百度核心收入比例达到 22.4%。2021 年，百度总体研发投入强度为 20.03%，位列民营企业 500 强第二。2020 年，百度研发投入强度达 18.22%，位列民营企业 500 强第一。

在数据方面，搜索起家的百度，坐拥千亿级全网索引和覆盖超过 50 亿实体的中文知识图谱。这意味着，百度可以实现对大模型充分的训练和预测，进而使得其智能化水平不断进化。

据介绍，文心一言大模型的训练数据包括万亿级网页数据，数十亿搜索数据和图片数据，百亿级语音日均调用数据，及 5500 亿事实的知识图谱。

在算力和算法方向，由于 AI 大模型通常需要进行大量的计算和存储，因此 AI 企业往往需要在芯片等硬件方面投入巨资。

生成式 AI 产品的数据量巨大，对于 AI 算力提出了更高的要求。去年底开始，百度智能云就在全面升级云服务能力。去年 12 月发布国内首个全栈自研 AI 基础设施“AI 大底座”，今年 2 月升级 AI 研发运营一体化（MLOps）能力，今年 3 月百度阳泉智算中心完成升级。

目前百度已拥有阳泉、徐水、定兴三个云计算中心，仅阳泉云计算中心可承载 24 万台服务器，为研发大语言模型提供了底层的硬件支持。

百度还拥有国内规模最大的深度学习框架“百度飞桨”，为了支持千亿参数模型的高效分布式训练，百度飞桨在 2021 年 4 月专门研发了 4D 混合并行技术。

截至 2022 年底，飞桨平台上已凝聚 535 万开发者、创建 67 万个 AI 模型，服务 20 万家企事业单位，位列中国深度学习平台市场综合份额第一。

从算力、算法到数据，从高端芯片昆仑芯，到飞桨深度学习框架，百度在各个层面都早有关键自研技术，给百度文心一言提供了强大的研发投入壁垒。

走出“改变未来”第一步

大语言模型对于人类而言究竟意味着什么？

英诺天使基金合伙人王晟曾告诉《态℃》栏目，“今天的大模型正在无限接近通用目的技术，接近了印刷术，接近了蒸汽机，接近了电力，接近了芯片，接近了互联网。”

可以想象，大模型作为技术底座支撑各个领域广泛的创新和发展，结果是会导致人类经济产生非线性的跃迁，或者说是大幅度的非线性增长。

一个创造性的新世界，百度已经走出“改变未来”第一步，勇立新时代潮头。

目前，大模型相关机会主要分为两个方向。第一是研发大模型，直接对标 ChatGPT，比如做中国版 ChatGPT，为下游企业提供 API 接口调用服务；第二就是将 ChatGPT 垂直应用到各个细分领域。

随着文心一言的面世，首先改变的或许就是云市场的游戏规则：选云，看 AI 能力（而非算力、存储等）。未来用户对云厂商的需求更聚焦智能服务，看框架好不好、模型好不好，以及模型、框架、芯片、应用四层架构之间的协同，对原有商业模式的降维打击。

同时，文心一言作为“基建”，还将为创业公司创造更大的创业空间。创业者应该会像当年围绕 IOS 和安卓做应用的架势，也围绕大语言模型做应用。

李彦宏表示，对于大部分创业者和企业来说，真正的机会是，基于通用大语言模型，抢先开发重要的应用服务。就像移动互联网时代，最成功的商业产品不见得是安卓和 IOS，而是基于安卓和 IOS 开发的微信、淘宝、抖音等各种超级应用。

随着文心一言产品能力不断成熟，百度也将进入业绩提速的快车道。

面向消费者，文心一言嵌入百度搜索，将引领搜索体验的代际变革。目前百度拥有 6.48 亿的月活，“文心一言”落地后，短时间内势必大幅拉升百度搜索 MAU，吸引到更多的用户，产生新的流量入口，进一步优化用户体验，有望为百度搜索带来商业价值的快速增长。

除搜索之外，百度旗下百度智能云、自动驾驶、小度等业务，也将通过文心一言的能力重新被赋能。

未来，文心一言将与小度进行集成，升级小度智能设备和服务。面向 2B 业务，百度智能云提供了四层人工智能全栈能力，从云基础设施到包含深度学习开源框架的深度学习平台，再到大模型和最终应用。此外，百度还计划将文心一言整合到 Apollo 智舱系列产品等汽车解决方案中，让智能汽车具备领先一代的人车交互体验。

语言大模型是人工智能的里程碑，更是分水岭。随着文心一言的推出，或将为百度焕发全新的生命力。