百度走到重构其内外商业闭环的节点。
文 |《中国企业家》记者 姚赟
编辑 |李薇
头图来源 |中企图库
李彦宏对 ChatGPT 和 AIGC,是“真爱”。又一次在公开场合中,他集中多次用“兴奋”来表达了自己的情绪。
北京时间 2 月 22 日,百度发布了 2022 年 Q4 和全年财报。当晚的财报电话会上,李彦宏表示:“我们显然对 ChatGPT 和 AIGC(利用人工智能技术来生成内容)感到兴奋,它代表了一个巨大的趋势,可以改变很多事情。”
进入 2023 年后,ChatGPT 一路火爆,除了带火了 ChatGPT 产品本身、延伸出的 AIGC、相关概念股外,ChatGPT 背后的大模型技术也正式走上台前。
李彦宏在财报电话会上还表示:“我们正在研发文心一言,这是一种新版本的生成式 AI 产品,搭载了我们最新的语言大模型技术(LLM)。我们将首先在百度搜索中嵌入文心一言,并将于 3 月向公众开放。”
2020 年,李彦宏的新书《智能经济》发布,同年 5 月,他接受采访时透露了百度在研发方面的投入,“这些年(百度研发投入占比)基本上都在 15% 左右。有时候稍微高一点儿。对百度这样规模的公司,15% 其实很高了。” 最近几个季度,核心研发费用占百度核心收入比例都超过了 20%。
这样的投入无疑会让财报数据变得“不那么好看”,但李彦宏还是坚持了对未来的判断。他当时表示:“百度本身的定位就是一家高科技公司,我们应该保持这个投入。而且,确实很多投入是需要有耐心的,它不是两三年就能有回报的。但是如果你信这个东西,你就可以七年、十年坚持投下去。”
李彦宏确实应该感到兴奋,他对 AI 的热情,在用真金白银持续燃烧了六七年后,已经能够看得见临界点了。
给百度做 AI+ 大升级
先来看这次百度数据和今年值得关注的突破性规划。
本次财报数据显示:2022 年,百度实现营收 1236.75 亿元,归属百度的净利润(非美国通用会计准则)206.8 亿元,同比增长 10%。2022 年第四季度,百度实现营收 330.77 亿元,归属百度的净利润(非美国通用会计准则)53.71 亿元,同比增长 32%。
整个财报发布中,这些数据似乎并不是主角——AI 和即将在 3 月份推出新一代的大语言模型“文心一言”才是主角。
财报电话会中,百度明确将“我们如何乘上 AI 的浪潮”作为 2023 年的第二大主题。而这个主题的关键,是基于过去 AI 的累积,将技术累积与业务进行融合。如:
搜索方面,自 2019 年 3 月以来,文心大模型家族在改进搜索结果方面发挥了重要作用。这些模型可以带来排名改进和多模态搜索能力;云方面,利用百度的 AI 专业知识为传统行业(如运输、制造、能源和公用事业)提供行业特定的 AI 解决方案和应用;智能驾驶业务建立在百度顶尖 AI 和机器学习算法的基础上,是百度投身于这一领域的又一证明。
还有 B 端业务的整合,如:
计划向客户、开发者和生态合作伙伴广泛提供这些技术,以帮助提高各行业的生产力。通过开放生成式大语言模型,更多企业有机会在百度智能云上构建自己的模型和应用;智能驾驶,计划将文心一言整合到汽车解决方案中,进一步增强用户体验。百度还相信,文心一言背后大模型技术将在推动我们的运营扩张方面发挥重要作用。
整个财报电话会中,凡涉及到 AI 的问题,李彦宏都一一进行了详细解答。其中,在关于人工智能商业化的机会方面,李彦宏给出了三个方面的规划。
第一,文心一言将整合到百度搜索中,增强用户体验,用户将更加依赖百度完成各种任务和需求,因此将显著扩大搜索市场规模。百度正在使用 AIGC 扩展我们的内容,如文本、图像和视频。
第二,云客户将能够利用百度的全栈 AI 能力,而不仅仅是基本的功能,如存储、带宽、数据库等,他们可以基于百度的 AI 深度学习框架飞桨和文心大模型开发应用,这将更轻松、更高效、更强大。
第三,百度的全栈式 AI 功能非常独特。它包含云基础设施、有飞桨深度学习开源框架、大型语言模型和广泛使用的应用。百度在所有四层架构都已有显著应用,并且架构之间能有效地协同工作。
大模型技术不是谁都能做
为什么 ChatGPT 一经问世,大家都感受到了突破性的变化?ChatGPT 到底与过去的智能问答机器人有什么区别?
在产品形态上,ChatGPT 或许与过去的智能问答机器人看起来相似,但背后的支撑技术其实已经有了大变革。
2 月 20 日,复旦大学的 MOSS 悄然上线,邱锡鹏团队发布至公开平台,邀公众参与内测。但是由于瞬时访问火爆,计算资源无法支撑,内测窗口已暂时关闭。这件事引发了大家对另一个词的关注——大模型技术。
复旦大学计算机科学技术学院教授张奇是推出 MOSS 的复旦大学 NLP 实验室核心成员之一。他在接受媒体采访时表示,AI 的差距可能并不来源于中美,中国在自然语言或人工智能的研究上面,应该是没有大的差距,“但是对于 ChatGPT 这样一种模式来说,它其实是企业和高校之间的差距。”
张奇解释,在之前的一些人工智能的研究,不需要花太多成本,“但如果一旦到了大模型,那实验室没有一个 500 万元的设备,可能就做不了。”他还提到,如果想做到更大,就得有几千万元的设备,“比如说我们现在分析 ChatGPT,它中间有非常多的过程和细节,我们都不知道,只能靠去猜,那如果你想复现,几个亿先拿出来。”
为什么大模型这么重要?
IDC 发布的《2022 中国大模型发展白皮书》中指出:随着人工智能赋能实体经济进入深水区,企业通常面临数据资源有限、算力投资难度大、高水平人才稀缺的发展瓶颈。大模型作为解决上述问题的最优路径之一,可极大降低企业的技术门槛和开发成本。
从这幅《训练大模型“预训练 + 精调”模式》示意图能看到,支撑能力和应用的原料是数据。而现阶段,大部分用来训练的数据需要经过标注,也就是人工操作让机器学习。这无疑在效率上是和需求不匹配的。而在大模型中,海量无标注数据是通过自监督学习后,再进入精调。
《2022 中国大模型发展白皮书》还提到:随着数字经济、元宇宙等概念的逐渐兴起,人工智能进入大规模落地应用的关键时期,但其开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题开始显露,阻碍了规模化落地。
在此背景下,再来看李彦宏为什么那么兴奋。
他在财报电话会中透露:
“早在 2019 年 3 月,百度就推出了文心大模型 ERNIE 1.0,每天,文心大模型会服务数十亿用户搜索请求,在中文语言样本训练上具有先天优势,因此文心大模型具备中文领域最先进的自然语言处理能力。其先进性不仅体现为对中文语言的理解,还体现为对中国文化的理解。正因如此,百度文心一言将比国外开发的模型更适合中文和中国市场。”
“百度的大型语言模型 ERNIE 3.0 已经接受了每天数十亿用户的搜索请求和其他百度移动生态 APP 的训练。文心一言也将类似。有一个巨大的标记 / 索引 / 组织良好的数据池,将有助于它快速改进和学习。这方面的壁垒非常高,需要多年的大量投资,我们具有先发优势。”
“文心大模型的底座,深度学习框架飞桨(PaddlePaddle)近年来广受关注,数百万开发人员将其用于自己的 AI 开发。人工智能预训练成本高昂,框架层和模型层之间有很强的协同作用,我们相信,我们的全栈人工智能能力将使我们能够构建最高效的 LLM,并支持从搜索到内容生成的所有类型的应用程序,或任何可以显著提高生产力的垂直领域。”
ChatGPT 引发的 AI 大风口,恰好直接撞在了李彦宏怀里。
李彦宏早已确定 AI 便是百度的未来。2017 年世界智能大会上,李彦宏表示,人工智能的思考方式和互联网时代已经完全不同。现阶段,智能手机已经完全普及,手机还会长期存在,但留给移动互联网的机会不多了。开发者的思维方式需要从“think mobile”到“think AI”、从关注软件到关注芯片等硬件的转变。
而那时候,还是移动互联网的黄金时代。
认清自己,等待临界点
ChatGPT 的应用,背后是 AI 发展累积多年等来的“奇异点”。ChatGPT 作为一款可以与人类用自然语言进行交流的人工智能,“与人类用自然语言”才是关键。
“今天,人人都在谈论人工智能的颠覆性影响。生成式 AI 和大模型的智能涌现,是全新的计算范式带来的新机会。”在财报电话会召开前,李彦宏发布了内部信,“AI 技术已经发展到一个临界点,各行各业都不可避免地被改变。 中国 AI 市场即将迎来爆发性的需求增长,其商业价值的释放将是前所未有的、指数级的。 而百度作为中国人工智能市场长期增长的最佳代表,正站在浪潮之巅。”
显然,李彦宏捕捉到了这一“质变”,也找到了更契合百度“焕新”的契机。
2022 年 12 月末,李彦宏在面向全体员工的一场内部直播中表示,AIGC 和 ChatGPT 这些都是 AI 技术发展到一定地步后产生的新机会,“技术能做到这一步了,但是它会变成什么样的产品,产品能满足什么样的需求,这个链条上还有很多不确定性。这个事情很难,但百度必须要做。”
让李彦宏作出这个判断的原因是,这可能“引领搜索体验的代际变革”。
2020 年 5 月,李彦宏曾公开表达过他对搜索引擎未来发展的判断,那时他就认为 AI 是关键。在他看来,搜索本质上就是在解决人工智能最终需要解决的那个问题,就是机器要真正地理解人的意图,并且能够做出相应的回应。“搜索引擎从第一天起做的就是这个事。”
当时,李彦宏还详细解释了搜索技术的发展:第一代的搜索完全是用词频统计;第二代是超链分析,就是用别人的引用来证实内容的全面度和相关性;2010 年前后,搜索技术完全转向了 AI 技术,就是用机器学习的方式:哪些用户搜哪些词,点了哪个结果,他在那个结果上停留多长时间等。
但那时来看,这种理解还是方向性的。
2021 年 4 月,百度二次上市,彭博社采访了李彦宏,当时李彦宏对搜索引擎未来的发展与理解,与 11 个月前相比更明确了,他表示:“未来,自然语言理解会成为主角,当机器可以真正理解人们在说什么的时候,一大批应用就会应运而生,而且会比现在的应用更加流行。”
二次上市时,百度募集了 30 多亿美元,在被问及该资金如何使用时, 李彦宏斩钉截铁地回答:肯定会投资于新技术、研发以及打造更多的创新产品。
对百度或者李彦宏来说,坚持投入并不是一件容易的事。
“确实有很大的压力,毕竟周围很多人天天盯着股票价格,会告诉你别人又做了什么特别火的产品。但是我们更愿意把这个时间轴稍微拉长一点来看技术的价值。看三五年的东西,你会面临很多诱惑,但是你看一个 30 年、50 年甚至更长时间的东西,你会发现坚持自己的理想还是很有价值的,最终也会有回报。”李彦宏曾表示。
对李彦宏来说,静水深流的日子,百度已足够熟悉,持续蓄力 AI,静待蜕变重生,才是一个比旧日荣光更激荡人心的商业故事。
举报 / 反馈
原文链接:https://baijiahao.baidu.com/s?id=1758671132834942269&wfr=spider&for=pc