百度研发的AI,为何会不懂中文?

99次阅读

十几天前,李彦宏站在发布会的舞台上,向全球发布了属于 14 亿中国人的“ChatGPT”——文心一言。

发布会的效果不尽如人意,当天百度的股价应声大跌了 10%。可见“文心一言”并没有满足市场的期待,又或许是我们的期待太高了,百度狠抽了我们一记耳光。

第二天,接受专访时,主持人问李彦宏:你们与 ChatGPT 究竟有多大的差距?

李彦宏说,他们内部做了个测试,如果满分是 100 分的话,文心一言与 ChatGPT 的差距是 40 分——勉强及格的水平。

尤其是“文生图”的能力,只能用“灾难”形容。

“给我画一个车水马龙的街道”

“画一对青梅竹马的情侣”

“画一个驴肉火烧”

“画一个红烧狮子头”

文心一言根本无法理解成语、菜名背后的真实意义,认知水平停留在字面上。由此可见“文心一言”根本是一个半成品,真实的评分可能只有 50 分。

主持人又问:文心一言想要追上 ChatGPT 的水平需要多久?

李彦宏答:我们内部认为一个月足够。

如果双方只有一个月的差距,百度为何不等一个月再发布“文心一言”?非要急急忙忙拿出个半成品,开了一场令人失望的发布会?

原因一:越追越吃力。

众所周知,AI 产品与传统互联网产品最大的不同是 AI 自身会不断的学习,每天都在自我进化,积累经验。

AI 没有提前设定好的程序,而是有一套学习模型,模型是骨架,未来会“发育”成什么样子,完全看自身的学习能力与“教材”。

百度和 OPEN AI,犹如两个父母把各自的孩子送到学校里读书。俗话说,师傅领进门,成才靠个人。每个孩子的天赋不一样,学习时间一长,成绩自然会分出好坏。

一个令人揪心的事实是:文心一言的学习能力似乎没有 ChatGPT 强。

据李彦宏透露:刚开始,百度内部乐观的预计,虽然文心一言与 ChatGPT 有 40 分的差距,但仅需一个月便可追上。

又学了一个月后,“考试”的结果令百度大吃一惊:文心一言非但没追上,差距反而越拉越大了!

这种差距并非文心一言退步了,而是 ChatGPT 进步速度太快:百度还沉迷在 100 分的喜悦中,Chat 已考出了 150 分。

李彦宏对两者的差距,从“差 1 个月”调整为“差 4 个月”,刚刚公布的文心一言的水平相当于 4 个月前的 ChatGPT。

原本以为 ChatGPT 的升级是匀速的,结果发现是跳跃式的升级。

有一种可能是,文心一言自觉短期内追不上 ChatGPT 了,双方距离会越拉越大。既然如此,晚发布不如早发布,现在发布双方差距是 4 个月,下个月发布,双方差距说不定是六个月了。

原因二:百度急需新故事。

近几年,百度过得不大如意。曾经的互联网三巨头:BAT,象征百度的“B”没了,只剩下了 A 和 T。阿里和腾讯有 3 万亿的市值,百度未过万亿,明显和前者不在一个档次。

百度的失败源于错过了移动互联网的发展机遇。PC 时代,百度搜索是流量“分发商”,阿里、京东再牛,也要交钱给百度买流量。

手机时代,APP 的出现砸了百度的金饭碗,各个互联网厂商都推出了各自的 APP,摆脱了对百度的依赖。

错过了手机时代的百度,决定采取跳蛙战术,直接拥抱 AI 时代,已为 AI 技术持续性投入了十几年的资金。

可惜,AI 技术长期处于“只听楼梯响,不见人下来”的状态。自动驾驶的大规模商用短期内难以实现;智能硬件的市场又太小,撑不起百度的基本盘。

唯独 ChatGPT 的横空出世,一下子吸引了全球的目光,所有的科技媒体都在讨论这款 AI,大规模商业化的蓝图已经显现。

百度急需乘上这股东风,拉升股价,摆脱对广告的依赖。2022 年财报显示,百度全年营收 1236 亿,广告业务的收入为 695 亿,占总营收的 56%。

李彦宏口口声声说“百度是一家科技公司”,但财报告诉我们“百度是一家广告公司”。

原因三:再好的 AI 也要通过普通人的盲测。

文心一言被广泛质疑,有一个重要原因是不开放公测,仅对部分人群发放内测码。ChatGPT 则采取了公测,向全球大部分地区免费开放使用。

公测的好处是,可以最大限度的提升 ChatGPT 的训练量——10 万使用者和 10 亿使用者提供的训练量是不同的,ChatGPT 面对 10 亿用户,进步速度必然更快。

不愿公测的文心一言,难免被外界怀疑是个“水货”,内测者写的一些夸赞的稿件,也被怀疑是“软文”。

以本文开头提及的“文生图”功能为例。

网上有大 V 怀疑:文心一言之所以会产生这么多文不对题的图片,原因是它本质上是外国 AI 软件的一个“换皮”产品。

当用户输入“红烧狮子头”时,文心一言会自动翻译成英语,英语中没有“红烧狮子头”的单词,只能直译成“红色的狮子头”。所谓百度的 AI 开发,仅仅是把外国的 AI 软件做了个汉化工作。

其实,文不对题的原因是百度用了国外的图片数据库。文心一言在学习各种图片时,用的“教材”是英文的,所以整个逻辑就是英文的,导致了“文不对题”的问题。

并非某些大 V 推测的整个“文心一言”就是一个汉化 AI。

但“红烧狮子头”的出现,同样暴露出文心一言居然存在如此幼稚的认知 BUG!整个百度团队居然也没人发现!

由此我们可以推测出,文心一言的开发程度没有达到公测的水平,幼稚的 BUG 仍然很多,如果贸然开放公测,被网友们找出来太多幼稚的 BUG,那百度的股价不是跌 10% 那么简单了。

但丑媳妇总有见公婆的一天,希望百度不要因噎废食,早日开放文心一言的公测,用 14 亿人的数据量,助其快速成长!

原文链接:https://www.bilibili.com/read/cv22745473

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-10发表,共计2171字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。