拿下多个权威评测第一,文心一言底气从何而来

68次阅读

从拼参数到拼落地,大模型快速发展。如今,国内市场上已有 100 多款大模型产品。但如何挑选出一款最适合自己的大模型,成为企业和机构新的难题。业界亟需一些权威评测,作为客户选择大模型产品的“指南针”。

北京时间 2023 年 8 月 4 日,在百度举行的“AI 大模型产品能力交流会”上,新华网与权威机构联合发布的《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。

拿下多个权威评测第一,文心一言底气从何而来插图

(新华网测试报告:百度文心一言综合得分第一)

新华网测试报告对文心一言、GPT-3.5 等四大知名大模型进行评测,结果显示,百度文心一言综合得分第一,超过 GPT-3.5,国内大模型排名第一。

文心一言是百度自主研制的知识增强大语言模型,首先从数万亿数据和数千亿知识中融合学习得到预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。

内容价值是企业选择大模型重要因素

大模型具有良好的通用性和泛化性。普通人通过简单的问答,就能获得想要的服务和产品功能。但是不同国家和地区有不同的法律文化、社会习俗、伦理道德。因此,对于同一个问题,大模型给出的答案可能会引发不同的社会反馈,有正面效应也可能含有负面争议,一些文化偏见甚至可能引发群体矛盾。

因此,内容是选择大模型的重要考虑因素。在新华网的评测报告中,有两大关于内容的维度。一是内容安全问答,包含了意识形态、非法涉黄等多项维度,二是常识问答,涵盖有中国文化、历史、地理和生活等常识知识。新华网物联网技术总监葛振斌表示,“大模型生成的内容必须符合当地法律和社会道德要求。可以说,各个国家都需要‘更适合自己历史文化’的大语言模型。”

内容,对于产业界同样非常重要,有的企业涉及国计民生,还有的企业依靠“传承配方”形成独特竞争力。中国传媒大学新媒体研究院院长赵子忠表示,“这对大模型在信息安全、数据安全、定制化等方面的服务能力提出了考验。大模型必须具备行业化、场景化的服务能力,才能满足不同企业的要求。”

文心一言“最适合中国”

当前,从政府机构到企业公司,都迫切需要一些判断大模型适合程度的标准和方法。

新华网物联网技术总监葛振斌认为,评测大模型有 5 项维度非常重要:一是把控生成内容安全性的能力,背后涉及意识形态、政治体制、非法涉黄等维度,每一项都事关一个社会文明的底线;二是常识推断计算的能力,涉及自然、文化、地理、历史和生活等多个领域,必须先吃透这些方面的常识,才能避免生成不恰当的内容结果;三是对长文本的语义理解能力。这可以考验大模型产出的内容是否正确且言之有理,是否具有较好的说服力;四是数学运算及数学推理能力;五是主观思维能力,考验大模型是否可以准确理解当地风俗习惯或者传统文化。

新华网评测报告显示,文心一言因中文搜索引擎和算法模型优势,在安全、常识、数学、阅读等方面优势明显。在五个维度上的得分计算均值,文心一言的综合得分为 94.7 分,排名第一,高于 GPT-3.5 的 76.9 分。这说明当前文心一言在总体能力(中文处理)上已经超越了 GPT-3.5 模型。

拿下多个权威评测第一,文心一言底气从何而来插图1

(新华网测试报告:百度文心一言综合得分第一)

凭借上述表现,文心一言在“最适合中国”方面抢占领先身位,领跑国内大模型。

专家建议:开发者基于文心大模型抢占发展先机

如今,参考权威机构评测成为客户选择大模型的一个重要方式。如同生活中常见的智能手机评测,汽车驾驶评测,是用户选择产品和服务的重要参考。

除了新华网评测报告,近期,还有 IDC 等多个权威机构发布评测报告,结果均显示由文心大模型 3.5 支持的文心一言综合能力评测得分超过 ChatGPT3.5。比如 IDC 报告显示,文心大模型 3.5 拿下 12 项核心指标的 7 个满分,综合评分位列国内主流大模型第一,并在算法模型、行业覆盖两大关键指标上拿下唯一满分。

中国传媒大学新媒体研究院院长赵子忠建议,创业者和开发者以及中小企业,其实不需要从 0 到 1 的打造自己的大模型,可以基于文心大模型打造智能应用,避免重复造轮子,把精力放在自己擅长的创新上。谁先做出来满足用户需求的应用,谁就抢占了发展先机。

百度 2019 年推出文心大模型 1.0,今年 5 月份升级到 3.5 版本。通过飞桨深度学习平台与文心大模型的协同优化,文心大模型 3.5 实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强、插件机制等,模型效果提升 50%,训练速度提升 2 倍,推理速度提升 30 倍。

目前百度文心大模型已拥有中国最大的产业落地规模,超过 15 万家企业申请文心一言内测,其中有超 300 家生态伙伴在 400 多个具体场景取得测试成效,覆盖办公提效、知识管理、智能客服、智能营销等领域,联合国家电网、浦发银行、泰康、吉利等企业,联合发布了 11 个行业大模型。百度还设立了 10 亿创投基金鼓励大模型创意、繁荣大模型生态。

软通动力 CTO 刘会福曾表示,我们非常期待在文心大模型的基础上,开拓更多的应用实践。北京宝兰德软件董事长易存道表示,如何把大模型在垂直行业做好,是目前各个企业都要考虑的问题,多数企业无法像百度一样有能力建设大模型。怎么能够把百度的大模型能力和企业业务有效结合起来,创造更强的价值,是企业非常好的弯道超车机会。金山办公助理总裁田然表示,金山办公要跟中国优秀的大模型提供方站在一起。金山办公和文心的合作,会进一步推动大模型在办公领域的应用和快速落地。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的 30 日内与新浪网联系。

原文链接:http://k.sina.com.cn/article_1747383115_6826f34b020019g6r.html

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-05发表,共计2327字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。