未来能打过GPT-4的中文大模型是谁?看完这个榜单我震撼了!

73次阅读

7 月 25 日消息,中文通用大模型综合性基准 SuperClue 发布了最新中文大语言模型排行榜。榜单结果显示,百度文心一言总分超 GPT-3.5-Turbo,领跑国内大模型。

SuperCLUE-Opt 评测基准是 SuperCLUE 综合性三大基准之一,每期有 3700+ 道客观题(选择题),由基础能力(10 个子任务)、中文特性能力(10 个子任务)、学术专业能力(50+ 子任务)组成,用于考察大模型在 70 余个任务上的综合表现。

此次 SuperCLUE 从基础能力、专业能力、中文特性能力三个维度 70 余项子能力,选取国内外 20 个有代表性的可用大模型进行测评,兼具综合能力考量与中文特定任务理解积累的考察,并通过自动化测评以相对客观形式进行效果测评。在总分榜中,文心一言紧随 GPT-4,总分超 GPT-3.5 及国内其他大模型,模型效果最佳。

从榜单结果可以看出,虽然国外 GPT- 4 效果较领先,但国内 GPT 模型也有不俗表现。在中文领域,国内研发的大模型在部分维度表现突出,整体在逐步缩小与国际先进模型的差距。整体来看,国内大模型中百度文心一言表现最优。文心一言 v2.2.0 版背后搭载的是文心大模型 3.5,文心大模型自 2019 年 3 月发布 1.0 版后,现已升级到 3.5 版。新版本模型效果提升 50%,训练速度提升 2 倍,推理速度提升 30 倍。

据了解,这次评榜的 SuperClue 是一个由国内发起的大模型榜单,是中文领域权威测评社区。相较于国外的 UC 伯克利 LLM 排行榜和斯坦福排行榜 AlpacaEval 两个流行榜单,多了一些国内大模型,更加适合国内用户来横向比较。作为针对中文可用的通用大模型测评标准,SuperCLUE 使用多个维度能力对一系列国内外代表性模型进行测试,因其为封闭式问题,对大模型来说是“闭卷考试”,测评更难。

评测基准中,基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等 10 项能力;专业能力包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力;中文特性能力包括了中文成语、诗歌、文学、字形等 10 项多种能力。

值得一提的是,全球领先的 IT 市场研究和咨询公司 IDC 最新发布《AI 大模型技术能力评估报告,2023》显示,百度文心大模型 3.5 拿下 12 项指标的 7 个满分,综合评分第一,算法模型第一,行业覆盖第一,其中也是算法模型维度的唯一一个满分。

另据近期多个公开测评显示,文心大模型 3.5 版支持下的文心一言中文能力突出,甚至有超出 GPT- 4 的表现;综合能力在评测中超过 ChatGPT,遥遥领先于其他大模型,稳居国内第一。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

原文链接:https://www.fromgeek.com/wemedia/267-593787.html

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-30发表,共计1523字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。