未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！

189次阅读

原标题：未来能打过 GPT- 4 的中文大模型是谁？看完这个榜单我震撼了！

7 月 25 日消息，中文通用大模型综合性基准 SuperClue 发布了最新中文大语言模型排行榜。榜单结果显示，百度文心一言总分超 GPT-3.5-Turbo，领跑国内大模型。

未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！插图

SuperCLUE-Opt 评测基准是 SuperCLUE 综合性三大基准之一，每期有 3700+ 道客观题（选择题），由基础能力（10 个子任务）、中文特性能力（10 个子任务）、学术专业能力（50+ 子任务）组成，用于考察大模型在 70 余个任务上的综合表现。

此次 SuperCLUE 从基础能力、专业能力、中文特性能力三个维度 70 余项子能力，选取国内外 20 个有代表性的可用大模型进行测评，兼具综合能力考量与中文特定任务理解积累的考察，并通过自动化测评以相对客观形式进行效果测评。在总分榜中，文心一言紧随 GPT-4，总分超 GPT-3.5 及国内其他大模型，模型效果最佳。

未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！插图1

从榜单结果可以看出，虽然国外 GPT- 4 效果较领先，但国内 GPT 模型也有不俗表现。在中文领域，国内研发的大模型在部分维度表现突出，整体在逐步缩小与国际先进模型的差距。整体来看，国内大模型中百度文心一言表现最优。文心一言 v2.2.0 版背后搭载的是文心大模型 3.5，文心大模型自 2019 年 3 月发布 1.0 版后，现已升级到 3.5 版。新版本模型效果提升 50%，训练速度提升 2 倍，推理速度提升 30 倍。

据了解，这次评榜的 SuperClue 是一个由国内发起的大模型榜单，是中文领域权威测评社区。相较于国外的 UC 伯克利 LLM 排行榜和斯坦福排行榜 AlpacaEval 两个流行榜单，多了一些国内大模型，更加适合国内用户来横向比较。作为针对中文可用的通用大模型测评标准，SuperCLUE 使用多个维度能力对一系列国内外代表性模型进行测试，因其为封闭式问题，对大模型来说是“闭卷考试”，测评更难。

未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！插图2