阿里云通义千问开源 70亿参数模型上线魔搭社区,免费可商用

175次阅读

作者:范昕茹 来源:IT 时报

8 月 3 日,阿里云在其旗下 AI 模型社区魔搭 ModelScope 上架两款开源模型 Qwen-7B 和 Qwen-7B-Chat,免费向魔搭注册用户开放。魔撘用户不仅可以免费使用两款模型进行测试训练,还能自行将训练后的模型商业化。这一做法,也让阿里云成为国内首个进行大模型开源尝试的大型科技企业。

阿里云通义千问开源 70亿参数模型上线魔搭社区,免费可商用插图

随着国内大模型法律法规的相继落地,大模型的商业化之路似乎已经隐约可见。在这一节点选择开放两款 7B 模型,有望抹平模型使用门槛,让海量中小企业和 AI 开发者更早、更快地用上通义千问。对于一向注重生态建设的阿里云而言,既像是大模型正式商业化之前的一次探路,又是大模型商用正式落地前的一次生态建设实验。

如今,两款模型既可以从魔搭社区直接下载,也可通过阿里云灵积平台访问和调用。阿里云提供的开源代码支持对 Qwen-7B 和 Qwen-7B-Chat 的量化,因而使用者可以在消费级显卡上部署和运行模型。为了让更多人使用两款大模型,阿里云还为使用者提供包括模型训练、推理、部署、精调等在内的服务。

Qwen-7B 和 Qwen-7B-Chat 两款模型实际为通义千问 70 亿参数通用模型和对话模型。据介绍,Qwen-7B 为支持中、英等多种语言的基座模型,在超过 2 万亿 token 数据集上训练完成,上下文窗口长度达到 8 千。Qwen-7B-Chat 则是基于基座模型的中英文对话模型,具备一定的人类认知。

阿里云表示,在多个权威测评中,通义千问 7B 模型皆取得了超过国内外同等尺寸模型的效果,为当下业界最强的中英文 7B 开源模型。在多个权威基准测评中,通义千问 7B 预训练模型都表现出色,中英文能力远超国内外同等规模开源模型,部分能力甚至“跃级”赶超 12B、13B 尺寸开源模型。

阿里云通义千问开源 70亿参数模型上线魔搭社区,免费可商用插图1

例如,在包含 57 个学科英文题目的英文能力测评基准 MMLU 上,通义千问 7B 模型得分超过了 7B、12B、13B 主流开源模型,显示出其在人文、社科、理工等领域理解综合知识和解决问题上的能力。

而在中文常识能力测评基准 C -Eval 中,相比其他 7B 开源模型,通义千问在验证集和测试集中都得到了最高分,展现了扎实的中文能力。在数学解题能力评测 GSM8K、代码能力评测 HumanEval 等基准上,通义千问 7B 模型也有不俗表现,胜过其他同等尺寸开源模型和和部分大尺寸开源模型。

阿里云相关负责人表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。相比英文世界的 AI 开源生态,中文社区缺少优秀的基座模型。通义千问的加入有望为开源社区提供更多选择,推动中国 AI 开源生态建设。

原文链接:https://new.qq.com/rain/a/20230804A09K0300

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-07发表,共计1135字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。