通义千问开源,打响大厂开源第一枪|最前线

137次阅读

作者 | 周愚

编辑 | 邓咏仪

在这场国内大模型的“百模大战”中,开源生态正在日趋活跃。

8 月 3 日,AI 模型社区魔搭 ModelScope 上架两款开源模型——Qwen-7B 和 Qwen-7B-Chat,阿里云已确认其为通义千问 70 亿参数通用模型和对话模型,两款模型目前均开源、免费、可商用。

至此,阿里云称已经成为国内首个开源自家大模型的大型科技企业。

通义千问开源,打响大厂开源第一枪|最前线

来源:阿里云

具体到参数上,Qwen-7B 基座模型支持中、英等多种语言,在超过 2 万亿 token 数据集上训练,上下文窗口长度达到 8k。开源代码支持对 Qwen-7B 和 Qwen-7B-Chat 的量化,用户可以在消费级显卡上部署和运行模型。

用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用 Qwen-7B 和 Qwen-7B-Chat,阿里云包括模型训练、推理、部署、精调等在内的全方位服务。

开源是追赶已有闭源模型的有效道路。但如今在海外,Meta 旗下的 Llama 2 在上个月开源,免费也可商用,一经推出,就被视作最强开源大模型。

而在国内,百川智能发布的 Baichuan-7B、清华大学和智谱 AI 发布的 ChatGLM2-6B 等开源大模型,也是 AI 初创企业中无法忽视的力量。这些开源动作无疑影响了大厂——此前,国内大厂普遍选择不开源。如今,阿里通义千问的开源,无疑是意味着大厂大模型思路的一场转变。

其实,阿里云的开源战略早有端倪,为通义千问的开源做出了铺垫。

此次上架通义千问开源模型的魔搭 ModelScope,是阿里云于去年 11 月初牵头发起的 AI 模型社区。目前,魔搭聚集了 20 多家人工智能机构贡献的 1000 多款开源模型,开发者数量超 160 万,模型下载量超 2500 万。

在今年 6 月举行的 2023 开放原子全球开源峰会上,阿里云还公布了“1+4”开源战略。除魔搭社区外,阿里云还将聚焦操作系统、云原生、数据库、大数据等四大开源领域。

开源的同时,阿里云也公布了通义千问 7B 预训练模型在多个权威基准测评中的表现。

在英文能力测评基准 MMLU 上,通义千问 7B 模型得分超过一众 7B、12B、13B 主流开源模型。在中文常识能力测评基准 C -Eval 上,通义千问在验证集和测试集中也都是得分最高的 7B 开源模型。

通义千问开源,打响大厂开源第一枪|最前线

在数学解题能力评测 GSM8K、代码能力评测 HumanEval 上分别得分 51.6、24.4,超过所有同等尺寸和部分大尺寸开源模型。来源:阿里云

附开源地址:

魔搭 Model Scope:

https://modelscope.cn/models/qwen/Qwen-7B/summary

https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary

Hugging Face:https://huggingface.co/Qwen

GitHub:https://github.com/QwenLM/Qwen-7B

举报 / 反馈

原文链接:https://baijiahao.baidu.com/s?id=1773281184800338595&wfr=spider&for=pc

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-05发表,共计1259字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。