【亿邦原创】又一家科技巨头加入开源行列。
8 月 3 日,AI 模型社区魔搭 ModelScope 上架两款开源模型 Qwen-7B 和 Qwen-7B-Chat,阿里云确认其为通义千问 70 亿参数通用模型和对话模型,两款模型均开源、免费、可商用。
此前,国内曾有清华大学、复旦大学、百川智能先后开源 ChatGLM-6B、MOSS 及 Baichuan-7B;国外开源生态更为积极,今年 2 年 24 日 Meta 发布 LLaMA 开源大模型后,Alpaca、Vicuna、Koala 等多个大模型诞生,它们以远低于 ChatGPT 的规模和成本,降低了 AI 商用门槛,扩展了商业可用性。
1、70 亿参数模型上线魔搭社区,免费可商用
本次开源的通义千问 7B 模型,号称达到了当下业界最强的中英文 7B 开源模型。
据介绍,Qwen-7B 是支持中、英等多种语言的基座模型,在超过 2 万亿 token 数据集上训练,上下文窗口长度达到 8k。
Qwen-7B-Chat 是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对 Qwen-7B 和 Qwen-7B-Chat 的量化,支持用户在消费级显卡上部署和运行模型。
用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用 Qwen-7B 和 Qwen-7B-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。
图片来源:阿里云官网
阿里云准备充分,还公布了 Qwen-7B 的各项测评结果。
在英文能力测评基准 MMLU 上,通义千问 7B 模型得分超过一众 7B、12B、13B 主流开源模型。该基准包含 57 个学科的英文题目,考验人文、社科、理工等领域的综合知识和问题解决能力。
在中文常识能力测评基准 C -Eval 上,通义千问在验证集和测试集中都是得分最高的 7B 开源模型,展现了扎实的中文能力。
在数学解题能力评测 GSM8K、代码能力评测 HumanEval 等基准上,通义千问 7B 模型也有不俗表现,胜过所有同等尺寸开源模型和和部分大尺寸开源模型。
图片来源:阿里云官网
阿里云表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。
2、大模型小型化趋势明显
大模型开源的原因可以简单概括为:更低的算力成本、更好的数据安全、更普惠的 AI 应用。
在大模型的训练和使用中,算力消耗分为两部分场景:训练成本消耗与推理成本消耗。开源大模型主要节省了企业预训练阶段的算力,降低模型参数体量则降低了企业在使用模型时的推理成本。
开源大模型还允许开发人员进行定制化开发,定向训练数据,可以针对某些主题进行过滤,减少模型体量和数据的训练成本。
相较于 GPT 系列的千亿参数超大模型,当下开源大模型的参数量普遍在十亿至百亿级别。
图片来源:国盛证券
在此前的 6 月15日,百川智能发布 70 亿参数量的中英文语言模型 Baichuan-7B。7 月11日 , 百川智能发布 130 亿参数通用大语言模型 Baichuan-13B-Base, 二者均为完全开源 , 免费可商用。
7 月 14 日,智谱 AI 和清华 KEG 发布公告,ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。
对选择开源的科技企业而言,开源模型有利于快速打开市场,为潜在的商业化铺路。
开源社区汇聚大量研究机构和开发者,有利于加快模型优化和迭代,丰富应用端产品,中小厂商可以更专注于 AIGC 应用端的产品设计和创新。
今年 7 月,阿里云宣布将促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供智能算力、开发工具等全方位服务。目前,魔搭社区聚集了 20 多家顶尖人工智能机构贡献的 1000 多款开源模型。
大模型闭源与开源并存已成为行业共识,正如不少业内人士不约而同表示,闭源用一种大力出奇迹的方式证明路线可能性和天花板之后,开源把大模型变得易用和可用。
举报 / 反馈
原文链接:https://baijiahao.baidu.com/s?id=1773214967205971871&wfr=spider&for=pc