阿里云开源70亿参数通义千问大模型

267次阅读

阿里云开源70亿参数通义千问大模型插图

图源：Pixabay

芥末堆文近期，Meta 发布免费且可商用的大模型系列——Llama 2。8 月 3 日，阿里云开源通义千问 70 亿参数模型，包括通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat，两款模型均已上线 AI 模型社区魔搭 ModelScope，且两款模型都是开源、免费、可商用的。

据悉，魔搭 ModelScope 为阿里巴巴达摩院模型开源社区，阿里云成为国内首个加入大模型开源行列的大型科技企业。

今年 4 月，阿里云推出自研大模型通义千问，据科技媒体介绍，Qwen-7B 是基于 Transformer 的大语言模型，在超大规模预训练数据上训练得到。预训练数据包括大量网络文本、专业书籍、代码等。它是支持中、英等多种语言的基座模型，在超过 2 万亿 token 数据集上训练，上下文窗口长度达到 8k；Qwen-7B-Chat 是基 Qwen-7B 基座模型的中英文对话模型，已实现与人类认知对齐。

根据魔搭 ModelScope 社区消息，上个月，智谱 AI 及清华 KEG 实验室发布允许 ChatGLM-6B 和 ChatGLM2-6B 完全免费商用，希望为开源社区发展作出贡献，为此，在中国中文信息学会社会媒体处理专委会的支持下，智谱 AI 及清华 KEG 实验室联合安硕信息、阿里云、魔搭社区、北京交通大学，推出了“ChatGLM 金融大模型挑战赛”。比赛要求参赛选手以 ChatGLM2-6B 模型为中心制作一个问答系统，回答用户的金融相关的问题，不允许使用其他的大语言模型。

据悉，近日腾讯自研的“腾讯混元大模型”也已经进入应用内测阶段，腾讯内部多个业务已经接入混元大模型进行测试。

原文链接：https://new.qq.com/rain/a/20230804A058LW00

正文完