开源大模型助力国产ChatGPT还有多远？

268次阅读

ChatGPT 引发新一轮科技浪潮，随着开源大模型助力，国产 ChatGPT 还有多远？在 2023 开放原子全球开源峰会的开源大模型分论坛中，既有大模型领域专家分享宏观见解，也有各龙头企业带来最新技术成果，以开源生态赋能国内大模型生态，共同探讨开源大模型的共建路径。

开源协作

推动建设下一代数字经济核心基础设施

开源协作将如何影响大模型？开放原子开源基金会技术监督委员会（TOC）主席谭中意表示，大模型是下一代数字经济的核心基础设施，开源基金会将采用开源协作的方式推动其发展。

大模型为什么要开源协作？

要了解开源大模型的重要性，ChatGPT 的火爆成为人们的一个观察窗口。

“ChatGPT 第一次以 toC（面向个人）应用展示了 AI 能力，这是它火了的第一个原因。”谭中意说。以往 AI 局限在少数人才能体验到的 toB（面向企业）场景，但 ChatGPT 用一种很自然的对话方式，把 AI 的体验推送到每一个普通用户面前，实现 AI 能力的破圈。此外，ChatGPT 以非常自然的语言交互方式降低了体验门槛，不像传统聊天机器人那样“智障”。

ChatGPT 只是大模型应用的其中一种产品，大模型可能远比想象中更重要。谭中意说：“大模型的出现将彻底改变知识的产生、传播和发展，堪比四大发明的造纸术和印刷术，对国家农业、工业、教育等领域产生重大影响，所以是下一代数字经济的核心基础设施。”

因此，开源大模型尤为重要。谭中意说：“目前大模型只有少数国家能做，中国企业的大模型和 ChatGPT 跟这些国家相比还有明显差距，如中文数据集在数量和质量上和英文数据集有很大差距，算力受到限制。所以，我们要发挥集中力量办大事的优势，用开源协同的方式减少企业的大量重复工作，同时，大模型要持续进化也需要健康的生态，只能用开源协作的方式来推动。”

协作目标是下一代数字经济的核心基础设施

“协作的目标，是下一代数字经济的核心基础设施。”谭中意说。

在这个基础设施的生态圈中，将包括以下方面：一个或多个基于开源数据集和开源训练程序，并在国产算力上计算生成的开源通用大模型是关键；以此模型为基础的一系列行业模型、移动端模型等；支撑以上模型的一系列基础设施，包括模型和数据集托管和分发平台，训练和预测的网络、算力和框架等；围绕大模型应用开发的一系列工具和软件。

这个目标怎么拆解？“可以预想，在未来几年，大模型将无处不在。”谭中意表示。在产业形态上，未来可能有几家提供通用大模型服务，可能有多家提供行业大模型服务，可能有千家甚至上万家技术企业有多个私有化大模型服务。至于如何实现，将基于开源通用大模型 + 私有数据和算法，提供通用大模型服务；再基于开源通用大模型 + 各行业特定数据，形成各种通用行业大模型；进而基于开源通用大模型 + 各企业私有数据，数据不出企业就能把模型部署到每一家技术企业内。这也意味着，开源通用大模型是关键的关键。

具体到协作的步骤，谭中意提出，首先是搜集整理获得三类数据集，把数据集清洗相关脚本程序合规处理进行开源，搭建托管这些数据集的平台；然后获得开源训练程序，构建算力共享池，分批计算获得 3 类模型并开源；进而不断更新优化模型。

就像百度前总裁陆奇说的，开源是把整个创新门槛降低的关键。为此，开放原子开源基金会组织开源大模型工委会将从数据共享、算法开源、算力公共基础设施共建这三个方面展开协作。

以开源生态赋能国内大模型生态

当前，大模型的机遇和挑战有哪些？上海市人工智能行业协会副秘书长徐琦认为，现在还处于发展早期，大模型的机遇大于挑战，大家可以一起推动开源大模型建设，通过开源生态赋能国内大模型生态。

徐琦表示，训练大模型面临的挑战主要包括通信、性能和调试三个方面。由此，国内大模型如何通过开源形成合力快速发展？他提出以下四点建议以实现中国特色的开源。

首先，不建议照搬国外开源项目方式。虽然全球化是趋势，但由于思维方式、文化等不同，导致真正有影响力的项目主导者还是在国外，中国的开源项目需要较长时间形成影响力，吸引国际上的高质量开发者。

第二，要解决企业被迫研发的问题。一些中小企业很难推动开源大模型的研发，可以把企业通过基金会的形式整合在一起，联合起来共同推动相关的研发，同时也避免垄断问题。

第三，开源要覆盖研发成本。由于开源本身就是开源协作或代码贡献，也能做一些研发的协同，而像中文高质量的合规数据集、开源芯片适配框架等，则需要政府牵头。

第四，开源方案需要和大企业方案并行。大企业方案侧重通用大模型，开源方案侧重垂直领域，实现百花齐放，发挥科研院所与中小企业的才智。

那么，发展开源大模型重点应该开源哪些部分？徐琦建议，首先是大模型底座，对标 GPT4 开源国家级大模型，提供通用基础大模型，避免消耗财力重复造轮子，这其中无论像智源研究院，还是开放原子开源基金会，都在共同推动国家级开源大模型的底座建设。

其次是优化算法，如芯片适配框架，由于国产芯片品牌繁多，软硬件适配接口各不相同，给希望尝试新算力的 AI 企业造成不少额外部署成本。还有大模型的评测标准，很多厂家希望能推动构建大模型的标准评测体系。

尤其重要的是语料库或高质量的公有中文数据集，目前市场上急缺合规、无害、质量高的中文语料，这对企业非常重要。

开源大模型实践，国内巨头做了什么？

从全球已发布的大模型数量及分布来看，中国和美国大幅领先，超过全球总数的 80%，国内科技巨头纷纷亮出自己的大模型产品，如百度“文心一言”、阿里“通义千问”等。但在开源大模型的实践中，不仅要有开源的产品本身，也离不开开源的训练工具、网络算力、数据等生态共建。

百度：用开源的深度学习平台“飞桨”训练“文心一言”

“目前，百度的大模型产品‘文心一言’没有开源，但训练出‘文心一言’的产业级深度学习框架——飞桨是开源的。”百度飞桨框架产品负责人张军说。

大模型训练会面临算力、存储、宽带等多方面的挑战，解决这些挑战才能让模型可训练，且能训练得快。由于百度“文心一言”是用深度学习框架“飞桨”训练出来的，所以“飞桨”的发展也跟“文心”系列大模型的发展是在基本同步调下进行的，最早像 10 亿的模型，只用数据并行就可以，后面到百亿级需考虑分组参数切片并行的技术，到千亿模型基本上需要考虑混合并行技术，更大规模的模型已经是 MoE（稀疏专家模型）了。目前，“飞桨”已发布业内首创的 4D 混合并行训练策略，即包括以上四种方式，整个训练大模型需要几种并行策略混合同步使用，这样才能让大模型训练成为可能。

此外，为了把深度学习分布式训练做得更加智能化，“飞桨”还有一个端到端自适应的分布式训练架构。“飞桨”框架因为百度对大模型的需求原因做了很多分布式训练的方式，尤其是在参数服务器架构和稀疏大模型训练上做得比较多。张军表示，大模型训练是非常有挑战的事情，如果从最下面的基础设施到芯片，到上面的框架平台，到模型算法，再到上面的应用，整个全栈面临的挑战还需要一直探索和研究。

阿里巴巴：用“通义千问”模型提供开源服务

“通用 AI，语言模型（LM）连接一切。”阿里巴巴达摩院高级算法专家林俊旸表示。在做“通义千问”模型时，他们发现一个强大的语言模型是通用 AI 系统的核心，它除了连接世界知识之外，还可以连接图像、语音、视频等各种模态，同时还能连接外部系统，比如开源模型和应用程序编程接口（API）。

“通义千问”是通义模型系列的一个新成员，而通义模型系列是阿里巴巴达摩院积极投身开源社区所做的开源模型，包括一系列的基础模型、自然语言基础模型、多模态基础模型等。其中，“通义千问”是通过大数据做预训练，得到的一个具有全面自然语言理解和自然语言生成能力的大模型。

“通义千问”能做哪些事情？林俊旸表示，它能进行对话聊天、逻辑推理、文案创作等，不仅是“玩具”，还能帮工作人员提升生产力；它还要走向多模态，通过一个强大的 LM 连接图像、语音、视频等，比如放一张吴京的照片，不仅能识别出来，还能给出他的介绍；此外，“通义千问”模型还能跟广大开源模型和开放 API 协调互动，典型应用如 LM+ 搜索、LM+ 订外卖等。尤其是，“通义千问”能跟模型开源社区进行很好的互动，通过连接模型的方式实现更大的能力。

林俊旸总结道，“目前‘通义千问’在做的事情，就是以语言为桥梁，连接世界知识，以此为基础连接多模态，同时还能连接外部系统，打造生产工具。”

腾讯：面向 AI 大模型提供高性能无损算力网络

大模型需要大算力。腾讯数据中心网络架构师李宝嘉表示，由于大模型服务的用户数量逐渐增多，处理的任务也更加复杂，因此，模型规模就会变得非常大。而 AI 大模型训练的网络需求是大带宽、零丢包、高可靠，目前网络技术很难达到 AI 大模型预训练的需求。

为解决这一难题，腾讯 AI 大模型的整体框架最底层有两个平台，一个是星辰算力平台，负责端侧类的算力调度；一个是星脉网络平台，负责整网大规模集群的网络调度。在这两个平台上又构建了太极机器学习平台，能提供便捷的模型开发能力和部署能力，支撑各种类型的模型，尤其是针对 ChatGPT 类的模型也有定制化优化，保证训练效率，降低成本。

深圳数据交易所：以开源生态促进数据交易

“我国数字经济规模体量很大，但数据要素产业规模相对较小，未来在数据要素规模产业方面有很大的发展潜力。”深圳数据交易所副总经理王腾说。目前面临高质量数据资源供给不足、数据价值挖掘难、数据价值变现路径漫长、法律机制不健全、安全流通的基础设施不完善等问题，通过开源生态的方式能够促进数据交易流转。

如何打造数据要素开源生态？王腾表示，首先要有一套完善的法律保障体系，既包括开源方面的技术标准框架，也包括数据方面的法律法规等。同时，还要具备主要参与者，包括市场主体，买方、卖方和开发平台、交易机构、监管方都要纳入进来。此外，还要有完善的社区运营组织，即保障体系，包括产业资源和社区参与机构，以及不断引入的一些新的数据要素应用场景等。

针对数据要素开源生态如何助推数据交易，王腾指出，通过开放的数据能实现数据共享和开放，极大提升数据交易的效率；同时，技术的开放、开源能为数据交易提供支撑，通过这种可靠透明机制增加交易链条的可信度；通过社区协作创新能有效把市场主体组织起来，培育更多场景，挖掘更多数据产品；最重要是的，基于开源实现数据安全的风险防范，实现数据隐私保护，防止恶意数据泄露行为，为监管提供透明的框架。融媒体中心孙艳平

开源大模型将带来亦庄新机遇

作为大模型的一种，ChatGPT 火了，各国科技巨头抢抓发展机遇，纷纷布局大模型，开源大模型也成为加速构建技术生态圈最有效的路径之一。开源大模型和北京经开区有什么关系？开源大模型的构建又将为北京经开区带来怎样的发展机遇？

随着 2023 开放原子全球开源峰会在经开区举办，开源大模型分论坛的诸多探讨或许可以给出答案，经开区有望助力打造开源大模型生态高地。在该论坛上，开放原子开源基金会理事长孙文龙表示，基金会正筹办开源大模型工作委员会，希望组织社会各界力量，聚集上下游伙伴，以开源开放合作方式，建设大模型平台，提供数据算力和算法的公益服务，加速大模型的行业应用落地，推动大模型开源生态的发展。由于开放原子开源基金会已于 2022 年正式入驻经开区，与经开区携手加快建设国际开源社区，这在一定程度上意味着，随着开源大模型工作委员会工作的推进，在开源大模型搭建方面，经开区企业或将有近水楼台的参与优势。

与此同时，随着开源大模型的应用赋能，经开区的丰富场景有望提供落地承载。根据开放原子开源基金会技术监督委员会（TOC）主席谭中意所畅想的，“未来可能有几家提供通用大模型服务，可能有多家提供行业大模型服务，可能有千家甚至上万家技术企业有多个私有化大模型服务。”在自动驾驶、生物医药等领域，经开区有着丰富的垂直行业大模型应用前景，如依托北京市高级别自动驾驶示范区建设，自动驾驶车辆已实现上路测试，未来在大模型助力数据挖掘和自动标注、推动算法迭代等赋能下，将进一步加速自动驾驶规模化落地。

根据《北京国际开源社区建设方案》，以北京亦庄通明湖信息城为载体，以开放原子开源基金会为基础，构建集开源技术创新项目运营、企业培育、生态营造、公共服务于一体的开源生态体系。以此为契机，经开区将打造全球开源生态高地，开源大模型也有望越来越近。融媒体中心孙艳平

原文链接：http://kfqgw.beijing.gov.cn/zwgkkfq/yzxwkfq/202306/t20230619_3138271.html

正文完