新智元报道
编辑:编辑部
【新智元导读】ChatGPT 的访问量忽然爆冷,也给大模型热浇了一盆冷水。冷静之余,大家开始审视大模型的商业化落地效果。而向量数据库,给大模型应用的变革指了一条明路。
火了整整大半年、大模型领域最炙手可热的当红炸子鸡,居然也遇冷了?
最近,整个科技圈都被这个新闻刷屏了——ChatGPT 访问量「骤降」。
根据第三方监测机构 SimilarWeb 的最新数据,ChatGPT 飙升了数个月的流量增长,从 4 月开始就呈现出了明显放缓的趋势。
而就在刚刚过去的 6 月,ChatGPT 的全球流量出现了首次下降——相较于 5 月减少了 9.7%。
不仅如此,访问 ChatGPT 的独立用户也下降了 5.7%,用户在网站上花费的时间则下降了 8.5%。
自 ChatGPT 发布之后,OpenAI 在全世界搅动起了一股大模型的热潮。国内大厂都纷纷 ALL IN 大模型,创投圈拿着资金到处找项目,「宁可错投一千也不放过一个」,受 ChatGPT 鼓舞的初创公司更是如雨后春笋般不断冒出来。
根据统计,现在国内已经发布了 70 多个大模型,正是势如破竹、万箭齐发之际,ChatGPT 却忽然「涨不动了」?
其实,数据的背后,是一次业界焦点的大转移:人们已经从对 AIGC 大模型技术的狂热,转移到了对商业化落地效果的冷静审视。
大模型应用的变革,就在前方
生产力工具是目前大模型落地的重要方向。但面向垂域应用,仅依靠大模型自身的训练数据集做支撑,难以达到生产可用的效果。
围绕这一问题,也形成了两大流派,传统流派将垂域 / 私域内容补充至训练集,即单模型架构;新兴流派引入向量数据库为大模型提供长短期记忆,集成领域知识库,即 ChatGPT + VectorDB + Prompt(CVP)架构。
CVP 架构的兴起,也让向量数据库这个新的数据库品类站上了风口浪尖。
如今,全球最火的开源向量数据库项目 Milvus 在 Github 的标星已经突破 2 万,官方显示,目前 Milvus 已经拥有超过 1000+ 中大型企业用户。
作为 Milvus 的原厂,Zilliz 已经完成 1.13 亿美元融资,并全面启动了商业化步伐,为大模型落地提供向量数据库全栈产品与服务。
向量数据库会带来哪些大模型应用变革呢?新智元联系到了 Zilliz 合伙人兼产品负责人郭人通博士,并就此展开了探讨。
郭人通博士表示,相比单模型架构,CVP 架构在灵活性、可扩展性、实时性、成本四个维度都有明显优势。
最关键的原因是,在 CVP 架构中,领域知识可以以数据入库的形式进行更新,而非重新训练或微调模型。
目前,国内大模型的综合能力与 GPT- 4 还有代差,但现在已经走到了产业落地的早期,业界真正关心的,是业务效果。
CVP 架构中,哪怕仅使用 GPT3.5 或一些头部开源模型,其端到端效果也明显优于 GPT-4。
在这个框架下,除了要拼模型能力,更要拼知识库的构建能力、模型与知识库的集成水平,这也为国产化大模型提供了一次在落地阶段弯道超车的机会。
在不更改原意的基础上,我们对郭人通博士的交流内容进行了梳理,希望能为大家带来一些思考或实践上的帮助。
ChatGPT is NOT all you need
提问: 向量数据库对很多用户和开发者还是一个比较新的概念,能否讲一下向量数据库与传统数据库的关键差异?
郭人通: 传统数据库应用中,需要把业务侧的数据结构化成数值、字符串,但目前业务侧沉淀下来的数据超过八成是非结构化的,例如长文本、图片、视频、音频、社交关系等。
我们要应用这些「新」数据,主要手段是通过深度神经网络对这些数据进行「理解」,把语义信息编码成向量。
向量数据库是以向量为核心数据类型的新型数据库系统,支持大规模向量数据的存储、分析、查询任务,同时兼顾面向数值、字符串的混合查询分析能力。
围绕向量化的数据表示,向量数据库提供了一套统一的非结构化数据应用技术,使我们的数据应用不再局限于数值和字符串所能表达的语义范围。
提问: 为什么 CVP 架构相比单模型架构有更强的落地优势?
郭人通: 目前有两个流派,传统流派希望模型具有端到端的能力,并将业务相关的数据补充至训练数据集。
这在小模型时代成本还可以接受,但在大模型时代,想找到一种途径将垂域、私域、或实时知识更新到模型参数中,同时成本可控,是相当困难的。
基于这些考虑,领先的大模型厂商,如 OpenAI 和 Google Bard 等,纷纷选择了数据库为大模型提供长短期记忆的 CVP 技术路线。
在 CVP 架构中,我们通过向量数据库为大模型补充一个外部记忆体。
其中,C 作为运算单元,提供逻辑分析和自然语言对接的能力,V 作为存储单元,提供稳定准确、高容量、高可扩展的知识,P 在前两者的基础上,提供面向具体业务的适配能力。
这和我们人脑工作模式比较类似,我们不会去试图记忆所有知识,书本作为知识载体比记忆更可靠,同时人脑以查询书面知识的方式完成任务。
提问: 目前向量数据库在大模型时代有哪些典型的应用场景?
郭人通: 早期看最有潜力的是生产力工具这个方向,B 端和 C 端都有不少实际的场景:
文本创作。
这是直接关联的一类应用,典型场景包括:文书生成,社交媒体 UGC,SEO 广告,游戏任务剧本创作等。
所有这些场景都需要在垂类细分中追求差异化优势,同时业务中积累的内容也可以直接转化为知识库层面的资产。
聊天机器人。
可以确定,ChatGPT 为代表的 LLM 一定会彻底革新现有的聊天机器人系统。典型场景包括:客服,虚拟人,个人助手,游戏 NPC 等。
在 CVP 框架下构建的聊天机器人不再需要树状问题分类规则,而是最自然的问答形式。
比较典型的是客服系统,人工客服的问答会持续的向知识库积累,最终机器人的能力会向所有客服能力总和的位置收敛。
搜索引擎。
这个方向的冲击毋庸置疑,微软通过一套组合拳已经向谷歌发起挑战。除了大型搜索引擎,传统的文档搜索也会进行一次升级。
基于关键字匹配的搜索会升级至以语义匹配为基础,同时兼顾图文等多模态检索能力。这也是 Milvus 与 ElasticSearch 的典型赋能差异。
专业领域。
这个方向的工具主要解决专业领域菜鸟速成老鸟,以及老鸟生产力翻倍的问题。包括法律政策、知识产权保护、保险、金融投资、医疗、教育等。
相比上述几类场景,这类场景更加低频,且更加需要精准可靠的专业知识加持。否则就会出现前些日子美国律师使用 ChatGPT,导致引用杜撰的案件等问题。
提问:CVP 框架下的实践工作目前处于什么阶段?对国内大模型落地的机会如何?
郭人通: 我关注到的类似的探索活动最早在去年 6 月份就有了,主要是在学术界。
目前工业界的实践还在很早期的阶段,OpenAI 的动作是从今年 3 月份才开始的,提供了一套插件机制集成外部知识。
在应用方面,现在的 CVP 主要以单轮知识召回为主,很类似传统推荐系统,差异点在于末尾加了大模型的能力做内容总结。
关于效果,我们团队在近期推出的 OSSChat 项目(一个面向开源社区的文档知识库)中进行过实践论证。
由 CVP 框架加成的 GPT-3.5 端到端应用效果可以轻松击败 GPT- 4 单模型能力。这意味着,应用开发者可以在 CVP 框架中探索两个关键问题的答案:
如何解决国产大模型与 GPT- 4 的代差问题。
如何使用小成本模型或多模型混合降低数据应用的综合成本。
业界真正关心的是业务效果。在这个框架下,除了要拼模型能力,更要拼知识库的构建能力、模型与知识库的集成水平,这也为国产化大模型提供了一次在落地阶段弯道超车的机会。
多阶段赋能应用落地
提问:Zilliz 作为 Milvus 的原厂,同时提供了开源和商业化解决方案,可以简单介绍一下两者定位的差异吗?
郭人通:Zilliz 向开发者与用户提供了开源与云服务多重解决方案,全面覆盖不同场景的需求。
从 AIGC 个人应用开发到大型企业向量数据平台,从国内业务到跨境业务,从成本优先到性能优先,Zilliz 都提供了最专业的解决方案。
Milvus 支持三种部署规模:
MilvusLite 面向本地原型快速构建,pip install 一键安装,算法工程师友好;
Milvus Standalone 面向单物理机服务部署,维护便捷,适合小规模服务;
Milvus Cluster 面向大规模集群部署,适合大型企业用户在私有环境构建向量数据搜索平台。
相比开源方案,云服务提供了多重关键能力:
云服务采用商业版引擎,性能超越开源版 3 倍以上。同等的高 QPS 场景,所需硬件成本降至开源方案的 1 / 3 到 1 /5。
99.9% 高可用,稳定支持 10 亿及以上规模向量数据。
软硬件高度适配,提供性能型、容量型、经济型三类实例类型,满足不同维度的业务需求。
AutoIndex 智能索引,面向负载与数据分布自动化性能调优,进一步提升性能一倍以上,免去手工系统调优之苦。
Zilliz Cloud 面向 AIGC 个人开发者或小型团队量身打造了 Starter Plan。
Zilliz 关注到,AIGC 开发者数量已经到达千万量级。
为了支撑 AIGC 应用在孵化期对于快速验证、快速迭代的需求,Zilliz 为每位用户提供一个免费的 Serverless 实例,服务开箱即用,可支持百万向量规模的知识库检索。上手门槛与成本甚至低于 MilvusLite。
Zilliz Cloud 同样提供 PaaS 服务,适合注重数据隐私、数据安全与合规的企业。用户可以在其虚拟私有云(VPC)上部署全托管的 Zilliz Cloud 向量数据库服务。
提问: 目前有大量的用户在使用开源的 Milvus 系统,大家可能比较关心的问题是,在 Zilliz 商业化阶段,Milvus 的开源路线是否会有变化?
郭人通:「好的系统和产品不是设计出来的,而是用出来的。」是 Zilliz 在开发产品过程中一以贯之的最重要的原则。我对这条原则的解释是「与开发者接触面积最大化」。
Milvus 坚定的走开源路线,是该原则的重要实践。5 年的时间,Zilliz 团队与几千家企业用户,上万名开发者建立了深度的联系。
凭借来自众多行业社区用户的广泛反馈,Milvus 已成为全球迭代速度最快、最成熟的的开源向量数据库系统。
在商业化产品中,Zilliz Cloud 为每一位用户提供免费的 Serverless 实例,可稳定支持百万量级向量数据。根据我们对用户数据的统计,该容量可支撑超过 90% 的早期用户需求。
Zilliz 团队在商业化路线中贯穿「与开发者接触面积最大化」、「社区共建最快速产品迭代」这一理念。
对于一个数据库系统的演进旅程,5 年尚早,Zilliz 还将继续和社区一道,进行向量数据库技术与产品领域的前沿探索,不断刷新最佳实践。
提问: 在 CVP 框架中,向量数据库与大模型是互生的关系,在 C - V 两侧生态对接方面有什么动作吗?
郭人通: 为了进一步降低应用构建成本,提供标准化组件,Zilliz 已与全球头部大模型生态完成了 C - V 间对接。
2023 年 3 月,Zilliz 作为 OpenAI 首批向量数据库合作伙伴,完成了 Milvus 与 Zilliz Cloud 插件化集成,作为官方推荐的向量数据库插件提供给广大应用开发者。
此外,Zilliz 还与 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等热门项目进行了深度集成。与国产大模型的对接工作正在进行中,预期会在近一个月开放。
量身定制的 AIGC 特性支持
提问:Zilliz Cloud 近期发布了 2.0 版本,同时 Milvus 发布了 2.3 版本,在这些最近的版本中,有哪些面向 AIGC 应用的新特性?
郭人通:Zilliz Cloud 在近期的重要版本更新中,添加了一系列面向 AIGC 应用构建的关键特性。涵盖数据的灵活表示、面向 ToC 业务用户粒度知识库的支持、更高效的混合查询与过滤等。
动态 schema。
此前,向量数据库采用静态 schema 的方式,需要开发者在建表时根据业务定义数据的 schema。这对于大型企业的成熟业务是一种常见的方式。
然而,当下 AIGC 应用多处于早期快速迭代阶段,面向业务效果,需要频繁调整向量数据库内的字段,对于这类需求,反复重建 schema 结构以及频繁的数据重导入会严重影响产品的迭代速度。
因此,Zilliz Cloud 引入动态 schema 的能力,支持用户根据迭代需要,动态灵活的进行字段插入。
Partition Key。
Partition Key 特性是原有 Milvus partition 功能的升级,逻辑 partition 的数量不再受到限制。在业务层面,目前大量 AIGC 应用是 ToC 的,因此一些业务需要为每一个用户建立一个独立的知识库(例如问答历史)。
在先前的方案中,需要为每个用户建立独立的向量数据库表以及索引,成本上基本无法满足要求。在新的方案中,用户可以将所有用户数据放置于同一张表,并为每个用户赋予不同的 Partition Key,在表内实现用户分桶隔离。相比单独建表方案,综合成本可下降两到三个数量级。
除了这类场景,用户还可以通过 Partition Key 实现数据按时间区间或类别分组,并在此基础上有效降低数据的查询范围,实现高效的查询与过滤。
JSON 类型的支持。
JSON 是目前最流行且最灵活的数据表示方式之一。
目前,Zilliz 团队将半个 Mongo 的能力搬进了向量数据库,用户在 Zilliz Cloud 可以将 JSON 与 embedding 这两种超强能力相结合,实现基于 JSON 与 embedding 向量的混合数据表示以及复杂的业务逻辑。
提问: 在接下来的版本中,会有哪些相关的重磅特性发布?
郭人通: 在接下来的版本更新中,Zilliz Cloud 会大幅增强向量表示与混合查询能力:
稀疏向量。
目前,Milvus 与 Zilliz Cloud 仅支持稠密向量表示,接下来会支持稀疏向量。稀疏向量可以更直接的表示离散化特征分量,并支持在具体特征集合上的向量化分析与查询。
这对于传统 ML 的应用,或传统 ML 与深度学习相结合的应用至关重要。
多向量混合查询。
对于同一对象具有多模态,或同模态多角度描述的数据应用来讲,需要对同一对象构建多个向量进行语义描述。多向量混合查询能力可以在同时面向多个模态或多个角度对应的向量进行分析查询,从而提升业务效果。
向量数组。
这类向量化数据表示主要面向序列数据,如音频、视频、长文本。通常需要对这些数据进行分片处理,如每一秒采集一个关键帧获得 embedding 向量,或从文本的一个分片获得 embedding 向量。
每一条序列数据都对应的表示为一个有序的(或 bag of vectors)向量数组。数据的分析与查询同样在数组这个粒度进行,因此可以在业务中更好的引入序列数据的整体语义。
国内的服务覆盖计划
提问:Zilliz Cloud 在国内会有产品发布计划吗?
郭人通: 目前国内 AIGC 大模型与应用发展的如火如荼,但遗憾的是,目前仍然缺乏专业的向数据库服务。用户要么需要基于开源方案自建,要么需要使用北美的云服务,两种方式都带来的较高的综合成本。
Zilliz Cloud 云服务已覆盖 AWS,GCP。从 2023 年 7 月开始,向量数据库服务会在国内公有云全面铺开。
7 月初即将发布的版本中,将支持阿里云、百度云、腾讯云以及金山云。预期价格相比北美服务会有较大幅度的下调,致力于为国内用户提供具有最高专业度及最高性价比的全托管向量数据库服务。
提问: 目前国内 CVP 框架实践还都在早期,Zilliz 团队有相应的用户支持计划吗?
郭人通: 为了加速打磨业界最佳实践,我们即将启动「CVP 实践之星」活动,Zilliz 将联合国内头部大模型厂商一同甄选应用场景,由双方提供向量数据库与大模型顶级技术专家为用户赋能,一同打磨应用效果。
参考资料:
原文链接:https://new.qq.com/rain/a/20230704A03L3V00