对话阿里云CTO周靖人:通义千问是模型探索的节点并非终态

138次阅读

原标题:对话阿里云 CTO 周靖人:通义千问是模型探索的节点并非终态

对话阿里云CTO周靖人:通义千问是模型探索的节点并非终态插图

4 月 7 日,阿里云公开“阿里版 GPT”通义千问邀测入口引发关注。4 月 11 日,阿里云智能 CTO 周靖人在北京云峰会现场宣布,将开放通义千问的能力,帮助每家企业打造自己的专属大模型。未来阿里所有产品也将接入通义千问进行全面改造。

对话阿里云CTO周靖人:通义千问是模型探索的节点并非终态插图1

阿里云 CTO 周靖人。

“很高兴能够跟大家介绍‘通义’模型家族的新成员——通义千问。通义千问是一个超大规模的语言模型,能够了解人类指令,跟人类进行多轮交互,同时也融入了多模态知识理解,跟我们各种外部增强的 API 进行互联。”周靖人介绍。

据周靖人现场演示,通义千问具备多轮对话能力、文案创作能力,包括小说续写、邮件编写、企业策划等;同时具备多语言能力和多模态能力。但在目前邀请测试的入口中仅开放了文字对话能力。

据悉,钉钉、天猫精灵率先接入测试,将在评估认证后正式发布新功能。根据钉钉 Demo 演示,通过类似微软 Copilot“副驾驶”的设定,用户可在钉钉中随时随地唤起 AI,在钉钉文档中,通义千问可以创作诗歌小说、撰写邮件、生成营销策划方案等,全面辅助办公。在钉钉会议中,通义千问可以随时生成会议记录并自动总结会议纪要、生成待办事项。此外,钉钉展示了拍照生成小程序场景,上传一张功能草图,不用写一行代码,可立刻生成订餐轻应用。

对话阿里云CTO周靖人:通义千问是模型探索的节点并非终态插图2

通义千问具备多轮对话能力、文案创作能力。

根据天猫精灵官方预告的演示 Demo,接入通义千问后,新天猫精灵支持自由对话,可以随时打断、切换话题,能根据用户需求和场景随时生成内容。比如,用户可以在跑步时要求天猫精灵“合成 1 小时歌单,50% 穿插摇滚风格的歌曲”,也可以和天猫精灵聊文化谈人生。新天猫精灵不仅能回答小朋友的各种刁钻问题,还可以一起创作“宇宙大爆炸”的新故事。

发布会后,阿里云智能 CTO 周靖人接受南都采访时表示,阿里体系内产品何时完成 AI 化升级改造并未有时间表,目前还有很多探索性的工作,“在智能化时代,如何利用好这些模型,能够把它结合在自己的业务体系里面,这是大家所面临的同样的机遇。”

谈及通义千问和 OpenAI 旗下 ChatGPT 之间的水平差距,周靖人坦承,“GPT 在各个方面都处于领先地位,这是科技进步的一个必然阶段,今天大家是你追我赶(的状态),在这个阶段,它的很多技术比较领先,这需要不断追赶,不断弥补不足,希望下个阶段,也许千问也能够贡献自己的一系列技术的创新。”

周靖人接受包括南都

在内的媒体采访摘要

对话阿里云CTO周靖人:通义千问是模型探索的节点并非终态插图3

记者:目前阿里大模型的整体规划是怎么样的,未来有什么目标?

周靖人:阿里算是中国最早投入大模型研究的公司之一,我们从 2019 年开始,就在做各种各样预训练大模型的研发,一直以来,我们认为大模型正在从多模态、自然语言、视觉等各个方面逐渐逼近于人的智慧,能够把我们的相关知识体系、推理能力逐渐融合在一起。

今天发布的通义千问其实是我们在这条既定技术路线上面的产品,也是向大家展示我们过去几年的工作,但这并不代表我们最终的技术成果,因为我们还在不断地探索,包括阅读、自然语言、视觉、语音等方方面面都是我们持续创新和突破的方向。

记者:阿里所有的 APP 接入通义千问有没有时间表,进度有多快?

周靖人:我们目前没有一个时间表,我觉得今天这部分的工作,也有一定的探索性的元素在里面,如何能够使用好这个模型,其实就像 CEO 张勇讲的,今天包括阿里在内的所有企业,都是在同一起跑线上。这并不是一蹴而就的,如何能够把模型的能力真正发挥出来,能够结合在自己的业务体系里面来,需要业务系统的创新。

今天通义千问给大家提供的是一个技术的能力,从技术的能力到业务的应用,其实还有一定的距离。这需要大家一起合作和探索,才能够真正把模型,特别是把千问模型的能力发挥出来。

记者:在您自己的评估中,通义千问跟 ChatGPT 对比,水平如何?

周靖人:坦诚讲 GPT 在各个方面都是处于一个领先地位,这是科技进步的一个必然阶段,今天大家是你追我赶,在这个阶段,它的很多技术比较领先,这是我们需要去补偿的,需要不断弥补我们一系列的不足,希望下个阶段,千问也能够贡献自己的一系列技术的创新。

但千问并不是为了针对 ChatGPT 而做的,我们其实在大模型的研究方面,一直坚持了自己的路线,过去做了多模态,做了视觉,又做了自然语言等等,其实今天千问只是我们在预训练大模型上探索的一个方面或者一个节点,也并不代表它是一个终态。

我相信 ChatGPT 的发布,最大的价值之一就是把整个语言模型的潜力发挥出来,今天这个潜力还有巨大的空间,还有非常多令人无限遐想的应用场景,我们期待接下来和大家一起不断创新,不光是技术的创新,也包括业务体系的创新。

记者:怎么样做到把模型的训练和运行成本降到 1 /10 或者 1 /100?

周靖人:这有很多的技术细节。比如模型训练,涉及到如何有效地把所有的资源用起来,也许你可能用到了几千张卡,如果某一个时间点只有几百张卡在跑,其他的卡都闲置掉,其实在无形之中没有有效的把资源应用起来。具体一点,包括分布计算的执行图,怎么做动态的优化,怎么避免网络的拥塞等等,都是非常细致的工作,才能真正把训练一个模型的效率提升。甚至今天用更少的计算资源,能解决更大规模的模型训练的问题。

模型在服务这部分也是类似的情况,包括如何做到模型的压缩,模型的裁减,模型知识的蒸馏等,如当我们进入到一个专属模型,真正在部署的时候,如何对专属模型进行进一步成本的降低,能够有效的把真正解决行业问题所需要的那部分智能保留,把其他部分的智能能够节省下来,这中间有非常多的技术的创新和技术的突破,这正是阿里云在这方面比较有优势的地方。

记者:为企业定制的专属大模型和现在的通用大模型有何不同?

周靖人:通义千问是一个通用大模型,并不是为某一个业务问题去优化或者定制的,更多是从整个知识体系方面做的一系列融合。应用到实际场景中,每个企业有自己特殊的需求,有很多行业知识和经验,把这些知识体系,也融入到大模型里面来,这是今天我们企业专属大模型要解决的一个问题。

背后的实现路径之一是,我们会为企业提供一个专门的数据空间,企业能够把它相关的信息放入到这样一个数据空间,这个数据空间是完完全全隔离、安全的,也是专属的。企业在把相关信息注入到数据空间的时候,不需要做任何的数据预处理,不管是 PPT 的方式还是 PDF 方式,还是 Word 的方式,甚至以前一些手册、图片、视频的方式,都可以授权到今天的数据空间里面来。我们会提供一键式生成大模型的能力,在企业的授权下去理解相关企业的各种模态的数据,有效地跟通义千问结合在一起,让千问能够深刻了解企业所处的行业,吸取行业知识,帮助解决行业特定问题。

另外一种方式是通过 API 的方式,把模型的能力释放出来,我们需要更多的开发者,让开发者通过 API,通过 SDK 把模型的能力、模型的应用场景拓宽,能从而产生更大的业务价值。

采写:南都记者 马宁宁 返回搜狐,查看更多

责任编辑:

原文链接:https://it.sohu.com/a/665974659_161795

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-19发表,共计2846字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。