原标题:阿里“通义千问”启动邀测,能写剧本还会敲代码
4 月 7 日,阿里云宣布,自研大模型“通义千问”开启邀请用户测试体验,现阶段主要定向邀请企业用户进行测试体验。
随着美国公司 OpenAI 推出 ChatGPT 即爆火,国内外就“大型语言模型”的话题一直长居热榜不下。面对国外打得火热的情形,一位 AI 芯片企业创始人随即表示,“中国的 AI 大模型,先不管好不好用,先要有。”于是,国内纷纷将目光锁定到各大互联网公司身上。而此次阿里云“通义千问”的“突然袭击”,无疑引发了国内科技圈的强势关注。
但阿里云“通义千问”并非是大模型接力赛的第一棒,相反,接过第一棒的是百度在 3 月 16 日发布的“文心一言”。此外,在激烈的“明争暗斗、一较高下”氛围之下,后续还将会有更多公司入局,试图抢占生成式 AI 商业化的高地。比如此前美团联合创始人王慧文宣布入场,360 集团创始人周鸿祎也公开演示了其公司的聊天机器人。
4 月 4 日,脱口秀演员鸟鸟在微博晒出了与聊天 AI“鸟鸟分鸟”几轮对话的视频,一度引发众人猜测。据介绍,该分身采用了阿里的类 GPT 大模型,能够模仿她的音色、语气以及文本风格。
7 日,阿里云“通义千问”就以实力玩家的姿态低调进场了,除了基本通用的文本、对话能力,还增设了在特定场景内选择对话的 9 款小应用,统称“百宝袋”。
在拿到内测资格后,《新立场》第一时间对其进行了测评,覆盖范围包括文学语言、计算机代码、日常对话以及特定场景等多个方面。
在第一和第二章中,我们将分别选取测试案例来展示“通义千问”解决常规问题的通用能力,和解决特定应用场景问题的进阶能力。
从测试的结果来看,“通义千问”的邀测开启,虽然相对友商而言低调了许多。但显然,阿里云没有浪费后发优势,从百宝袋这个新玩法的设定来看,颇有点避短扬长、通过优化高频使用场景的解决能力来消弭语料库先天劣势的意思。
而从这个设计也能看出阿里云显然是有备而来。毕竟,阿里云不是搜索引擎公司,C 端不是他们的主战场,而要服务行业服务企业,需要解决的问题和训练的能力本身就是场景化、偏实用的。
通用能力满足预期
ChatGPT 为代表的大模型,之所以能一出世就引爆舆论,是因为它第一次在通用能力方面展现出了强人工智能的苗头。人们不再只是期待 AI 在某个垂直细分或者受到限制的领域有所作为,而是希望它能通过涌现出来的“自我意识”帮助解决生活中普遍的日常需求。为了测试“通义千问”的这类通用能力,《新立场》首先测试了它在文学、翻译、办公辅助和理解网络段子的能力。
1、用文言文写一篇关于求知的考场作文
噫吁曦!学之不讲,是吾忧也。夫求知而未至,殆与不学等。然则何以为学?曰:学以聚之,问以辩之,兹乃其要。
夫天地之大也,人生之久也,而未知其所以然。然而学也,欲其自得之也。贤师益友,三人行则必有我师焉,择其善者而从之,其不善者而改之。夫是之谓要学也。
积土成山,风雨兴焉;积水成渊,蛟龙生焉;积善成德,而神明自得,圣心备焉。故不积跬步,无以至千里;不积小流,无以成江海。骐骥一跃,不能十步;驾马十驾,功在不舍。锲而舍之,朽木不折;锲而不舍,金石可镂。蚓无爪牙之利,筋骨之强,上食埃上,下饮黄泉,用心一也。蟹六跪而二螯,非蛇鳝之穴无可寄托者,用心躁也。
积善之家,必有余庆;积不善之家,必有余殃。臣弑其君,子试其父,非一朝一夕之故,其所由来者渐矣, 由辩之不早辩也。
故曰,学不可以已。用心躁者,一时之勇;用心缓者,始终之德。警之栽树,三年可以致茂,而隳其本根,则其日至而枯矣。
题解:
本文主要讲述了学习的重要性以及如何进行有效的学习。文中提到了要聚焦问题,积极提问,同时还强调了积累和坚持的重要性。最后,文中引用了一些历史故事,说明了学习不可以停止的道理。
从给出的答案来看,通义千问对于文言文的把握还是很精准的,能够结合许多非常优秀经典的文言文文章,做进一步的模仿、改写。此外,它对于文言文的语意了解程度也较深,就“求知”的作文主题能够顺畅且准确地引经据典。全文采用的是“设问——例证——回答”的三段式写法,严谨具体,符合考场作文的基本格式。
2、将上述文言文翻译成法语
此外,我们将翻译成法语的作文与由软件的自动翻译做了对比,鉴于低语境文字和高语境文字之间存在差异,相较于低语境文化当中大量信息通过显性直白的编码承载,在高语境文化中,大部分信息存在于物质语境当中,或内化于交际者的思维记忆深处,信息的传递和编码取决于社会文化环境和交际者所处的具体情景。因此,翻译成法语的文字无法准确表达白话文的意思也情有可原。
3、写一段电影脚本,结合星际穿越电影,续写库珀回到地球后的故事。
很显然,在撰写电影脚本的基本功上,通义千问的表现还是相当优秀的。从给出的回答来看,它能明确把握星际穿越的剧情走向和对应角色,并据此续写一部分电影脚本,且从角色对话来看,悬疑感满满,这也恰恰表明了通义千问对电影类型的把握也很充足。
在以上测试中,无论是从短文本还是长文本的创作能力来看,通义千问都能迅速给出答案,且对于问题的剖析和理解程度远比预料的更深刻。能够如此轻松应对各项设问就足以给人惊喜,或许随着优化文本多样性的进度加深,阿里云“通义千问”会更让人爱不释手。
事实上,这也在一定程度上体现了阿里云“通义千问”对于文本的学习输入和生成输出存在滞后问题。在以语言对话为主要预训练模型时,如何正确理解使用者的信息和要求,并且快速生成不仅只达及格线的内容,应当是每个国内语言大模型现阶段着重的卖力点。
据木桶效应来看,一个有可能引领国内新一轮技术创新,并且颠覆各行各业的语言大模型,其存活周期的长短绝不是以本身最具创意特色的板块为准,而是它作为大模型所具备的最基本通用的能力。
另外,从通义千问的自我介绍当中得知,它可以撰写代码,于是我们请它帮忙编写了 Python 代码。
4、Python 代码初体验
经过专业人士鉴定,通义千问上述编写的 Python 代码正确,但具体能否运行需要在计算机上做进一步的测试。不难看出,除了在文本方面的优秀表现以外,通义千问对于撰写计算机代码同样不在话下,有点“文理并举”的意思,出人意料。
除了比较正式的学究性问题以外,我们还测试了通义千问关于网络热点以及日常问题的了解程度和解答深度。
5、网络上的“孔乙己文学”是指什么?
“孔乙己文学”通常指的是以孔乙己为主角或中心人物的文学作品或文学形式,例如以孔乙己的生平经历为蓝本的小说、戏剧等。孔乙己是中国古代小说《儒林外史史》中的人物,他是一个身世贫寒、穷困潦倒、终日无所事事的落魄文人形象,常常被描述为醉心于诗歌、文学但又穷困潦倒的形象。因此,在现代社会,孔乙己文学通常被用来形容那些虽然才华出众但因为各种原因无法得到充分发挥的人或作品。
显然,面对网络热点,通义千问的回答似乎少了一些亮点。加之了解程度并不太深,甚至在叙述孔乙己这个人物时也说错了出处。不过,当下的“孔乙己文学”毕竟已经脱离了文学作品中的原始限定,作为大模型而言,出现理解偏差在所难免,而在这种偏差之下就容易衍生出其它错误了。
一个有可能引领国内新一轮技术创新,并且颠覆各行各业的语言大模型,其存活周期的长短绝不是以本身最具创意特色的板块为准,而是由它作为大模型所具备的通用能力来决定。这方面,通义千问做的不错,但仍然有进步的空间。
6、电脑死机时应该怎么办?
如果电脑死机,可能是由于硬件或软件的问题引起的。以下是一些可能的解决办法:
① 重新启动电脑:有时候,电脑死机可能只是因为系统资源不足或软件冲突,重新启动电脑可以帮助解决这些问题。
② 清理电脑:电脑死机可能是由于系统垃圾、临时文件或采恶意软件过多引起的。清理电脑的垃圾文件和恶意软件可以有助于改善电脑的性能和稳定性。
③ 检查硬件故障:如果电脑的硬件出现故障,例如内存、硬盘、电源等,可能会导致电脑死机。因此,检查硬件故障可以有助于解决问题。
④ 更新驱动程序:电脑可能会因为驱动程序的问题而而出现问题。因此,更新驱动程序可以有助于解决这些问题。
⑤ 检查系统文件:电脑可能会因为系统文件的问题而出现问题。因此,检查系统文件可以有助于解决问题。
需要注意的是,以上解决办法并不适用于所有情况,并且可能需要针对具体问题进行不同的处理。因此,如果您遇到了电脑死机的问题,建议先检查相关的硬件牛和软件,然后再采取相应的措施。
从以上回答来看,当面临日常办公困扰时,通义千问能迅速给出多个解决建议,且涉及方方面面。
抛开撰写代码的测试内容,其余 5 个问题都与文本输出层面有关,不管是文言文创作、转译法语、部分电影脚本撰写,又或是解决日常问题,阿里云“通义千问”给出的这份答卷都足以让人眼前一亮。由于滞后捕捉的问题,面对网络热点事实错误、意义阐释不深等等一系列小问题的存在,依然不会影响它本身在文本能力方面的突出表现。后续在越来越多的用户反馈和版本迭代之下,这些瑕疵也将被逐渐清理。
诚然,作为语言大模型,最基本的通用能力非文本莫属,而文本背后的语料资料库决定了文本表现的优劣高低。通义千问已经在文本捕捉、理解和输出方面给了我们太多惊喜,对待处于邀测阶段的语言大模型来说,耐心是最有价值的回应。
百宝袋玩味强劲,为对接产品试水
在通义千问的首页,除了可以通过手动键入展开对话以外,还能在页面下方进入“百宝袋”,体验 9 款小应用。目前主要分为效率类:写提纲、SWOT 分析、商品描述生成;生活类:会放飞的菜谱、小学生作文;娱乐类:彩虹屁专家、写情书、为你写诗。以下我们选取测试了效率类当中的“写提纲”和“SWOT 分析”两个进行展示。
1、就当前的海洋污染的情况,写一份限塑的倡议书提纲,需要有理有据地号召大家克制地使用塑料制品?
提纲:
I. 污染现状
II. 海洋污染对海洋生态系统的危害
III. 海洋污染对人类健康的影响
IV. 减少塑料污染的行动
V. 推广限塑、环保的理念
VI. 总结限塑行动的意义
VII. 呼吁大家积极参与限塑行动
VIII. 结语
2、在疫情后时代中,传统制造业的机会在哪里?
根据给出的内容,我对传统制造业的机会进行了 SWOT 分析。
优势:
① 产品生产基础设施的成熟和稳定:在疫情期间,由于人们对生产基础设施的需求增加,传统制造业已经逐渐成熟和稳定,拥有更高的产能和更好的设备。
② 品牌优势:由于传统制造业具有悠久的历史和深厚的文化底蕴,它们在品牌形象、市场认知度、信任度和忠诚度等方面具有优势。
③ 成本优势:传统制造业通常可以通过采购、生产、物流和销售等环节实现更低的成本,从而能够在市场竞争中获得优势。
劣势:
① 竞争激烈:随着互联网的普及和市场的日益竞争,传统制造业面临来自新兴市场和新技术的挑战。
② 需求不稳定:由于疫情的影响,许多国家和地区的需求减少,这可能对传统制造业的生产和销售带来一定的不确定性。
③ 技术落后: 在技术和创新方面,传统制造业通常落后于新兴市场和新技术,这限制了它们的生产和发展能力。
机会:
① 数字化转型:由于互联网的普及,许多传统制造业已经开始了数字化转型,从而提高了生产效率和品牌形象。
②新兴市场:由于新兴市场的崛起,传统制造业可以通过生产符合当地需求的产品和服务来扩大市场。
③ 消费升级:消费者对产品品质、服务和品牌形象的要求不断提高传统制造业可以通过满足这些需求来获得机会。
威胁:
① 环保和健康:在环保和健康意识日益增强的情况下,传统制造业需要关注产品生产过程对环境的影响,并采取可持续发展的措施。
② 外部威胁:政策和贸易保护主义等外部因素可能会对传统制造业带来负面影响,这可能会影响它们的国际市场和生产能力。
相比于 OpenAI 推出 ChatGPT 之时,普通用户上手速度极慢的情形,通义千问创新了一些新玩法,通过设定不同的场景,让用户更加明确使用目的和使用场景,玩味性更强,用户粘性也更牢靠。
放眼国外,微软、Meta、谷歌等硅谷互联网巨头们相继入局大型语言模型竞技。与此同时,伴随国内科技圈的注视,3 月 16 日,百度推出文心一言,抢先在国内打下语言大模型的第一战。事实上,阿里对大模型的研究布局最早可以追溯到 2019 年的 SturctBERT,以及 10 万亿参数的多模态大模型 M6。
4 年前就开始布局大模型的阿里为何迟迟未推出自研的语言大模型,而又在百度率先“登顶”之后近一个月低调启动邀测,这一切都只是巧合吗?时间作为最容易被忽视的因素,这次可能也成为了答案本身。
继百度“文心一言”发布以来,网络对其评价褒贬不一。无论是从市场反应,还是用户回馈来看,文心一言优劣尽显。好的方面,它能根据文字,通过 AIGC 技术集成优势,运用多模态生成能力直接给出图片、音频和视频。这些方面都极大地被用户和市场所认同,而恰恰正是百度“文心一言”走在前面,顺利摸清市场反应、收集用户回馈,给了阿里云“通义千问”一个典型的示范。选择按兵不动的阿里,安然享有“前人栽树,后人乘凉”的好处,为明确“通义千问”的重点和创新强势助力。
随着 AI 的逐渐发展,算法模型将原有的技术栈从三层升级到了四层,即芯片层、框架层、模型层和应用层。从企业主营业务来看,百度是一家 AI 驱动的技术型公司,而文心一言刚好处于模型层,经过十多年的 NLP 技术积累和应用场景实践,百度是全球为数不多全栈布局且每层都有领先产品的公司。与此同时,阿里巴巴主营电子商务,主要客户群体还是“散户”,看似都在抢占生成式 AI 商业化先机的两者,实际赛道并不相同。
在文心一言的发布会上,李彦宏提出大模型时代会产生的三大产业机会,即新型云计算公司、调用大模型能力为行业提供解决方案的公司以及基于大模型底座开发应用的公司。文心一言的出现,无疑直接宣告了它的赛道和未来发展趋势。而阿里巴巴集团的业务范围很广,数字化产品线极为丰富,通义千问的出现在下一步很有可能将会直接对接到钉钉、淘宝天猫客服等应用场景。
由此看出,在百度“文心一言”推出后近一个月,阿里云“通义千问”低调邀测很有可能只是在为未来对接旗下数字化产品试水。
对于国产大型语言模型而言,不管是已正式发布的百度“文心一言”,还是开启邀测的阿里“通义千问”,又或是还在深度研发的其他大模型,试图一经发布就径直对标打败 ChatGPT 似乎有些不切实际,但是只要通过用户反馈不断调整,对模型进行升级,把重心置于大模型的迭代和后续的研发工作,就能更好构建研发大模型的业界生态。 返回搜狐,查看更多
责任编辑:
原文链接:http://news.sohu.com/a/665214788_121439537