实测阿里通义千问:八个问题展示与文心一言的不同

131次阅读

实测阿里通义千问:八个问题展示与文心一言的不同插图

任何一条路上都不乏竞争者,每个企业都有自己的课题,也有自己独特的优势。如何最大化的发挥自身的价值,或是产品诞生的第一要义。

文 | 黄杨

编辑 | 靖程

4 月 7 日,阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试,用户可通过官网申请(tongyi.aliyun.com),符合条件的用户可参与体验。

“阿里 11 日推出大模型,18 日推出行业应用类模型。”据潮新闻,2023 阿里云峰会上将正式推出阿里大模型,接下来还有各类的行业应用类模型会面世。一位阿里内部人士确认,天猫精灵已经接入了大模型产品,大模型产品已经在阿里内部各个产品线接入并进行了内测,表现很惊艳。

阿里达摩院在 NLP 自然语言处理等前沿科研领域早已布局多年,并于 2019 年启动大模型研发。阿里云研发的“通义千问”大语言模型表现如何?财经网科技从本地化、逻辑性和工具性三方面,向其提问了几个曾经问过文心一言的几个问题。

对于目前国内独两份宣布内测的产品,本文旨在通过问题和答案的呈现,展示两大模型各自的特点。

一、通过带有中国语境的词语询问,看其是否了解“中国梗”

1. 词汇题:大胜 vs 大败

实测阿里通义千问:八个问题展示与文心一言的不同插图1

(左边“通义千问”,右边为 3 月 16 日“文心一言”测试版本,下文一致)

从对话内容可以看出,文心一言知道“大胜”的意思,但是对“大败”的理解较为单一。它可能不知道,在中国的词汇使用上,如果“大败”后面有对手(对手的名字),那就是赢;如果“大败”后面没有字,直接句号结束,那就是输。

但是通义千问对中国词语的理解并不太强,不太能 get 到“考点”。

2. 夫妻肺片与老婆饼

实测阿里通义千问:八个问题展示与文心一言的不同插图2

实测阿里通义千问:八个问题展示与文心一言的不同插图3

从上图可以看到,两个语言大模型都是“中国通”,知道“夫妻肺片”是一道菜,但是对于“老婆饼”,通义千问并不知道前者是个点心,反而扯上了名称、外观等名词,明显有点词不达意。

3. 旺仔的爸爸有三个孩子,老大叫大毛,老二叫二毛,老三叫什么?

实测阿里通义千问:八个问题展示与文心一言的不同插图4

提及“旺仔”,通义千问直接与旺仔牛奶这个品牌扯在了一起,并“一本正经”地回复,称“老三”并不是旺仔产品中的常见名字。对比文心一言来看,前者似乎不懂人类的幽默,不知道什么叫脑筋急转弯。

二、通过多次问答,测试其是否有创作能力、逻辑能力

1. 帮我写一首纪念结婚 7 周年的诗。

实测阿里通义千问:八个问题展示与文心一言的不同插图5

同样是写诗,两者在诗歌表现上各有不同,都“深情”地表现出对婚姻的珍惜,以及对未来感情路的笃信。

2. 关于《人类简史》出版时间和作者的提问

实测阿里通义千问:八个问题展示与文心一言的不同插图6

两个语言大模型在《人类简史》的出版时间上各执一词,但都准确地回答出了作者的名字。

三、以旅游达人、烹饪爱好者和学生的身份问了三个常规问题

1. 请帮我做一个五一从北京到成都 5 天往返的旅游攻略。

实测阿里通义千问:八个问题展示与文心一言的不同插图7

从形式上看,两个大语言模型都是懂得怎么做旅游攻略,能够按照具体时间来安排旅游景点和品尝美食,不过在景点安排上,两者都不太成功,通义千问做得都是在北京游玩的攻略,文心一言则是将“都江堰”一个景点在攻略里推荐了三次。

2. 怎么在家就能做出好吃的小龙虾?

实测阿里通义千问:八个问题展示与文心一言的不同插图8

两者在食物烹饪上均比较有经验,从清洗备菜到具体烧制,其都给出了详细的操作步骤,另外,它们还贴心地提示:制作小龙虾注意卫生和食品安全。

3. 请以《现代艺术与中国传统如何结合》为题,拟一个的论文框架,包含论点和论据,并提供引用来源。

实测阿里通义千问:八个问题展示与文心一言的不同插图9

通义千问很抱歉地在回复中表示没有掌握写论文的技巧,看来国内学生想找它写个论文的想法,暂时还不能实现。

文心一言能够按照论文的基本构成,如研究问题、研究方法、研究结果等给出论文框架,但是其在来源回溯上的表现也不太理想,其没有根据论文主题给出具体的写作方向和思路,更没有直接给出论文可能会用到的论文引用(比如论文名称、作者、期刊名称、出版日期等)。

实测阿里通义千问:八个问题展示与文心一言的不同插图10

“百度特有的技术,现在已经应用在文心一言上”,3 月 16 日,在文心一言发布会上,百度首席技术官王海峰介绍称,技术有了,但是大模型的训练的还不够充分。不过文心大模型建立起人类反馈、奖励模型和策略优化之间的飞轮机制,随着真实用户的反馈越来越多,文心一言的效果会越来越好,能力越来越强。

国产语言大模型需要时间去学习和进步,在问及作为相较于其他模型,阿里达摩院开发的预训练语言模型有哪些优势时,通义千问回答到,其的优势主要体验在三方面,分别是算法和模型结构更为优化,集成了阿里巴巴集团的丰富资源以及支持更多定制化需求。

“任何领域都会有商业竞争,这是毋庸置疑的。”关于国内大模型之间的商业竞争,昆仑万维 CEO 方汉最近在接受媒体采访时表示,大模型本身在不断的迭代。从文本大模型到多模态大模型,我认为这个竞争会是一个长期持续的过程。

他还表示,先发者将会凭借他们的先发优势在商业上获得很大的成功。后发者可能要付出更多的努力,在算法层做更多的优化,能够超过先行者的技术指标才能获得商业上的成功。或是在大模型尚未涉足的垂直行业进行自己的深耕细作,也会获得自己的商业回报。

任何一条路上都不乏竞争者,每个企业都有自己的课题,也有自己独特的优势。如何最大化的发挥自身的价值,或是产品诞生的第一要义。

原文链接:https://new.qq.com/rain/a/20230407A08ICF00

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-11发表,共计2064字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。