实测阿里版ChatGPT:回答问题注重逻辑,比想象中更聪明

131次阅读

科技技术在改变人与工具的交互方式。PC 时代的 Apple Lisa 电脑,是首次采用图形用户界面和鼠标的个人电脑;到智能手机时代,iPhone 定义了触控交互。下一步,ChatGPT 类的多模态大模型又将影响未来 AI 的发展方向和人类的工作方式。

未来科技产业注定是变革和颠覆的一年,新时代属于造梦者、勇闯者,甚至是孤独者。在外界看来,新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙,敢为者先。

新浪潮下,另镜推出「Tech 潮向」专题系列报道,洞察当下前沿科技新变革和发展趋势,报道前沿科技企业新战略、新思维,提供更多具有前瞻思考的价值信息。此篇为该系列报道第三篇,聚焦新一轮新科技 ChatGPT 开启。

作者 | 刘雨婷

编辑 | 陈彦旭

运营 | 陈小妍

另镜 (ID:DMS-012 )

4 月 7 日,阿里版 GPT 官宣内测,自研大模型 ” 通义千问 ” 开始邀请用户测试体验,现阶段主要定向邀请企业用户进行体验测试。

最近一段时间以来,ChatGPT 成了互联网领域最大的风口,国内受追捧热度同样高涨,百度文心一言率先发布,美团联合创始人王慧文早已宣布入场,360 集团创始人周鸿祎也公开演示了其公司的聊天机器人。

ChatGPT 的出现引领新一轮技术创新,各行各业将会如何被颠覆是 2023 年外界最关心的话题。

阿里此次发布的通义千问是达摩院自主研发的超大规模语言模型,可以回答问题、创作文字,以及表达观点、撰写代码。

另镜拿到 ” 通义千问 ” 首批邀测资格,在登陆 ” 通义千问 ” 后,其主页页面主要突出了四个功能:职场助理、撰写短文、写封邮件和电影脚本。

在二级入口 ” 百宝袋 ” 中,通义千问举例了更多应用场景,包括提升工作效率的写提纲、SWOT 分析、商品描述生成;生活类的菜谱、小学生作文、接文续写;以及娱乐类的彩虹屁、情书、写诗。

另镜通过邀测码对通义千问进行了体验,从问题回答、观点表达、逻辑计算等多个方面对 ” 通义千问 ” 进行测试,并与文心一言、ChatGPT(GPT-4)的回答进行对比。

能写英文推荐信

首先,另镜测试了几个大模型对于最新热点的了解,提问其是否了解最近刚刚成为网络热点的熊猫 ” 花花 “。

通义千问给出了回答,识别出提问者是想了解具体熊猫个体 ” 花花 “,但可惜或受限于语料资料,并未能给出正确介绍。

通义千问答案

正确信息:花花,本名和花,雌性大熊猫,2020 年 7 月 4 日出生在成都大熊猫繁育研究基地月亮产房。

文心一言、ChatGPT 则是未能理解提问者的具体意图,均未能将问题回答落实到具体个体上。

文心一言答案

ChatGPT 答案

这也在一定程度上体现了几个大模型对于新闻热点的滞后捕捉问题。作为国外的语言大模型,ChatGPT 在中英文互译过程中的信息理解偏差也是使用者要面临的问题。

之后,另镜测试了通义千问对于问题的逻辑理解能力。另镜用一个藏有逻辑 ” 陷阱 ” 的问题进行测试:眼镜没发明出来之前,眼镜蛇叫什么?

在首次测试中,通义千问未能正确解答问题,但在第二次重新回答后,其回答眼镜蛇有另一个名字——眼镜王蛇,以及该名称来源,但这也并未能避开 ” 眼镜 ” 这个问题。

通义千问答案

文心一言则是给出了眼镜蛇的其他名称,避开了 ” 眼镜 ” 字眼。

文心一言答案

ChatGPT 则是成功理解了问题逻辑,解开了文字矛盾,并介绍了眼镜蛇的命名方式。

ChatGPT 答案

在接下来的提问中,另镜特意测试了 ” 通义千问 ” 对于中文诗句的理解:” 云渺渺,水茫茫。征人归路许多长。相思本是无凭语,莫向花笺费泪行 ” 是什么意思?

通义千问答案

与百度文心一言、ChatGPT 相比,通义千问的回答要更简洁一些,文心一言、ChatGPT 详细解释了每句诗词的意思和情感表达。

文心一言答案

ChatGPT 答案

接下来,另镜测试了通义千问对中文诗句的更深层理解,细化到具体诗句词语:” 凄凄惨惨戚戚中 ” 的戚戚是什么意思?

在这个问题上,通义千问并未能识别诗句出处,在中文文学理解方面还略有不足。

通义千问答案

文心一言回答出了诗句原文,但并没能对具体词语进行解释。

文心一言答案

ChatGPT 虽然回答出了具体词语意思,但也并未回答诗句出处,并将 ” 凄凄惨惨戚戚 ” 错误理解成了四个形容词。

ChatGPT 答案

除中文语料测试外,另镜也测试了通义千问的英文输出能力。另镜要求通义千问用英文写一封推荐信,推荐学生申请硕士,通义千问给出了相应推荐信模板。

通义千问答案

有理科生气质

在观点表达方面,通义千问、文心一言、ChatGPT 体现了不同的分析框架。

另镜要求三者评价马斯克和他的登月计划:

通义千问从技术才华、商业才华、人品道德三方面,分条展现了评价马斯克的角度,这个评价框架具有一定的通用性、

通义千问答案

与通义千问偏 ” 理科生 ” 的逻辑性回答不同,文心一言的回答更像是一篇 ” 文科生 ” 的感性作文。

文心一言答案

ChatGPT 则是回答了大众对于马斯克的看法,直接介绍了马斯克的身上的标签,更加有针对性。

ChatGPT 答案

在评价马斯克后,另镜要求三者分析其太空移民计划能否成功。与上个问题相似,通义千问分条回答了该问题,文心一言写了一段小作文。

通义千问答案

文心一言答案

ChatGPT 则是深入分析了太空移民计划目前面对的困难,有针对性的分析了能否成功的具体因素,回答也更实际。

ChatGPT 答案

还不能替小学生写作业

在数学逻辑方面,通义千问、文心一言、ChatGPT 都遇到了困难。另镜挑选了两道小学六年级奥数题,在回答第一道逻辑判断题问题时,通义千问和 ChatGPT 回答正确,文心一言则出现判断错误。

通义千问和 ChatGPT 通过语言逻辑解答了问题,但在更具体的数学公式搭建上却遇到困难。

在回答第二道数学计算问题时,通义千问、文心一言、ChatGPT 都出现错误。三者给出了解答公式,进行推算,但是都未能给出正确答案。

正确答案是:20 小时。

写在最后

目前,各个大模型的表现都不算完美。但正如通义千问所介绍的,语言大模型的未来是非常广阔的。

随着人工智能技术的不断发展和普及,语言大模型将被越来越多的应用于自然语言处理领域的各种任务。例如,语言大模型可以用于翻译、问答系统、智能客服、机器翻译、文本分类等。

同时,语言大模型也将促进人工智能技术在其他领域的应用,例如智能驾驶、医疗健康、金融服务等。未来,语言大模型将会持续发展和创新,为人类社会带来更多的便利和效益。

无论现在 OpenAI、百度、阿里旗下的聊天机器人表现如何,这也只是 AI 技术迭代的最开始,未来的路还有很长。

原文链接:http://app.myzaker.com/news/article.php?pk=643149d78e9f091eb637bec7

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-27发表,共计2663字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。