实测阿里版ChatGPT：回答问题注重逻辑，比想象中更聪明

237次阅读

科技技术在改变人与工具的交互方式。PC 时代的 Apple Lisa 电脑，是首次采用图形用户界面和鼠标的个人电脑；到智能手机时代，iPhone 定义了触控交互。下一步，ChatGPT 类的多模态大模型又将影响未来 AI 的发展方向和人类的工作方式。

未来科技产业注定是变革和颠覆的一年，新时代属于造梦者、勇闯者，甚至是孤独者。在外界看来，新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙，敢为者先。

新浪潮下，另镜推出「Tech 潮向」专题系列报道，洞察当下前沿科技新变革和发展趋势，报道前沿科技企业新战略、新思维，提供更多具有前瞻思考的价值信息。此篇为该系列报道第三篇，聚焦新一轮新科技 ChatGPT 开启。

作者 | 刘雨婷

编辑 | 陈彦旭

运营 | 陈小妍

另镜 (ID:DMS-012 )

4 月 7 日，阿里版 GPT 官宣内测，自研大模型 ” 通义千问 ” 开始邀请用户测试体验，现阶段主要定向邀请企业用户进行体验测试。

最近一段时间以来，ChatGPT 成了互联网领域最大的风口，国内受追捧热度同样高涨，百度文心一言率先发布，美团联合创始人王慧文早已宣布入场，360 集团创始人周鸿祎也公开演示了其公司的聊天机器人。

ChatGPT 的出现引领新一轮技术创新，各行各业将会如何被颠覆是 2023 年外界最关心的话题。

阿里此次发布的通义千问是达摩院自主研发的超大规模语言模型，可以回答问题、创作文字，以及表达观点、撰写代码。

另镜拿到 ” 通义千问 ” 首批邀测资格，在登陆 ” 通义千问 ” 后，其主页页面主要突出了四个功能：职场助理、撰写短文、写封邮件和电影脚本。

在二级入口 ” 百宝袋 ” 中，通义千问举例了更多应用场景，包括提升工作效率的写提纲、SWOT 分析、商品描述生成；生活类的菜谱、小学生作文、接文续写；以及娱乐类的彩虹屁、情书、写诗。

另镜通过邀测码对通义千问进行了体验，从问题回答、观点表达、逻辑计算等多个方面对 ” 通义千问 ” 进行测试，并与文心一言、ChatGPT（GPT-4）的回答进行对比。

能写英文推荐信

首先，另镜测试了几个大模型对于最新热点的了解，提问其是否了解最近刚刚成为网络热点的熊猫 ” 花花 “。

通义千问给出了回答，识别出提问者是想了解具体熊猫个体 ” 花花 “，但可惜或受限于语料资料，并未能给出正确介绍。

通义千问答案

正确信息：花花，本名和花，雌性大熊猫，2020 年 7 月 4 日出生在成都大熊猫繁育研究基地月亮产房。

文心一言、ChatGPT 则是未能理解提问者的具体意图，均未能将问题回答落实到具体个体上。

文心一言答案

ChatGPT 答案

这也在一定程度上体现了几个大模型对于新闻热点的滞后捕捉问题。作为国外的语言大模型，ChatGPT 在中英文互译过程中的信息理解偏差也是使用者要面临的问题。

之后，另镜测试了通义千问对于问题的逻辑理解能力。另镜用一个藏有逻辑 ” 陷阱 ” 的问题进行测试：眼镜没发明出来之前，眼镜蛇叫什么？

在首次测试中，通义千问未能正确解答问题，但在第二次重新回答后，其回答眼镜蛇有另一个名字——眼镜王蛇，以及该名称来源，但这也并未能避开 ” 眼镜 ” 这个问题。

通义千问答案

文心一言则是给出了眼镜蛇的其他名称，避开了 ” 眼镜 ” 字眼。

文心一言答案

ChatGPT 则是成功理解了问题逻辑，解开了文字矛盾，并介绍了眼镜蛇的命名方式。

ChatGPT 答案

在接下来的提问中，另镜特意测试了 ” 通义千问 ” 对于中文诗句的理解：” 云渺渺，水茫茫。征人归路许多长。相思本是无凭语，莫向花笺费泪行 ” 是什么意思？

通义千问答案

与百度文心一言、ChatGPT 相比，通义千问的回答要更简洁一些，文心一言、ChatGPT 详细解释了每句诗词的意思和情感表达。

文心一言答案

ChatGPT 答案

接下来，另镜测试了通义千问对中文诗句的更深层理解，细化到具体诗句词语：” 凄凄惨惨戚戚中 ” 的戚戚是什么意思？

在这个问题上，通义千问并未能识别诗句出处，在中文文学理解方面还略有不足。

通义千问答案

文心一言回答出了诗句原文，但并没能对具体词语进行解释。

文心一言答案

ChatGPT 虽然回答出了具体词语意思，但也并未回答诗句出处，并将 ” 凄凄惨惨戚戚 ” 错误理解成了四个形容词。

ChatGPT 答案

除中文语料测试外，另镜也测试了通义千问的英文输出能力。另镜要求通义千问用英文写一封推荐信，推荐学生申请硕士，通义千问给出了相应推荐信模板。

通义千问答案

有理科生气质

在观点表达方面，通义千问、文心一言、ChatGPT 体现了不同的分析框架。

另镜要求三者评价马斯克和他的登月计划：

通义千问从技术才华、商业才华、人品道德三方面，分条展现了评价马斯克的角度，这个评价框架具有一定的通用性、

通义千问答案

与通义千问偏 ” 理科生 ” 的逻辑性回答不同，文心一言的回答更像是一篇 ” 文科生 ” 的感性作文。

文心一言答案

ChatGPT 则是回答了大众对于马斯克的看法，直接介绍了马斯克的身上的标签，更加有针对性。

ChatGPT 答案

在评价马斯克后，另镜要求三者分析其太空移民计划能否成功。与上个问题相似，通义千问分条回答了该问题，文心一言写了一段小作文。

通义千问答案

文心一言答案

ChatGPT 则是深入分析了太空移民计划目前面对的困难，有针对性的分析了能否成功的具体因素，回答也更实际。

ChatGPT 答案

还不能替小学生写作业

在数学逻辑方面，通义千问、文心一言、ChatGPT 都遇到了困难。另镜挑选了两道小学六年级奥数题，在回答第一道逻辑判断题问题时，通义千问和 ChatGPT 回答正确，文心一言则出现判断错误。

通义千问和 ChatGPT 通过语言逻辑解答了问题，但在更具体的数学公式搭建上却遇到困难。

在回答第二道数学计算问题时，通义千问、文心一言、ChatGPT 都出现错误。三者给出了解答公式，进行推算，但是都未能给出正确答案。

正确答案是：20 小时。

写在最后

目前，各个大模型的表现都不算完美。但正如通义千问所介绍的，语言大模型的未来是非常广阔的。

随着人工智能技术的不断发展和普及，语言大模型将被越来越多的应用于自然语言处理领域的各种任务。例如，语言大模型可以用于翻译、问答系统、智能客服、机器翻译、文本分类等。

同时，语言大模型也将促进人工智能技术在其他领域的应用，例如智能驾驶、医疗健康、金融服务等。未来，语言大模型将会持续发展和创新，为人类社会带来更多的便利和效益。

无论现在 OpenAI、百度、阿里旗下的聊天机器人表现如何，这也只是 AI 技术迭代的最开始，未来的路还有很长。

原文链接：http://app.myzaker.com/news/article.php?pk=643149d78e9f091eb637bec7

正文完

发表至：资讯

2023-08-27

转载说明：声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

人类一直热衷于自我毁灭，三观不正的解说《人工智能：灭绝危机》

AI助手下载

人工智能AI+大数据，赋能助力保险行业发展

“文心一言”和“ChatGPT”谁强谁弱

【热度情报局】贵州茅台一季度迎开门红，完美世界已将AI技术应用于游戏