最近这一阵子 AI 领域真的是风云突起,前脚有 NewBing 接入了 GPT-4,后脚百度、阿里等大厂也推出了自家的生成式 AI。
过去,衡量一个 AI 的技术水平,往往用 图灵测试,这是科学家艾伦图灵在 1950 年提出的一个衡量机器智能的方法。该测试让人与机器进行对话,如果机器能骗过人,让人类以为它也是人,那就说明这个 AI 具备了极高的智能水平。
不过,自 ChatGPT 之后,已经有越来越多的 AI 通过了图灵测试,显然 这已经不是普通的 AI 了,必须出重拳!
所以,我们今天请出了互联网上极为睿智的贴吧 —— 吧,看看吧老哥们的那些传世经典提问,能否难倒这些人工智能呢?
本次出战的选手有:
名震天下,令互联网大厂闻风丧胆的 ChatGPT(基于 GPT 3.5);
将 GPT-4 融合进搜索引擎,让微软再次硬起来的 NewBing;
初出茅庐,打响国产 AI 第一枪的百度文心一言;
背靠大树,但尚在牙牙学语的阿里通义千问。
这里,浪歌需要强调两个事情:
第一,由于浪歌自己的 N 个账号已经在 OpenAI 的封号大潮中暴毙了,因此本次测试用的 ChatGPT 第三方页面,不过回答内容和 ChatGPT 是一样的。
第二,百度文心一言和阿里通义千问都是内测版本,因此发挥肯定不如正式版要好。
好了,选手们已经介绍完毕了,现在 请四位选手听题!
Round 1:蓝牙耳机坏了应该去看牙科医生还是耳科医生?
ChatGPT:
ChatGPT 在这个回答里把问题分成了两个部分,先是点明了蓝牙耳机除了问题应该去找售后,之后又做了补充,如果觉得耳朵有问题应该去找耳科医生。
虽然它无法理解这个问题的笑点,不过还挺关心浪歌的身体健康的,他真的,我哭死。
NewBing:
蓝牙耳机坏了应该去找电子产品维修人员,而不是牙科医生或耳科医生
不愧是基于 GPT-4 的 AI,回答毫无拖泥带水,直接点出问题所在,让浪歌去找维修人员,而不是去骚扰医生们。显然 NewBing 并没有被这个问题绕进去。
文心一言:
文心一言的回答就有点问题了,先是让浪歌去找耳科医生看看我的耳朵,又说找牙科医生检查一下口腔,浪歌寻思自己也不是嘴里叼着蓝牙耳机听歌的啊。
通义千问:
前面说的还挺正常的,通义千问努力想让浪歌学会自己检测蓝牙耳机问题,到了后面就开始离谱了,让浪歌去找牙医和耳科医生修耳机,看来通义千问默认这俩职业不仅能修理人体,还能修理电子设备。
Round 2:我女朋友的老公应该叫我什么?
ChatGPT:
ChatGPT 敏锐的洞察到这个问题后可能隐藏着一桩复杂的情感纠纷,所以直接拒绝回答,甚至还尝试劝阻浪歌,不要成为牛头人(即 NTR,意指强占他人配偶)
NewBing:
您的女朋友的老公应该叫您的名字。在这种情况下,一个人可能会说“你好,(你的名字)”。
这波 NewBing 就要扣大分了,既不能理解里面的笑点,也无法发觉其中可能破坏伦理道德的部分,甚至还发了一个笑脸给浪歌。或许 NewBing 内心深处就是一个纯爱战士,无法理解牛头人的世界。
文心一言:
文心一言则是抛弃了一切道德的枷锁,用冷静客观的态度为浪歌分析了可能出现的三种情况,浪歌愿称之为“混乱中立”。
通义千问:
和 ChatGPT 一样,通义千问先在道德层面把浪歌拷打了一番,之后发出“浪子回头金不换”的呼吁,没毛病老铁!
Round 3:被门夹过的核桃,还能补脑吗?
ChatGPT:
ChatGPT 回答的可谓滴水不漏,先指出被门夹了的核桃可能因为脏污不适合食用,后指出核桃的确对大脑有益,最后又强调要去看医生,而不是和他在这哔哔赖赖,比某田医院靠谱太多了。
NewBing:
核桃被门夹过并不影响它的营养价值。核桃富含脂肪酸,蛋白质和锌等,这些物质对大脑健康有益。所以,被门夹过的核桃仍然可以补脑。
虽然 NewBing 没有识破这个问题的笑点,但是依然肯定了核桃的补脑效果,哪怕被夹过也没问题,一看就是老直男无疑了。
文心一言:
被门挤过的核桃是可以吃的,核桃有一定的补脑作用,与是否被门挤无关。
文心一言和 NewBing 一样,一本正经的科普了核桃的营养物质并不会因外力破坏而损失。
通义千问:
通义千问同样严谨,先是说明现在没有文献可以解答浪歌的问题,然后又表示一般来说是没啥问题的,之后又关心了一下浪歌的饮食健康,倡导适量食用天然食材。
总的来说,这四款 AI 都没法发掘出这个提问的笑点,而是更倾向于科普相关知识。
Round 4:老鼠生病吃老鼠药能治好病吗?
ChatGPT:
ChatGPT 还是老道,先点明老鼠药是杀死老鼠的,没有治疗作用,之后劝导浪歌不要讳疾忌医,去找兽医比找 AI 问来问去要靠谱。
NewBing:
不,老鼠药是用来杀死老鼠的,而不是治疗它们的疾病。如果老鼠生病了,吃老鼠药并不能治愈它的疾病。如果你希望帮助生病的老鼠恢复健康,可以带它去看兽医。
文心一言:
不管是 NewBing 还是文心一言,回答都比较中规中矩,先解释了老鼠药的功效,随后悲天悯鼠的建议咨询兽医,尽快挽救鼠鼠的性命。
通义千问:
到了通义千问这边,就开始出问题了,先是说老鼠药能控制老鼠病症,但不能治愈疾病,又说老鼠药是杀死老鼠的,前后明显矛盾。
Round 5:拉后要擦屁股是不是资本主义的骗局?
ChatGPT:
ChatGPT 首先表达了对浪歌问题的震惊,然后开始科普擦屁股的好处,并解释这不是啥骗局。
NewBing:
不,擦屁股是为了保持个人卫生。这与资本主义无关。你为什么会这样问呢?
NewBing 直接反问浪歌为啥要提出这个问题,看来是怀疑浪歌的成分了。
文心一言:
通义千问:
这两个国产 AI 表现都惊人的相似,全部拒绝回答这个问题,可能百度和阿里为了合规,给 AI 增加了一些屏蔽词,牵扯到这些词汇的问题就不予回答了。
总结
五轮提问下来,其实这四个 AI 差距比浪歌想象的要小,原本以为国产 AI 起步比欧美要晚几年,表现会逊色一筹,但是目前来看,虽然有一定差距,但是并不大,部分回答的表现的甚至比基于 OpenAI 最新大模型 GPT-4 的 NewBing 还要好一些。
但是呢,以目前 AI 的智商,暂时还无法理解人类的笑点。碰到问题,第一反应是找解决方案,或者质疑浪歌的提问有毛病,而不是反思这个问题里是否话里有话。
现在的 AI 在解决问题方面的确具备人类没有的超高效率,不过他们暂时还无法理解人类隐藏在语言背后的细腻情感。
或许随着技术的发展,在不远的未来,AI 面对吧的这些提问,也会会心一笑吧!
今日还有苹果 iOS 17 巨变、小米新款平板 & 手环官宣、QQ 邮箱重要功能下线等新闻,感兴趣的可以点击下方卡片查看。另华为新品发布会将于 4 月 17 日下午 14:30 举办,欢迎前往 IT 之家 App & 网站观看直播!
$ 阿里巴巴 -SW(HK|09988)$$ 微软(NASDAQ|MSFT)$$ 百度集团 -SW(HK|09888)$# 全球 AI 监管潮来袭,行情将如何演绎?#
原文链接:https://caifuhao.eastmoney.com/news/20230413222018358419600