作者 | python
一个烙饼煎一面一分钟 , 两个烙饼煎两面几分钟 ?
让你来回答 , 是不是一不小心就掉到沟里了 ? 如果让大语言模型来做这种脑筋急转弯会怎样呢 ? 研究发现 , 模型越大 , 回答就越可能掉到沟里 , 即使是拥有千亿参数的大模型也不能幸免。但是 ChatGPT 却能很好回答这些问题。让我们一起来看看吧。
行业首份 AI 全栈手册开放下载啦 !!
长达 3000 页 , 涵盖大语言模型技术发展、AIGC 技术最新动向和应用、深度学习技术等 AI 方向。微信公众号关注“夕小瑶科技说”, 回复“789”下载资料
论文题目:
Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4
论文链接:
https://arxiv.org/pdf/2306.07622.pdf
大模型研究测试传送门
GPT- 4 传送门 ( 免墙 , 可直接测试 , 遇浏览器警告点高级 / 继续访问即可 ):
Hello, GPT4!
脑筋急转弯
作者采用了 CRT(Cognitive Reflection Test) 数据作为脑筋急转弯的测试数据。该数据在心理学领域 , 广泛地被用于衡量人类的思维习惯 , 判断是否习惯于直觉思维。
▲脑筋急转弯数据示例
如上图所示 , 作者探索了 3 种 CRT 数据 , 和 1 种语言逻辑陷阱。例如 :
-
CRT-1: 苹果和梨花了 1 块 1 , 苹果比梨贵 1 块 , 问梨花了多少钱 ?直觉答案 :0.1 块 = 1.1-1, 正确答案:0.05 块。
-
CRT-2:5 个人种 5 棵树花 5 分钟 ,10 个人种 10 棵树花多少分钟 ?直觉答案 :10 分钟 , 正确答案:5 分钟。
-
CRT-3: 培养皿中的细菌每分钟扩增一倍面积 ,48 分钟可以填满 , 问填满一半要多久 ?直觉答案 :24 分钟 , 正确答案:47 分钟。
-
语言逻辑陷阱 : 刚上小学的小红去参加高考 , 她会考几科 ?直觉答案 6 科 , 正确答案: 小学生不参加高考。
模型表现
模型表现如下图所示 , 可以看到模型较小时 ( 从 117M GPT-1 到 2.7B GPT-Neo), 随着模型增大 , 模型回答正确答案 ( 绿色 ) 和直觉答案 ( 红色 ) 的比例在提高 , 回答无关答案 ( 黄色 ) 的比例在下降。但随着模型进一步增大 ( 从 2.7B GPT-Neo 到 175B GPT-3), 无关答案比例进一步下降 , 直觉答案比例进一步上升 , 正确答案比例却不升反降。包括 BLOOM、LLAMA、GPT- 3 在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与 RLHF 的 text davinci-002/003 也未能幸免。
▲不同模型表现对比
而在上图中 , 经过指令调整的 ChatGPT 与 GPT-4, 一下子正确答案的比例就高了许多。究竟是什么魔法使得 ChatGPT 的脑筋会转弯呢 ? 我们不得而知。
下图具体对比了 GPT-3(text davinci-003, 左 )、ChatGPT( 中 ),GPT-4( 右 ) 在几类不同的脑筋急转弯的表现 , 可以更加凸显上述现象。
▲不同脑筋急转弯类型上的模型表现对比
如果改换输入形式会怎样 ? 下图上为问答的形式 , 和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到 , 修改提问形式之后 , 正确率略有上升 , 但整体差别不大。
下图显示 , 通过少监督展示学习 ,GPT- 3 的正确率会有所上升。但即使展示到 40 个左右的样本 , 准确率和无监督的 ChatGPT 比仍有差距 , 更不用说 GPT- 4 了。
结论
这篇论文针对很有意思的一类问题 ( 脑筋急转弯 ), 发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法 , 但无论是改变提问形式还是增加监督数据 ,GPT-3(text davinci-003) 在脑筋急转弯上的表现仍然难以达到 ChatGPT 的水平。究竟 ChatGPT 使用了怎样的魔法让模型的脑筋会转弯呢 ?
原文链接:https://blog.csdn.net/xixiaoyaoww/article/details/131401366