本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python,题图来自:《梅根》
一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?
让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是 ChatGPT 却能很好回答这些问题。让我们一起来看看吧。
论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4
论文链接: https://arxiv.org/pdf/2306.07622.pdf
脑筋急转弯
作者采用了 CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。
如上图所示,作者探索了 3 种 CRT 数据和 1 种语言逻辑陷阱。例如:
-
CRT-1:苹果和梨花了 1 块 1,苹果比梨贵 1 块,问梨花了多少钱?直觉答案:0.1 块 = 1.1-1,正确答案:0.05 块。
-
CRT-2:5 个人种 5 棵树花 5 分钟,10 个人种 10 棵树花多少分钟?直觉答案:10 分钟,正确答案:5 分钟。
-
CRT-3:培养皿中的细菌每分钟扩增一倍面积,48 分钟可以填满,问填满一半要多久?直觉答案:24 分钟,正确答案:47 分钟。
-
语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案 6 科,正确答案:小学生不参加高考。
模型表现
模型表现如下图所示,可以看到模型较小时 (从 117M GPT-1 到 2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色) 和直觉答案 (红色) 的比例在提高,回答无关答案 (黄色) 的比例在下降。
但随着模型进一步增大(从 2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括 BLOOM、LLAMA、GPT- 3 在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与 RLHF 的 text davinci-002/003 也未能幸免。
而在上图中,经过指令调整的 ChatGPT 与 GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得 ChatGPT 的脑筋会转弯呢?我们不得而知。
下图具体对比了 GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。
如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到,修改提问形式之后,正确率略有上升,但整体差别不大。
下图显示,通过少监督展示学习,GPT- 3 的正确率会有所上升。但即使展示到 40 个左右的样本,准确率和无监督的 ChatGPT 相比仍有差距,更不用说 GPT- 4 了。
结论
这篇论文针对很有意思的一类问题 (脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003) 在脑筋急转弯上的表现仍然难以达到 ChatGPT 的水平。究竟 ChatGPT 使用了怎样的魔法让模型的脑筋会转弯呢?
本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:python
原文链接:https://www.huxiu.com/article/1727878.html