GPT4 的发布,让已经处于风口的 ChatGPT 又一次迎来了高潮。
本文通过最新的 Plus 版本对 GPT3.5 和 GPT4.0 两种模型的回答进行简单的比较 GPT4 新特性包括
1. 逻辑能力更全面了
2. 拥有识图能力了
3. 回答更加有条理,理解更加准确
4. 创作力大幅提升
逻辑能力的提升
首先给发给他一个最简单的问题,“你是谁?”,对它的回答你品,细细品。3.5 显得还有点卑微,4.0 隔着屏幕能感受到他的自信。
但从第一个问题回答的体验上来看,GPT4.0 的速度直接回到了之前的免费版,虽然没有了丝般顺滑的体验,但是却给了我们一个更加稳定从容的 AI 助手。
第一张截图里面问他,你是谁的时候,就可以感受到 4.0 的回答明显更加沉稳。
试着给他丢了一道脑经急转弯(前提并没有告诉他我要给他脑筋急转弯),4.0 的回答明显感觉更加能说到点上,虽然用的谜语这个词,但多少有点脑筋急转弯的味道了。
4.0 的回答如下:
3.5 的回答如下:
给人的感觉 3.5 是有点为了说而说,但其实有不少是废话;而 4.0,相比之下就显得精干很多。
再将它角色带入,告诉 ChatGPT 接下去要玩脑经急转弯,并把上面的问题发给它,
3.5 的回答如下:
4.0 的回答如下:
看到 3.5 的回答,我笑出来了,心想你果然是个傻 *,就知道瞎编。然后顺手再给它一次机会,但回答依旧一般。
满怀期待地试了 4.0,结果并没有,但再给它一次机会之后,回答正确了,获取 GPT4.0 它真的可以思考?
拥有识图能力
拥有多模态能力,是 GPT4.0 的一个重大的功能改进,所谓的多模态,其实就是 GPT 的识别内容的升级,原本它只能识别出文本文字,而现在它可以识别图片里面元素并对图片内容进行理解理解。
但图片的识别功能并没有进入到公开测试阶段,大家也只能通过演示体验其他的厉害之处。但也可以找一些替代方案,可以先自己适当地做点功课,比如:https://github.com/yangjianxin1/ClipCap-Chinese,但我相信,GPT4.0 的识图能力远比前面那个 github 项目要强。
回答的更有条理
试着向他们问了另外一个问题:“1+ 1 在什么情况下不等于 2”
3.5 输出:
4.0 输出:
经过对比发现,明显 4.0 在回答上面更加合理并且让人理解,而 3.5 回答给人感觉不是那么直接且有有说服力。
创作能力的不断提升
测了下官方的例子,
Explain the plot of Cinderella in a sentence where each word has to begin with the next letter in the alphabet from A to Z, without repeating any letters
以一个句子解释灰姑娘的情节,其中每个单词必须以从 A 到 Z 的字母表中的下一个字母开头,不重复任何字母。
GPT3.5 的回答如下:
Autumn, before Christmas, Cinderella dances, enamored, forlorn, graceless, hoping invitations justify kindness, lost memories nearly obliterated, prince questions royal suitors, till unforgettable, victorious wedding, xylophones yelping, Zephyr applauds.
秋天,在圣诞节之前,灰姑娘跳舞,迷恋,失落,没有优雅,希望邀请证明善良,失去的回忆几乎被抹去,王子质疑皇家求婚者,直到难忘的胜利婚礼,木琴尖叫,西风鼓
GPT4.0 的回答如下:
Alone, bullied Cinderella dreams; eventually finds glamorous happiness, invited joyfully; kisses love, marries noble prince; quickly restores serenity, triumphing ultimately; vanquishing wicked, xenophobic yahoos, zealously.
孤独、受欺负的灰姑娘做梦;最终找到了迷人的幸福,欢快地应邀;热吻爱情,嫁给高贵的王子;迅速恢复宁静,最终获得胜利;热情地战胜邪恶、排外的莽汉。
你们觉得,3.5 和 4.0 谁强谁弱?
总结
GPT4.0 整体来说比 GPT3.5 强大了很多,但仍然是不完全可靠,对输出来的得内容还是要保持谨慎甄别的能力,
但是 GPT4.0 慢是真的慢。
下面是 Open AI 官方发布文章对于 GPT-4 的评价:
虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
我们花了 6 个月的时间 使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)
原文链接:https://zhuanlan.zhihu.com/p/614649608