GPT3.5和GTP4亲测体验

453次阅读

GPT4 的发布，让已经处于风口的 ChatGPT 又一次迎来了高潮。
本文通过最新的 Plus 版本对 GPT3.5 和 GPT4.0 两种模型的回答进行简单的比较 GPT4 新特性包括

1. 逻辑能力更全面了

2. 拥有识图能力了

3. 回答更加有条理，理解更加准确

4. 创作力大幅提升

逻辑能力的提升

首先给发给他一个最简单的问题，“你是谁？”，对它的回答你品，细细品。3.5 显得还有点卑微，4.0 隔着屏幕能感受到他的自信。

但从第一个问题回答的体验上来看，GPT4.0 的速度直接回到了之前的免费版，虽然没有了丝般顺滑的体验，但是却给了我们一个更加稳定从容的 AI 助手。

第一张截图里面问他，你是谁的时候，就可以感受到 4.0 的回答明显更加沉稳。

试着给他丢了一道脑经急转弯（前提并没有告诉他我要给他脑筋急转弯），4.0 的回答明显感觉更加能说到点上，虽然用的谜语这个词，但多少有点脑筋急转弯的味道了。

4.0 的回答如下：

3.5 的回答如下：

给人的感觉 3.5 是有点为了说而说，但其实有不少是废话；而 4.0，相比之下就显得精干很多。

再将它角色带入，告诉 ChatGPT 接下去要玩脑经急转弯，并把上面的问题发给它，

3.5 的回答如下：

4.0 的回答如下：

看到 3.5 的回答，我笑出来了，心想你果然是个傻 *，就知道瞎编。然后顺手再给它一次机会，但回答依旧一般。

满怀期待地试了 4.0，结果并没有，但再给它一次机会之后，回答正确了，获取 GPT4.0 它真的可以思考？

拥有识图能力

拥有多模态能力，是 GPT4.0 的一个重大的功能改进，所谓的多模态，其实就是 GPT 的识别内容的升级，原本它只能识别出文本文字，而现在它可以识别图片里面元素并对图片内容进行理解理解。

但图片的识别功能并没有进入到公开测试阶段，大家也只能通过演示体验其他的厉害之处。但也可以找一些替代方案，可以先自己适当地做点功课，比如：https://github.com/yangjianxin1/ClipCap-Chinese，但我相信，GPT4.0 的识图能力远比前面那个 github 项目要强。

回答的更有条理

试着向他们问了另外一个问题：“1+ 1 在什么情况下不等于 2”

3.5 输出：

4.0 输出：

经过对比发现，明显 4.0 在回答上面更加合理并且让人理解，而 3.5 回答给人感觉不是那么直接且有有说服力。

创作能力的不断提升

测了下官方的例子，

Explain the plot of Cinderella in a sentence where each word has to begin with the next letter in the alphabet from A to Z, without repeating any letters
以一个句子解释灰姑娘的情节，其中每个单词必须以从 A 到 Z 的字母表中的下一个字母开头，不重复任何字母。

GPT3.5 的回答如下：

Autumn, before Christmas, Cinderella dances, enamored, forlorn, graceless, hoping invitations justify kindness, lost memories nearly obliterated, prince questions royal suitors, till unforgettable, victorious wedding, xylophones yelping, Zephyr applauds.

秋天，在圣诞节之前，灰姑娘跳舞，迷恋，失落，没有优雅，希望邀请证明善良，失去的回忆几乎被抹去，王子质疑皇家求婚者，直到难忘的胜利婚礼，木琴尖叫，西风鼓

GPT4.0 的回答如下：

Alone, bullied Cinderella dreams; eventually finds glamorous happiness, invited joyfully; kisses love, marries noble prince; quickly restores serenity, triumphing ultimately; vanquishing wicked, xenophobic yahoos, zealously.

孤独、受欺负的灰姑娘做梦；最终找到了迷人的幸福，欢快地应邀；热吻爱情，嫁给高贵的王子；迅速恢复宁静，最终获得胜利；热情地战胜邪恶、排外的莽汉。

你们觉得，3.5 和 4.0 谁强谁弱？

总结

GPT4.0 整体来说比 GPT3.5 强大了很多，但仍然是不完全可靠，对输出来的得内容还是要保持谨慎甄别的能力，

但是 GPT4.0 慢是真的慢。

下面是 Open AI 官方发布文章对于 GPT-4 的评价：

虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。例如，它通过模拟律师考试，分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。
我们花了 6 个月的时间使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4，从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果（尽管远非完美）

原文链接：https://zhuanlan.zhihu.com/p/614649608

正文完

发表至：资讯

2023-07-27