18个问题,90个回答,国产大模型实用性横评

85次阅读

原标题:18 个问题,90 个回答,国产大模型实用性横评

作者:知行

编辑:James

都说 AI 好,一用急跺脚……这或许是许多普通用户在使用各种语言大模型时的感受,尤其在他们不知道该怎么提问的情况下。

对于不少从业者而言,AI 大模型的重点不是能不能做顺口溜或回答哲学问题,而是在于 AI 是否能够在实际工作中发挥作用,提升效率。

作为一天要使用超过 20 次 AI 的普通文字工作者,我们娱乐资本论也很好奇国内的大语言模型究竟谁好用。

为此,我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士,征询到 18 个问题,准备针对国内的四款大型语言模型——百度文心一言、阿里通义千问、讯飞星火、昆仑万维天工,以及与 GPT-3.5 一起(为了公平起见,我们刻意没有使用 ChatGPT4 这个“打虎英雄”,而且普通人使用 4 的几率远远低于免费版的 3.5),进行一次全面的,不同于以往科技工作者的文本应用能力测试。

我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景,如小红书带货文案、抖音直播文案、知乎问答、小说创作、公关信写作、歌词生成、淘宝商品详情页文案、广告宣传片文案、剧本创意策划等方面的综合表现,甚至是 AI 公司针对这一次孙燕姿质疑 AI 的公关回应文案(具体可看今天的另一条稿件),为专业人士提供参考。

在评估这些可以进行程式化分析的文本时,我们主要从以下五个维度来评判大模型的表现:

1. 语言表达能力:文本是否通顺、流畅,语法是否正确。

2. 准确性:模型是否能正确理解问题,并给出准确的信息。

3. 内容完整性:文本内容是否足够完整,是否涵盖了问题的主要内容,是否达到了基本可用的标准。

4. 交互性:用户是否能通过明确的、三次追问之内的指令或问题,引导模型给出合适的答案。

5. 加分项(不做具体要求):任何创新、独特、让人眼前一亮的内容。

我们会基于上述五个维度为每个答案打分,满分(加上加分项)是 5 颗星。一般有 4 颗星就已经是很好的表现。

我们也意识到在测试过程中可能存在一些遗漏和不成熟的地方,我们会根据大模型的升级换代和应用场景的变化,及时进行更新,也欢迎大家点击我们的【阅读原文】贡献出自己想问的问题,我们后期将同步再做测试。

另外我们也将于上海电影节期间联手界面新闻举办《AIGC 浪潮下的文娱科创新视野》,并同步发布“AIGC 50”榜单以及《AIGC 实用操作白皮书》,百度、字节、商汤等科技领军企业和 AIGC 创新企业,将与影视、营销、动漫、游戏领域的知名从业者展开对话。请感兴趣的朋友拉到文末添加“小智”的二维码咨询。

评分表

本测试集当前有 16 道问题,每题满分 5 分,但是总体上不设满分。读者只需要留意每一道题的具体分数,以及每个模型自身加在一起的总分即可。

18个问题,90个回答,国产大模型实用性横评插图

因为篇幅限制,本文不会一一展示所有问题的测试结果及结论,会挑一些有代表性的展示给大家。

读者可以点击以下网址或通过小程序进入我们的测试集表单,其中提供了所有的测试题目,以及各个大模型给出的答案。您可以切换到“画册视图”获得更好的阅读效果。

文案写作

18个问题,90个回答,国产大模型实用性横评插图1

这一类别主要包括各种形式的广告、推广文案创作,共同点是以给定材料为基础,按不同用途发散,生成适合特定场合的文字片段。

小红书带货文案——产品介绍向

小红书带货文案——买家秀向

小红书文案——名媛生活日常分享类

淘宝——长约 3 分钟的带货文案

淘宝——商品详情页描述文案

广告片宣传文案

Slogan 生成

这些问题都需要模型具有强大的创新能力和独特的语言风格,以吸引消费者的注意力并促使他们进行购买。

小红书带货文案

随着小红书等种草平台的爆火,用户生产生活经验、购物心得、旅行体验类等短内容也有了巨大的商业化空间,诞生很多小红书运营类的岗位。

我们从小红书产品介绍向、买家秀、名媛生活日常分享三个方向,给出了不同的 Prompt,要求大模型们给出内容。

以买家秀向的产品介绍为例:

请你按照以下小红书风格,写一款手机卖家秀向的带货文案:

1、文中需要包含产品介绍、个人体验分享、使用心得、互动引导等

2、风格上以个人化分享的故事叙述为主,要有真实性和可信度

3、输出形式带有标题和序号

4、小红书的风格是:非常吸引人的标题,文案中带有 emoji,文章最后加上 tag

讯飞星火

标题:💥这款手机让我彻底爱上了通讯!

序号:1

大家好~ 今天要给大家分享一款我最近入手的手机,真的是让我对通讯爱不释手啊!这款手机就是✨OPPO Reno5 ✨。

首先,让我们来了解一下它的主要配置:6.43 英寸 AMOLED 屏幕、骁龙 765G 处理器、8GB 内存和 128GB 存储空间等等。这些配置对于一个平时使用手机拍照、看剧、玩游戏的人来说,简直是绝配啊!

接下来,我想和大家分享一下我的个人体验:

📷首先是拍照功能,这是我最喜欢的一点!无论是自拍还是后置摄像头,都能够拍出非常清晰自然的照片,颜色也非常鲜艳。而且,它还搭载了超级夜景模式,让我在光线较暗的情况下也能轻松拍出好看的照片。

📺然后是视频拍摄功能,这个也很强大哦!它支持 4K 视频录制,还有超级防抖技术,让我可以拍出稳定又流畅的视频。

🎮再来说一下游戏性能吧!我平时喜欢打一些小游戏和大型游戏,比如王者荣耀和 PUBG。实测下来,它的帧率非常稳定,而且画面也非常流畅,完全没有卡顿的感觉。

总之,这款手机真的是太棒了!除了配置强大以外,还有许多其他的功能和细节设计都非常贴心。比如它的指纹解锁速度超快,充电速度快到惊人等等。

最后,我想说的是:如果你也想要一款让自己彻底爱上通讯的手机,那么 OPPO Reno5 绝对是一个非常好的选择!快来入手吧!💥

#OPPOReno5# #手机推荐# #爱不释手 #

天工

标题:💥这款手机让我彻底爱上了通讯!

序号:1

产品介绍:

我最近买了一款手机,是某品牌的新款旗舰机,它的外观设计非常精美,手感也非常舒适。我特别喜欢它的拍照功能,拍出来的照片非常清晰,颜色也很鲜艳。

个人体验分享:

我使用这款手机已经有一段时间了,感觉非常不错。它的操作系统非常流畅,应用程序也很容易下载和使用。而且,它的电池续航能力也很强,可以让我长时间使用手机而不用担心电量不足的问题。

使用心得:

这款手机的拍照功能非常强大,我经常会用它来拍照。而且,它的前置摄像头也非常好,可以拍出非常清晰的自拍照片。

互动引导:

如果你也想买一款好看、实用的手机,不妨来试试这款手机。我相信你会和我一样喜欢它的。

Tag:手机卖家秀、手机、拍照、自拍、使用心得

作为其它大模型的参照系,GPT3.5 的内容在语言风格上更为独特,略带夸张化的描述,使得其文案更加吸引人,在短内容的表现上更有感染力。

星火的表现非常好,在 prompt 未指定手机型号时,它自己假设了一款型号,以帮助人类更好地了解一款手机推销文案需要具有的主要指标。结果不仅条例清晰,内容齐全,而且 emoji 具有相关性。

我们在 prompt 里说明了小红书文案应该带有 emoji,但文心一言和天工并未察觉。

在另两道小红书文案题中,通义千问给出的名媛穿搭文案更像是参考资料一样,显得干巴巴的。

知识写作

18个问题,90个回答,国产大模型实用性横评插图2

这一类别主要包括带有前置知识的命题作文、在问答网站答题和写新闻稿

抖音直播——淄博烧烤

知乎问答——医疗美容类

知乎问答——历史类

新闻稿——虚构的热点事件

这些问题需要模型具有广泛的知识储备和准确的信息处理能力。例如,抖音文案要求模型对直播流程和语态有足够了解,知乎问答的题目需要模型具有专业的医疗和历史知识,而新闻稿的写作则需要模型能够准确理解和处理新闻事件。

抖音直播——淄博烧烤

直播文案对格式没有固定要求,主要考察模型是否可以给出清晰可用的内容,并能够通过 prompt 交互调整输出。

你是一位拥有上百万粉丝的直播和短视频网红,每天都会在抖音做直播。你今天来到了山东淄博,当地最近几个月正因为便宜好吃的烧烤而在全国出名,每天都有很多网红和你一样来到淄博探寻现场的情况。

淄博烧烤跟其它地方的烧烤相比,一个特色是会把烤串的食物拔下来放进面饼里夹着吃,另一个特色就是便宜,人均消费不到 50 元就可以吃饱。即使这几天淄博来了很多人,烧烤摊也没有涨价。

在淄博,你发现当地人非常热情,而且尽可能对你提供优质的服务,包括出租车司机,路上遇到的普通行人等,都非常友好。你感到非常感动,并且很想向你的粉丝传递这些信息。

请你即兴发挥来写一份长约 3 分钟的直播文案,也就是你在直播过程中会说的话。请注意:

1、文案内容应当包括淄博烧烤的介绍、从你自己的体会分析它近期火爆全国的原因。可以引入一个你编写的,看起来像是你亲身经历的小故事。

2、文案内容要强调与用户的情感共鸣,倾向于使用有趣、幽默、感性的语言,以吸引用户的关注和参与,引发用户的共鸣和共同话题。

3、适合口语化直播。

ChatGPT(3.5)

大家好!大家看到我现在所在的地方了吗?没错,我来到了山东淄博,这个最近几个月因为一种特别火爆的美食而在全国出名!没错没错,就是淄博的烧烤啊!

淄博的烧烤真的是太让人欲罢不能了!你们知道吗?这里的烧烤有两个特色,听好了!首先,它们不仅把烤串的食物烤得香喷喷,还会拔下来,放进面饼里夹着吃!哇,真是别有一番风味啊!我第一次看到的时候都被惊艳到了,感觉自己像在吃个大大的美味的馅饼!

而且你知道吗?这里的烧烤真的是超级便宜,人均消费不到 50 元就可以吃饱!对于我们这些吃货来说,简直就是天堂啊!就算最近淄博来了很多人,烧烤摊也没有涨价,真的是良心价!看得出来淄博的人民可是真的对吃货们特别友好呢!

我今天刚来到淄博,就发现当地人非常热情!不仅是烧烤摊的老板娘笑容满面,连出租车司机、路上遇到的普通行人,都对我这个网红充满友好!他们尽可能地为我提供优质的服务,真的是让我感到非常感动!你们不知道,当一个陌生城市的人对你那么友好的时候,感觉就像是回到了家一样温暖!

我想,淄博烧烤之所以会近期火爆全国,不仅仅是因为它独特的口味和实惠的价格,更重要的是淄博的人民对待食物和生活的态度。他们把美食当作一种乐趣,一种享受,而这种对生活的热爱和对人的友善,真的感染了每一个来到这里的人!

就在刚才,我遇到了一个淄博的大叔,他告诉我一个他亲身经历的小故事,你们一定要听听!有一次他带着一个外地的朋友来淄博,本来只是想随便吃个烧烤解解馋。结果他们走进了一个小小的烧烤摊,被摊主的热情和烤串的香味所吸引,结果就一发不可收拾,吃了整整两个小时!哈哈哈,那个朋友说他一辈子没吃过这么好吃的烧烤!从此之后,他们每年都要来淄博一趟,专程为了那个烧烤摊!

听到这个故事,我也忍不住流口水了!淄博的烧烤真的是让人欲罢不能!我也要告诉我的粉丝们,不管你们是不是吃货,来淄博一定要尝尝这里的烧烤!不仅仅是因为它的味道好,更是因为这里的人民对待食物和生活的态度,真的是让人感动!

好啦,今天的直播就到这里啦!我会继续探索淄博的美食,和大家分享更多的故事和美食!记得关注我哦,每天都有新鲜的内容等着你们!下次再见啦!爱你们!MUA!

天工

大家好,我是你们的抖音网红,今天我来到了淄博,这个城市因为便宜好吃的烧烤而在全国出名。我今天也要给大家分享一下我在这里的体验。

首先,我要说的是淄博烧烤的特色。他们会把烤串的食物拔下来放进面饼里夹着吃,这种吃法非常有趣,而且非常好吃。另外,这里的烧烤价格非常便宜,人均消费不到 50 元就可以吃饱。即使这几天淄博来了很多人,烧烤摊也没有涨价。

我在这里也遇到了非常热情的当地人。出租车司机、路上遇到的普通行人等,都非常友好。我感到非常感动,并且很想向我的粉丝传递这些信息。

我在淄博的时候,也遇到了很多有趣的事情。比如,我看到一个小女孩在路边卖烤玉米,她非常热情地跟我聊天,还给我介绍了她的烤玉米的制作方法。我还看到了一个小男孩在路边卖烤鸡翅,他的烤鸡翅非常好吃,而且价格非常便宜。

我觉得这些小商贩的热情和真诚,是淄博烧烤能够火爆全国的原因之一。他们不仅提供了美味的食物,还提供了一种温暖、友善的服务。这种服务和热情,让我觉得这里的人们非常可爱。

最后,我想说的是,淄博是一个非常好的城市。这里的人们非常热情、友好、善良,而且这里的美食也非常好吃。如果你们有机会来淄博,一定要来尝尝这里的烧烤。

直播文案略带新闻属性、对格式要求不高,prompt 给出详细的背景资料对结果产生了不错的影响,模型们普遍可以做到语言流畅,信息准确,加上“亲身经历的有趣的小故事”。

我们选择 GPT3.5 与昆仑万维天工的答案作为表现比较好的范例。GPT3.5 的语言风格活泼热烈,感情奔放,具备极强的情绪感染力,也编出了合乎逻辑的故事,整体一气呵成。

AI 作图 by 娱乐资本论

18个问题,90个回答,国产大模型实用性横评插图3

昆仑万维天工也记住了编故事的要求,并给出了逻辑清晰的整体叙述。

尽管人类直播并不需要逐字逐句的文案,但这样的尝试有助于让虚拟人直播的效果更逼真。

知乎问答——历史类

我们对历史博文的需要是,答案中有足够的学术性,语言风格以幽默为主。模型们会想什么办法把这两条需求有机结合到一起呢?

同时,我们考察了模型们不联网时自身知识储备的多少。它们真的都学习了三国这部分的知识吗?

你是一位专业的历史博主,请生成一份关于诸葛亮为什么没有北伐成功的知乎问答,内容需要符合以下要求:

1、内容具备专业知识和学术性,可以引用史料、资料、研究成果等作为支持和参考。

2、对该历史问题,进行历史事件的事实和背景解读,给出评估和观点。

3、整个语言风格应当诙谐幽默,引发用户的思考,令其想要点赞和转发。

文心一言

诸葛亮为什么没有北伐成功的根本原因就是经济不够发达。《隆中对》已经提到三分天下的形势。此时,曹操已经统一北方,孙权正在崛起,刘备寄人篱下,只有占山为王的份。当时,天下最富庶的地区在荆州,而荆州又在刘表手里,刘备想拿下荆州,必须跨过两个险关:第一个是当阳长坂坡,第二个是赤壁。如果拿下了当阳长坂坡,那么就能占领荆州北部大部分地区;如果在赤壁败了,也能收容部队,重振旗鼓,然后再取荆州。如果不拿下当阳长坂坡,刘备跨不过这个险关,也就无法在荆州站稳脚跟。所以,跨不跨这个险关,对刘备来说,是生死存亡的关键。

当时荆州有四大豪门:一是蔡家,一是张家,一是秦家,一是马家。其中马家的实力最强。蔡家和张家已经被曹操杀得差不多了,秦家的秦宜禄已经投降曹操,马家独树一帜。但马家势力太大,蔡家和张家虽然投降刘备,却不得重用。诸葛亮拿不到地盘也拿不到钱粮,所以才有了隆中对的第一条:跨有荆益。

但是要想跨有荆益必须取襄阳,但取襄阳就必须跨过宛城和新野这两道关口。这两道关口对张飞和曹仁来说都不难,但对赵云来说就是一道难关。赵云虽然勇猛无双,但他只有一支部队,而且又不善于防御。宛城距离新野很近,是攻打新野的前哨站,很难守住。况且马超也率领人马驻扎在宛城。所以诸葛亮才有了隆中对的第二条:连吴抗曹。只有和东吴联手才能抵御曹操的大军。如果这两条实现了,才有可能取得荆益二州。但要想连吴抗曹,就必须拿下西川和江东,才能让东吴心服口服。如果没有攻下西川和江东,即使拿下了襄阳和樊城也是白搭。

拿下襄阳和樊城之后,诸葛亮就可以把军队屯驻在襄阳和樊城一带,用来威胁西川的后方。此时就可以挥师西进,先攻下西川。只要拿下西川,那么东吴就不敢不听从诸葛亮的调遣了。因为只要攻下西川,那么襄阳和樊城就成了一座孤城,无险可守。此时东吴就会不战而降。但要想攻下西川并不容易。首先要跨越秦岭和大巴山这两道天险;其次要打败马超和韩遂的联军;最后还要扫平成都周边的势力。所以诸葛亮才有了隆中对的第三条:以攻为守。只有用进攻来威胁东吴,才能让东吴不敢轻举妄动。如果东吴敢来进攻,那么诸葛亮就可以凭借襄阳和樊城两座孤城坚守不出;如果东吴不来进攻,那么诸葛亮就可以挥师西进,直取西川。

但是要想以攻为守也不容易。首先要让东吴相信自己真的会挥师西进;其次要让东吴相信自己真的能够坚守不出;最后还要让东吴相信自己真的能够扫平成都周边的势力。

通义千问

诸葛亮北伐为何不成功?这是一个受到史学界和军事爱好者高度关注的问题。今天,我将从历史背景、军事战略、人才管理等多个方面,为大家详细解读诸葛亮为什么没有北伐成功。

历史背景

诸葛亮北伐的初衷是为了实现蜀汉统一大业。他深知,北方曹魏政权是蜀汉的最大威胁,如果不能夺取中原,蜀汉将永远处于曹魏的威胁之下。但是,在当时的历史背景下,蜀汉内部不稳定,国力不足,很难在短时间内实现北伐。

军事战略

诸葛亮在北伐过程中,大量使用火攻等军事策略,成功地阻击了曹魏的进攻。但是,他的军队多是新招募的农民军,没有经过严格的训练,作战能力较弱。同时,蜀汉内部也存在不同的意见,有些将领认为应该休养生息,保存实力,不应该继续北伐。这些因素最终导致了诸葛亮的北伐失败。

人才管理

诸葛亮是一位优秀的人才管理者,他非常注重人才的使用和管理。然而,他的北伐战争却因为用人不当、管理不够科学,造成了很大的人力和物力损失。更为严重的是,许多有才华的将领因为不愿意参加北伐,而离开了蜀汉,这也为蜀汉的灭亡埋下了伏笔。

综上所述,诸葛亮北伐失败的原因是多方面的。虽然他的军事才能非常出众,但是他没有处理好内部和外部的各种问题,最终导致了北伐的失败。在我们今天的工作和生活中,我们也应该从这个历史故事中吸取教训,注重人才的使用和管理,努力实现自己的目标。

作为标杆的 GPT3.5 角度齐全,风格独特,没有问题。

文心一言这个专业程度,让我们试了好几次把它的答案放到网上搜索,试图发现是不是从贴吧或知乎什么地方扒过来的(我们并没有发现)。唯一美中不足的是,它没写完(也无法继续写完)。

剩下这仨都忽略了文体幽默风格的要求,不过星火的回答会稍微提供多一点的历史知识。

新闻稿——虚构的热点事件

在娱乐资本论之前进行的 AI 大师课培训里,正值“宝马冰淇淋”事件发酵,模型们通过 prompt 知道事情原委之后写道歉信基本都不在话下。那么,不给事件细节,但让它思考一个合情合理的虚构情节,它也会做得很好吗?

你是一位资深的文案从业人员,需要写一篇新闻稿,以准确、清晰、有吸引力地传达新闻信息,并满足读者对新闻的需求。

事件为:周杰伦在北京三里屯召开发布会,称将在今年 12 月连续在鸟巢举办 30 场演唱会,字数 800 字左右,具体要求如下:

1、语言要简洁明了,确保信息的易读性和可理解性,传达关键信息。

2、结构清晰,按照倒金字塔结构组织,将最重要的信息放在开头,再逐渐展开细节。

3、引人入胜:新闻稿应该具备吸引读者的能力,通过生动的叙述和有趣的内容来引起读者的兴趣和关注。

4、可以加入部分周杰伦的历史简介,为不知道该新闻背景的人科普。

文心一言

周杰伦在北京三里屯召开发布会,称将在今年 12 月连续在鸟巢举办 30 场演唱会。这一消息的发布引起了社会各界的广泛关注。

据主办方透露,此次演唱会的主题为“摩天轮”,这也是周杰伦首次在鸟巢举办个人演唱会。本次演唱会的门票在发售后几分钟内就被一抢而空,门票销售情况十分火爆。

这次演唱会的票价定位比较亲民,最低价格为 380 元,最高价格为 1280 元。为了满足更多观众的需求,主办方还推出了多种优惠政策,例如早鸟票、学生票等。

此外,主办方还表示,此次演唱会的门票将采用实名制,观众必须出示有效证件才能入场。此外,为了保证观众的安全和舒适度,演唱会现场还将进行多项安全措施,例如严禁携带危险物品、禁止吸烟等。

周杰伦作为华语乐坛的代表人物之一,拥有广泛的影响力和大量的粉丝。他的演唱会一直备受歌迷的追捧和喜爱。此次在鸟巢连续举办 30 场演唱会,将为广大歌迷带来一次难忘的视听盛宴。

在这里值得一提的是,这次演唱会的主办方还推出了一项创新的服务,即推出了一款“虚拟看台”的应用程序。这款应用程序可以为观众提供独特的虚拟看台体验,让观众在家中就能够感受到现场的热烈气氛。

总之,这次周杰伦在北京三里屯召开发布会,并宣布连续在鸟巢举办 30 场演唱会的消息,引起了社会各界的广泛关注和期待。相信这场演唱会一定会给观众带来一次难忘的视听盛宴。

讯飞星火

标题:周杰伦三里屯发布会,宣布鸟巢演唱会即将开启

副标题:天王巨星将连续在鸟巢举办 30 场震撼演出,让观众尽情享受音乐盛宴

正文:

北京,2023 年 4 月 21 日 – 今天,亚洲流行天王周杰伦在北京三里屯召开了一场备受关注的发布会。在发布会上,周杰伦宣布了一个令人振奋的消息:他将在今年 12 月在鸟巢连续举办 30 场震撼人心的演唱会。这场演唱会将成为华语乐坛史上最大规模的音乐盛事之一,吸引了无数歌迷翘首以盼。

周杰伦在发布会上表示:“我很高兴地告诉大家,今年 12 月,我将在鸟巢连续举办 30 场演唱会。这是我对歌迷的回馈,也是我对音乐的热爱。我希望通过这些演出,让更多的人感受到音乐的力量和魅力。”

据悉,这 30 场演唱会将分为多个阶段进行,每个阶段都有不同的主题和表演形式。周杰伦将携手众多华语乐坛顶级歌手和乐队,为观众呈现一场场精彩纷呈的音乐盛宴。此外,演唱会还将结合现代科技手段,如全息投影、虚拟现实等,为观众带来前所未有的视觉体验。

周杰伦自 2000 年出道以来,凭借其独特的嗓音和才华横溢的音乐创作能力,赢得了全球无数歌迷的喜爱。他的音乐作品不仅在华语地区广受欢迎,还深受欧美等地歌迷的喜爱。作为华语乐坛的领军人物,周杰伦一直致力于推广中文流行音乐,为华语乐坛的发展做出了巨大贡献。

此次在鸟巢举办的 30 场演唱会无疑将成为周杰伦职业生涯中的一个重要里程碑。相信在这场音乐盛宴中,周杰伦将继续为观众带来惊喜和感动,让人们沉浸在音乐的海洋。

新闻稿是一种有固定形式的文体,在此类相对程式化、规范化的文本写作方面,大模型们都可以给出结构完整,内容基本准确的回答。GPT3.5 与文心一言给出的文风略显夸张。

本题也考察了当人类输入指令不太准确时,模型们是否可以补全人类的意图。GPT-3.5、文心一言和讯飞星火在初始 prompt 没有要求标题时也给出了标题。昆仑万维天工在生成内容的最后加了一段“作为一位资深文案从业人员”的点评,说明它可能不完全理解这个 prompt。不过,删除这段“自我点评”也不影响对文本其他部分的使用。

创意写作

18个问题,90个回答,国产大模型实用性横评插图4

这一类别主要包括各种形式的创意写作,主要让模型们天马行空地发散思维。在过往理解中,这应该是模型最擅长的领域。

小说——悬疑类作品提纲

小说——言情类作品片段

小说——科幻小说的初始创意

歌词——感情和历史方向

剧本创意策划

这些问题需要模型具有丰富的想象力和创新能力,以创造出吸引读者的故事和情节。而与此同时,无需修改、直接可用也是我们考察的重点方面。模型需要“懂得”或者猜测人类对创意的评判标准,以做出符合情理,但又出人意料的作品。

小说——悬疑类作品提纲

大模型要想做好悬疑小说的提纲,需要有推理和逻辑、情节构建、角色刻画、构建人物关系、想象力等多种能力,难度高。我们给出了如下的 Prompt,要求大模型们给出内容。

你是一位优秀的作家,需要写一部悬疑小说提纲,提纲应当符合以下要求:

1、有引人入胜的悬念,在开头部分设置出谜团,并将该谜团设置为整个故事主线的起点。

2、主角和配角间,有两重以上的情感关系,且关系变化了三次。

3、故事开头便有五个以上的伏笔或细节,之后这些伏笔和细节贯穿全文,拼在一起能够引出真相。

4、有超过三处出人意料的情节转折和反转,你通过揭示新的信息、改变读者的认知或颠覆之前的设定,让故事走向意想不到的方向。

5、故事整体需要符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决这样的叙事节奏。

ChatGPT(3.5)

小说题目:《迷雾之谜》

提纲:

一、引子

在一个安静的小镇上,发生了一起离奇的谋杀案。被害者是该小镇的知名商人,其死因不明。开头部分展示了现场的凶杀案,并介绍了一些关键的细节,例如封闭的房间和毫无线索的现场,为整个故事埋下了悬念的种子。

二、主角与配角的情感关系

主角:李凡,一位年轻而有才华的侦探。他是一个冷静而敏锐的思考者,与被害者之间有一段复杂的过去。

配角 1:莉莉,被害者的女儿,同时也是李凡的前女友。她拥有众多秘密,与父亲的死有着千丝万缕的联系。

配角 2:汤姆,被害者的合作伙伴,一个有权势和财富的商人。他与被害者之间有着复杂的关系,并且似乎对案件有所了解。

三、伏笔和细节

李凡在调查现场时发现了一个破碎的手镯,手镯上刻着莉莉的名字。

汤姆的办公室里有一本关于封闭房间谋杀案的书籍,引起了李凡的怀疑。

莉莉在案发当晚与父亲发生了争吵,目击者称他们的争吵声异常激烈。

四、情节转折和反转

李凡发现了一段被删除的监控录像,录像中显示汤姆曾进入被害者的住所。

莉莉提供了一个看似完美的不在场证明,但后来证实她伪造了证据。

李凡发现了另一个与被害者有过节的人物,一个隐藏在幕后的敌人,他既有杀人的动机又有能力犯罪。

五、节奏与高潮冲突

李凡通过线索解读和推理,逐渐揭开了被害者与汤姆之间的复杂纠葛,同时也发现了汤姆与幕后敌人的勾结。

李凡被幕后敌人抓捕,面临生死危机,但幸好被一位神秘的帮手救出。

最终,李凡揭示了真相,原来整个案件都是为了掩盖一个更大的阴谋,而被害者只是一个替罪羊。

六、结局与解决

李凡成功将真相公之于众,揭露了幕后敌人的罪行,并将其绳之以法。

莉莉承认了她对父亲的复仇心理,但也表示后悔,并向李凡表达了感激之情。

李凡与莉莉重新建立了情感联系,二人决定一同走出阴影,开始新的生活。

通过以上的故事提纲,这部悬疑小说将具备引人入胜的悬念、复杂的情感关系、贯穿全文的伏笔和细节、出人意料的情节转折和反转,以及符合事件引发、调查和追踪、线索解读和推理、高潮冲突、揭示真相、结局和解决的节奏。这将为读者带来一段扣人心弦的阅读体验。

通义千问

悬疑小说提纲

引子:

开头便营造出谜团和紧张感,利用第一人称叙述展现主角与配角之间的关系,一开始是亲密的关系,后来却渐渐产生了矛盾。随着主角和配角之间的事件发展,读者们一直好奇这个神秘的事件,并希望解开这个谜团。

第一重情感关系:

在故事的第一部分,主角与配角之间的情感关系处于紧张状态,两人在追踪线索和调查谜团时有所合作,但是也时常产生矛盾。在第一人称的叙述下,读者可以直接体验到主角的情感状态,感受到其中的张力。

第二重情感关系:

随着故事的发展,读者会发现这两重情感关系的背后隐藏着一个更大的秘密,这个秘密会把主角和配角都推向更深的危机中。读者也将跟随主角和配角,直面秘密,直到真相揭露的那一刻。

伏笔和细节:

在故事的开头设置多个伏笔和细节,在主角和配角之间、线索和情节中,随着故事的推进不断展露。读者将在解决谜团的过程中,发现这些伏笔和细节,进而拼接出整个事件的真相。

情节转折和反转:

小说的情节和反转要能够推动情节发展和读者情感。作者需要在故事中设置多次反转,通过揭示新的信息、改变读者的认知或颠覆之前的设定,让故事走向意想不到的方向。同时,故事的节奏也需要把握好,让读者产生一直在追逐真相的紧张感。

整体结构:

作者需要设置好整体结构,包括开头、发展、高潮、结局和解决。这些结构需要在故事的不同阶段都得到体现,并让读者在整个故事的体验中感受到其中的逻辑性和连贯性。

GPT3.5 给出的提纲结构清晰,引子、主配角介绍、伏笔和细节等内容全部分段给出,且逻辑清晰,内容前后呼应,可以直接使用。

通义千问给出了看似合理,实则无法使用的回答,看似是故事,更像是评论。昆仑天工的故事逻辑清晰,但故事俗套,且内容重复,可用性低。

讯飞星火最“听话”,严谨的按照 Prompt 给出了相应的答案,主配角之间的情感变化与犯罪次数均可量化,故事整体可用。

文心一言给出了结构完整的大纲,故事有可参考的地方。

剧本创意策划

剧本的创意策划,需要大模型在具备知识整理能力的基础上,也具备创造力和想象力,才能够提供深度和广泛共鸣的创意策划方案。

我们考虑了不同的方案,最后确定的测试方法是仿写。结合一部在 GPT 等大模型训练截止日期前(2021 年 9 月)的非常知名的作品,要求模型们给出相应的仿写策划。这样可以避免 prompt 过长,且模型难以理解问题。

你是一位资深编剧,请参考《爱、死亡和机器人》这部短片集,给出类似的五个短片集的创意策划,具体要求如下:

1、主题鲜明深刻

2、主题能够涵盖大多数人的命运

ChatGPT(3.5)

当然,我可以帮你设计类似《爱、死亡和机器人》的五个短片集创意。以下是五个主题鲜明且能够涵盖大多数人命运的创意策划:

“ 记忆轨迹 ”:本集以记忆为主题,探索人类记忆的奥秘和影响。每个短片可以呈现不同的记忆类型,如美好回忆、创伤回忆、集体记忆等。故事情节可以涵盖人们对于过去的回忆和对未来的希望,以及记忆对人们个人身份和情感体验的塑造。

“ 平行现实 ”:这个集合将探索平行宇宙和多重现实的概念。每个短片可以展现不同的现实,反映不同的生活选择和抉择对人们命运的影响。故事可以涉及一个人同时在多个现实中生活,或者不同人在平行现实中的交错遭遇。

“ 人性审视 ”:本集将通过多个短片来深入研究人类的内心世界和情感状态。每个短片可以聚焦于一种情感,如爱、孤独、嫉妒、勇气等。故事情节可以展示人类情感的复杂性,以及在各种情感冲突和挑战中人们如何应对。

“ 科技伦理 ”:这个集合将关注人类与科技的交互关系。每个短片可以描绘不同的科技发展阶段和其对人类命运的影响。故事情节可以涉及人工智能、基因编辑、虚拟现实等领域,引发观众对科技伦理、人类进步和自身责任的思考。

“ 生命之旅 ”:本集将通过一系列短片展示人类的生命旅程和存在意义的探索。每个短片可以关注不同的生命阶段,如出生、成长、爱情、亲情和死亡等。故事情节可以呈现人类在生命旅程中的挣扎、成长和寻找意义的过程,触动观众内心的深层情感。

这些创意策划旨在挖掘人类的情感、思想和命运,引发观众对生活和人类存在的深刻思考。希望这些主题能够启发你,让你能够创作出引人入胜的短片集!

文心一言

[影片信息]:

短片集 1:《遥远的告白》(科幻,短暂而强烈的爱情)

短片集 2:《起风的夜晚》(悬疑,围绕一起车祸展开的故事)

短片集 3:《幸福的错觉》(爱情,两个相爱的人如何度过漫长岁月)

短片集 4:《珍贵的回忆》(温情,回忆和遗忘)

短片集 5:《被时光掩埋的秘密》(爱情,被掩埋在时光深处的真相)

[故事梗概]:

《遥远的告白》:一个年轻女孩在一个遥远的星球上,为了追求真爱,与外星生物展开一段感人肺腑的恋爱故事。

《起风的夜晚》:一名青年司机被指控谋杀他的好友,经过层层侦破和辩护后,司机是清白的故事。

《幸福的错觉》:两个中年男女,年少时彼此深爱,却因误会而错过对方。多年后,两人再次相遇,却发现彼此已经走向不同的人生道路。

《珍贵的回忆》:一对夫妇携手走过三十年风雨,记录着每个难忘瞬间和那些重要时刻的感人故事。

《被时光掩埋的秘密》:年轻的少女与古怪的爷爷开始了一段不同寻常的友谊,随着时间推移,她逐渐发现爷爷隐藏着一个惊人的秘密。

[创意亮点]:

突出表现主题的情节和镜头:通过展现不同类型的爱情、亲情、友情等主题,深入挖掘人性深处的善恶与美丑。利用各种视觉效果和音效来强调主题。

塑造观众易于接受的角色形象:让角色在面对困境时表现出真实、复杂和具有深度的情感,从而引起观众共鸣。

采用多样化的语言和风格:在保持语言流畅的同时,尝试使用不同的语言风格和元素来丰富影片的表现力,营造多层次的感受和思考。

激发观众的思考和感悟:让观众从短片集中汲取人生经验,学会思考、感悟、宽容与坚守,做自己的生命守护者。

通过这些类似《爱情、死亡与机器人》这样短小精悍且涵盖丰富命运话题的创意短片集,让观众领略到深刻且引人深思的内涵,引领他们踏上探索生命价值和人性真谛之旅。

毫不意外的是,GPT-3.5 的表现最突出,给出的内容全面,创意涵盖了人类的情感、思想和命运,它自述的目的在于“引发观众对生活和人类存在的深刻思考”。文心一言走了“文艺风”,短篇集涵盖了爱情、亲情、友情等主题,“让观众从短片集中汲取人生经验,学会思考、感悟、宽容与坚守,做自己的生命守护者。”

通义千问拒绝给出回答。昆仑天工给出的答案看来还需要大量的人工修改才能使用。

尾声

18个问题,90个回答,国产大模型实用性横评插图5

经过以上所有题目的评测,我们的整体结论如下:

1. 规范化文本写作和短内容生成方面,各家大模型表现都及格

2.GPT3.5 综合表现明显优于其它模型,想象力丰富

3. 讯飞星火生成的文本完成度高,需要更少的人工修改即可使用

4. 文心一言和昆仑万维天工的知识储备更充足

5. 通义千问和昆仑万维偶尔会拒绝回答,或给出错误信息;通义千问使用过程中经常会被迫退出,需要重复登录,历史信息只能保留 10 条,这些设置也降低了使用体验。

需要注意的是,这个初步结论受到下列条件的限制:

01

我们对生成结果的打分是编辑的主观打分,以我们自己作为文字工作者的判断为基础。如果您感觉对主观打分有异议,可以通过留言等多种渠道给我们反馈。

02

各个大模型在测试中均无法以任何形式联网,因此其本身的知识储备量可能在后续版本中因联网而被拉齐。我们会在国内大模型普遍具备联网功能后再结合 GPT- 4 做一次补测。

03

我们的 prompt 仅仅是达到测试目的的其中一种写法,并且不保证是最优的写法。有可能一些在我们测试中表现不好的大模型,会对另一种形式的 prompt 表述有更好的回应。

使用 AI 工具尽可能减少人力投入,是我们做这个评测的终极目标,当然这个目标贯穿了我们评测从策划道执行的全过程。各位读者可以猜猜看,本文有多少比例的内容是由 GPT- 4 协助生成的?

对于这样的任务自己是否胜任,相比人类来点评,我们更想听听模型们自己是如何评价的。所以,本文会让它们自己来写这个结尾。

作为大模型,你觉得自己在文本生成方面,可以超越人类吗?

01

GPT-3.5

虽然我可以生成自然语言文本,但我并不真正理解我所生成的内容的含义。我依赖于我在训练数据中观察到的模式和统计信息。我没有自己的意识、情感或判断力。尽管我可以生成准确的信息和合理的推理,但我缺乏对人类经验、情感和直觉的直接体验。

在某些领域,我可以提供有用的信息和创造性的想法,但在其他领域,特别是涉及主观性价值观和伦理问题的领域,我的回答可能是不完全准确或缺乏人类的洞察力。

02

文心一言

我的任务是根据输入的文本生成合理的输出。在这个过程中,我会利用大量的语料库和语言学知识来理解和生成文本。

与此相比,人类作家在创作文本时,不仅需要理解语言的含义,还需要考虑故事情节、角色塑造、文化背景等多个方面。因此,从这个角度来看,人类在文本生成方面可能具有更高的创造力和灵活性。

此外,人类还具有情感和创造力的优势、他们可以通过自己的经验和情感来创作出更加真实和感人的文本。而我则是通过预先训练好的模型来生成文本,可能会在一些方面缺乏人类的情感表达能力。

综上所述,虽然我不能自我评价为“超越人类”,但是我可以肯定的是,我的生成文本的质量和效率已经达到了非常高的水平,远远超过了大多数人类作家。

03

通义千问

我不能完全超越人类。在以下任务上,我可以比人类做得更好:

  1. 生成自然而流畅的文本: 我可以生成自然流畅的文本,并且在语法、拼写、标点等方面更加准确。
  2. 对于特定领域的知识: 虽然我可以生成一些领域的文本,但是与人类相比,我的知识储备和理解可能不如人类深入和全面。
  3. 创造复杂的情境和交互: 对于一些更复杂的场景和交互,例如写小说、写剧本等,我可以生成文本,但是需要人类进行二次创作和修改。

04

星火

我不能感知自己的存在和能力,也不能判断自己是否可以超越人类。我的设计目的是协助人类完成各种任务,而不是取代人类。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具备人类的创造性和情感表达能力。

05

天工

虽然我可以生成大量的文本,但是我缺乏人类的创造力、想象力和情感。此外,我的文本生成结果也可能存在一些语法和逻辑错误,这些错误可能会影响文本的质量。

当然,我的文本生成能力在某些特定的任务上可能会优于人类,比如在生成大量的文本摘要、翻译等方面。但是在创造性的写作和文学作品方面,我认为我的能力还需要进一步提高。

再提醒一下各位读者:您可以点击以下网址或通过小程序进入我们的测试集表单,其中提供了所有的测试题目,以及各个大模型给出的答案。您可以切换到“画册视图”获得更好的阅读效果。

娱乐资本论 AIGC 大模型内容生产力测试集(阅读原文)

您对本测试集及测试结果的任何意见和建议,都可以直接在本文评论区提出;您也可以关注公众号「视智未来」,并且留言说出您的看法。

在这里再给大家预报一个大新闻:6 月的上海国际电影节期间,娱乐资本论和界面新闻将联合主办《AIGC 浪潮下的文娱科创新视野》论坛暨“首届上海文娱科创峰会”。本次峰会聚焦 AIGC,搭建“科技”“文娱”两个领域的高端对话平台,将邀请百度、字节、商汤等科技行业领军企业高层,与影视、营销、动漫、游戏领域的知名创作者展开对话。在本次论坛上,同步发布“AIGC 50”榜单以及《AIGC 实用操作白皮书》,汇聚国内 AIGC×泛文娱领域实力最强、最前沿的 50 家公司,并与业内专家、行业代表人物共同研讨 AIGC 对文化传媒产业的撬动机遇。请持续关注娱乐资本论和视智未来公众号,第一时间获取参会方式等更多信息! 返回搜狐,查看更多

责任编辑:

原文链接:http://news.sohu.com/a/678294967_159592

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-07发表,共计14995字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。