文心一言、GPT3.5及GPT_4的应用测评对比

118次阅读

2023 314OpenAI 发布最新版本多模态大模型 GPT-4 及其 API;百度 316日发布 后,生成式大模型 文心一言 并开放邀请测试。为对比国内外大模型在各领域的性能差异,国金证券研究员 对文心一言、ChatGPT 的原模型 GPT-3.5GPT-4 的问答表现分别进行了测评。测评 范围 涉及 5 个方面,分别是 常识和创作、归纳和推理、数学 代码、应用等方面。

在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文心一言的分词功能有待提升;目前 GPT-4 尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。

在归纳和推理类问题中,包括演绎推理、情感推理、逻辑推理、主体信息抽取等方面,文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中 仍有提升空间。

在数学和代码类问题中,GPT-3.5 有更好的数学能力表现;GPT-3.5 GPT-4 模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。

在应用场景测试中,三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。

文心一言、GPT-3.5GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。

百度文心合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。

原文链接:https://baijiahao.baidu.com/s?id=1760943529250881654&wfr=spider&for=pc

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-27发表,共计824字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。