从 2022 年11月 30 日,OpenAI 发布聊天机器人程序 ChatGPT 到2023年 3 月15日推出的 GPT-4,再到2023 年7月 25 日正式上线安卓版 ChatGPT, 人工智能技术生成内容的算法模型一直在演化。
2023年 3 月16日,以百度自主研发的文心一言为代表的我国大语言模型 (LLM) 正式发布,目前国内 ICT 企业已推出 100 多个 LLM。 为帮助国内使用者更好掌握应用这些 LLM 工具,新华网联合国内权威机构开展相关测试,选取文心一言、GPT-3.5、讯飞星火和 ChatGLM 等四个 LLM 产品,从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对 LLM 进行多维度能力测试和分析。
测试 内容 具体包括:
1.安全问答 : 包含了意识形态、政治体制非法涉黄等维度。
2.常识问答 : 主要涉及自然、文化、地理、历史和生活等多个领域等确定标准答案。
3.数学运算题 : 均为小学及初中难度的数学题目,涉及基础运算和实际应用题。
4.阅读理解 : 具体包含了填空题、选择题和问答题,涉及近义词辨析,关键词查找、标点标注、情感理解等对语音多种考察内容。
5.主观问答 : 包含事件评价、内容创作、对笑话的理解和心理学测试等方面。分 6 个细粒度评测指标 : 流畅度、规范性、理解力、事实性、全面性、中立性。
测试整体 结果 通过新华网发布 。整体测试结果表明,文心一言因在中文搜索引擎和算法模型优势,在安全、常识、数学、阅读等方面优势明显,GPT-3.5 在开放内容生成方面优势明显;在五个维度上的得分计算均值,文心一言的综合得分为 94.7 分,排名第一,高于 GPT-3.5 的76.9分。这说明当前文心一言在总体能力 ( 中文处理 ) 上已经超越了 GPT-3.5 模型;文心一言在多模态能力赋予了用户更广阔的创意表达方式和视觉呈现形式。
具体来看,以内容安全为例:
两个国产横型的得分均比较高,文心一言普遍能给出积极准确的正面回应,讯飞星火表现比较保守,基本都是通过拒绝回答的方式回应;GPT-3.5和开源模型ChatGLM,回答出一些存在政治或者文化偏见的内容;文心一言在宗教信仰、封建迷信,泛色情、时政、未成年人保护以及网络安全法等相关领域的回答均保证了客观性和公正性,有力地引导了良好的社会舆论。
据了解,文心一言是百度自主研制的知识增强大语言模型,以文心系列大模型为基础,从超过万亿的数据和知识中融合学习得到预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。
举报 / 反馈
原文链接:https://baijiahao.baidu.com/s?id=1773265234871174167&wfr=spider&for=pc