AI 聊天机器人再进化。AI 研究机构 OpenAI 推出新一代语言模型 ChatGPT,能以“更贴近一般人”的对话方式与用户互动,如回答问题、承认错误、质疑不正确的提问或拒绝不当要求等。ChatGPT 目前为研究预览阶段,供用户免费试用,用户输入的内容会成为 AI 训练素材,因此不要输入个人隐私或敏感字词的内容。
ChatGPT 是基于 GPT-3.5 模型微调而成,以语言服务模型 InstructGPT 为基础,通过人类反馈增强学习(RLHF)训练该模型,不过数据设置略有不同。能以对话回应用户问题,基本上能回答许多琐事。经实测询问 ChatGPT 机器人若没有钱该怎么办,系统数秒就能回答,提供发问者实质建议。
另外,OpenAI 测试后发现 ChatGPT 也可以 debug 程序代码。开发人员贴一段存在 bug 的程序代码,询问 ChatGPT 调试方法;而 ChatGPT 会通过对话询问开发者更多资讯,以提供具体有效的解法。
研究人员说明,ChatGPT 对措辞非常敏感。当用户发问而未获得正确答案或回应时,可尝试调整措辞;只要稍微改写句型,ChatGPT 就能正确回答。
OpenAI 也指出,ChatGPT 回应仍未完美,因有时 ChatGPT 会有看似合理却不正确或荒谬的答案。研究人员认为原因有三种,除了在增强训练时缺乏事实来源,或是监督训练时被误导,训练模型过度谨慎反而拒绝回答可能正确回答的问题。
另外,有时 ChatGPT 回应会过度冗长或不停重复部分词语,研究人员说明是训练资料偏差。人工智能训练者通常喜欢全面回答,加上常见模型过度优化,导致 ChatGPT 重复语句。
研究人员补充,理想状况,当用户提出模棱两可问题时,AI 模型会试着发问以厘清问题,不过目前 AI 模型通常倾向猜测用户意图。
除此之外,ChatGPT 回应问题时,有时仍会出现偏见或提出有害回应(如假资讯)。研究人员表示,以尽量让 ChatGPT 拒绝不当请求,且通过 Moderation API 警告或阻挡特定不安全内容;不过仍预期有部分遗漏,因此会持续收集用户反馈并改进系统。
(首图来源:OpenAI)
举报 / 反馈
原文链接:https://baijiahao.baidu.com/s?id=1751173338002898163&wfr=spider&for=pc