openai 的 gpt 系列产品,有几个很关键的不同,在于
1,他们人工优化鉴定了文本和回答集合的质量,低质量的回复,留言,讨论是不进入他们的数据库的。这就是为什么,有的国产号称参数万亿,搜集了十倍于 openai 的数据集但是 没有他们的效果,甚至无法回答有意义的内容。
2,gpt 不是百度百科类的集合,不是百科全书,名字解释类的集合。
3,openai 把人类已经出版的文本,书籍,素材,代码都输入进了数据库,素材库。能否进行自然语言编程。这一点国内根本做不到。
4,openai 目前无法从一个人的语言特征里提取出模型,制造出数字人格。
只能模拟历史上的著名人物,不能解析今天的普通人的思维。
但不代表他们以后做不到,或许已经能模拟出数字性格,和数字情绪,并且可调整
比如 模拟一个岁月静好的发言特征
5,openai 强化了 in context learning 和 RLHF(人工强化学习)通过人为的鉴定指导 ai 去学习
也即是说,一亿用户产生的新数据也被他们拿去优化升级。这一点国产无法实现。
总之,指望国产 gpt 能很快诞生,达到国外产品的类似效果,至少要到下半年。人工清理数据,人工鉴定文本质量是个非常耗时间的事情。而且不能用文化层次低的民工,以前的数据标记用的都是最穷的底层人,现在行不通了。也就说要雇佣上万大学生来做才行。
一个更好的 GPT 应该是什么样子?
1,实现自然语言编程
2,提供数学公式接口
3,模拟特定角色,比如数学家,物理学家,工程师
4,情绪可调整,随机性增加,不能一直重复回答。有 涌现 特征。机器能够产生类似临机一动的效果。
5,提供外部数据输入人口,一次记忆超过 100k 的文本
6,支持图片,视频,音频输入,支持图片,音频输出,支持文本图片合成,支持 OCR
原文链接:https://www.bilibili.com/read/cv22206160