什么是 ChatGPT?
2022 年 11 月 30 日,OpenAI 的 CEO,Altman 在推特上写道:“今天我们推出了 ChatGPT,尝试在这里与它交谈”,然后是一个链接,任何人都可以注册一个帐户,开始免费与 OpenAI 的新聊天机器人 ChatGPT 交谈。
ChatGPT 能够回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。
ChatGPT 由 GPT-3.5 模型提供支持,GPT(Generative Pre-trained Transformer,生成式预训练变换器) 是一种基于互联网可用数据训练的文本生成深度学习模型。名字中之所以有一个 Transformer,是因为 GPT 就是 OpenAI 在谷歌的 Transformer 语言模型框架的基础上构建的。
该模型使用了 " 利用 人类反馈强化学习(RLHF, Reinforcement Learning From Human Feedback)" 的训练方式,包括了:人类提问机器答、机器提问人类回答,并且不断迭代,让模型逐渐有了对生成答案的评判能力。
人工智能领域的发展
聊天机器人的演变
对于聊天机器人的发展可以追溯到 1950 年的图灵测试,但当初只是简单的使用指令和模式匹配。
1950 年,计算机科学之父艾伦·图灵 (Alan Turing) 发表了具有里程碑意义的论文《电脑能思考吗?》,第一次提出“机器思维”的概念。即 图灵测试。他说,如果一台机器能够与人类展开对话,而不被辨别出其机器身份,那么可以说这台机器具有智能。
从那时开始,多年来,人类一直在试图解决这个问题。
早在 1966 年,MIT 的教授约瑟夫·维森班(Joseph Weizenbaum)就开发了第一个聊天程序 ELIZA,到了 30 年之后,也就是 1995 年这个机器人经过数代的更新,已经进化的很强大了,日常那些对话已经都可以应付了,不过本质上它的原理都是基于 模式匹配。
模式匹配 ,从概念上来说, 就是指给定某种模式, 检查给定的序列或字符串中是否有符合某种模式的片段。
后来出现了一个理念,叫做 机器学习 。即 让机器自己学习、找规律,而不是人为规定规则。
在 2001 年有个叫 smarter child 的机器人火了,它学习了当时比较先进的模型,让聊天变得更自然,而且在 2000 年,当时出现了一大批的聊天软件。smarter child 接入了所有主流的聊天软件,让全世界好几亿人跟他对话,不管你问他什么,它都能跟你聊上几句,这应该算是 chatgpt 的前身了。随后它快速风靡全球,每天接收的信息超过 10 亿条,到了 2007 年,它被微软收购了,虽然它已经很能聊了,但是离通过图灵测试还有很长的距离,你跟他聊两句就知道他就是个机器。
到了 2010 年,机器学习里边的一个领域创造出了新的天地,它就是 人工神经网络Artificial Neural Network(ANN)。
人工神经网络是一种模拟人脑的形式, 是从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。
人工神经网络 除了在人脸识别像、声音识别和自动驾驶上大放异彩,前几年特别火的 AlphaGo 就是这样训练出来的,第一个击败人类职业围棋选手,也是第一个战胜围棋世界冠军的人工智能机器人。
这个神经网络在许多领域都可以大展宏图,但回到文字领域他发展就不太顺,因为机器学习一般都是用一种做循环神经网络来处理文字,问题是它没法同时进行大量的学习,并且句子也不能太长,要不然学到后面的时候,前面那些都忘了。
直到 2017 年,谷歌提出了新的学习框架Transformer,大大提高了机器在文字学习方面的效率和速度。
简单来说就是一个利用注意力机制来提高模型训练速度的模型,可以说是 完全基于自注意力机制的一个深度学习模型 。因为它 适用于并行化计算,再加上它本身模型的复杂程度,导致它在精度和性能上都要高于之前流行的 RNN 循环神经网络。
而在 2018 年,OpenAI 基于 Transformer 框架发表了一篇论文,介绍了一个新的语言学习模型:Generative Pre-trained Transformer(生成式预训练变换器),简称 GPT。
之前的语言学习模型,基本都是需要人为的去监督,或者人为设定一些标签,但 GPT 不需要了,只要把一堆数据放进去,它就可以自我学习。
自此,GPT 出世了。
OpenAI 的创办与发展
在 2015 年,马斯克等几个大佬一起注资了 10 亿美金,成立了一家非盈利组织,也就是 ChatGPT 的母公司来进行 AI 方面的研究,因为是非盈利组织,所以他的研究成果包括专利都是对外公开的。而他的成立原因说来有趣,OpenAI 成立的一个原因就是避免谷歌在人工智能领域的垄断。
2016 年,OpenAI 推出了 Gym,这是一个允许研究人员开发和比较强化学习系统的平台,可以教 AI 做出具有最佳累积回报的决策。
同年,OpenAI 还发布了 Universe,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,目标是让 AI 智能体能像人一样使用计算机,并获得了较好的反响。将降低图像识别错误率上的成功经验引入到通用人工智能的研究上来,取得实质进展。OpenAI Universe 提供了跨网站和游戏平台训练智能代理的工具包,有 1000 种训练环境,其中有微软、英伟达等公司参与建设。
虽然在创立后,OpenAI 一直在推出技术产品,看起来也有不错的成绩,但跟谷歌没法比。因为在那段时间,谷歌的成绩才是真正辉煌。
2016 年 3 月 9 日,AlphaGo 与围棋冠军李世石围棋大战,最终以 4:1 胜出。一年之后,新版的 AlphaGo 又以 3:0 战胜了围棋冠军柯洁。之后发布的 AlphaZero 更是让人惊叹,它在三天内自学了三种不同的棋类游戏,包括国际象棋、围棋和日本将军棋,而且无需人工干预。这是一种人类从未见过的智慧。
这些成果好像验证了 2015 年,大家在聚会上的判断,谷歌很可能在人工智能领域的形成垄断地位。确实,从 AlphaGo 的成功来看,谷歌已经牢牢占住了人工智能的高地,无人可以撼动。谷歌还收购了十几家 AI 公司,投入的资金和资源巨大,成果斐然。
2016 年 4 月,谷歌著名的深度学习框架 TensorFlow 发布分布式版本;8 月,Google 发布基于深度学习的 NLU 框架 SyntaxNet;9 月,Google 上线基于深度学习的机器翻译。
而且,谷歌的 CEO 桑德·皮查伊 (Sundar Pichai) 在 2016 年 5 月宣布将公司从“移动为先”的策略转变成“人工智能为先”(AI First)。 并计划在公司的每一个产品上都应用机器学习的算法。也就是说,谷歌已经开始把人工智能技术变成了自己的业务优势,通过人工智能去赚钱了。
看起来,OpenAI 离战胜谷歌的预期目标还很远。于是 2017 年开始,一些人工智能大牛离开了 OpenAI,如 Ian Goodfellow 和 Pieter Abbeel 等。
但没想到的是,OpenAI 决定与谷歌硬碰硬。竟然在谷歌开创的道路上,取得了震惊业内的突破,持续推出了 GPT 系列模型,并迅速拓展到多个富有前景的商业领域,力压谷歌一头。
ChatGPT 发布
2018 年 6 月,OpenAI 公司推出了具有 1.17 亿 个参数的GPT-1(Generative Pre-training Transformers, 生成式预训练变换器)模型。
GPT-1 使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练,之后,又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练(又称为微调,fine-tuning)。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景,都取得了比基础 Transformer 模型更优的结果,成为了 新的业内第一。
2019 年 2 月,OpenAI 推出了GPT-2,同时,他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners”(语言模型是无监督的多任务学习者)。
相比于大哥 GPT-1,GPT- 2 并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计 48 层,参数量达15 亿。
在性能方面,GPT-2 在文本内容生成方面表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演等,通通不在话下。在“变得更大”之后,GPT-2 的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了那时的最佳性能。
迫于资金压力,2019 年 3 月,OpenAI 正式宣布重组,创建新公司 OpenAI LP,成为一家“利润上限(caped-profit)”的公司,上限是 100 倍回报。性质改变后大量的机构开始入场,其中微软就注资 10 亿美元,在得到了资金的支持后,GPT 快速升级迭代。
2020 年 5 月,OpenAI 发布了GPT-3,其参数更是直接上升了 100 倍,变成了1,750 亿。
GPT- 3 作为一个无监督模型(现在经常被称为自监督模型),几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。
而且,该模型在诸多任务上表现卓越,例如在法语 - 英语和德语 - 英语机器翻译任务上达到当前最佳水平。它非常擅长创造类似人类的单词、句子、段落甚至故事,输出的文字读起来非常自然,看起来就像是人写的。用户可以仅提供小样本的提示语、或者完全不提供提示而直接询问,就能获得符合要求的高质量答案。可以说 GPT- 3 似乎已经满足了我们对于语言专家的一切想象。GPT- 3 甚至还可以依据任务描述自动生成代码,比如编写 SQL 查询语句,React 或者 JavaScript 代码等。从上述工作的规模数据可以看到,GPT- 3 的训练工作量之大,模型输出能力之强可以说是空前的,可谓“大力出奇迹”。
不过 GPT- 3 也存在问题,其中最大的问题在于,不管再怎么加大参数量,他的提升和改善都非常有限,这是因为他在训练的时候,没有一个非常好的反馈机制,也就是没有人告诉他怎样的回答是对的,怎样的回答是不好的。
为了解决这个问题,后来就在训练的时候,加入了一个人工反馈的机制,就是聊天时,告诉你你聊的是好还是不好,专业术语就叫 人工反馈强化学习(RLHF)。加入了这个人工反馈的强化学习之后,不管是训练的效率还是效果都得到了大大的提升。
在 2022 年 3 月推出了 GPT3.5, 训练的数据量达到了 2000 亿,之后又对对话进行了优化,在 2022 年 11 月推出了 ChatGPT。在 两个月 时间内,ChatGPT 的 月活量突破了 1 亿人,扩张速度史上最快,各种数据怎么吹都不为过,成为了新一代顶流。
2023 年 3 月 14 日,OpenAI 发布了GPT-4,向科技界再次扔下了一枚“核弹”。相较于 GPT-3.5,GPT- 4 产生正确回应的可能性要高出 40%。而且 GPT- 4 是多模态的,同时支持文本和图像输入功能。
OpenAI 介绍,在某些情况下,GPT- 4 比之前的 GPT-3.5 版本有了巨大改进,新模型将产生更少的错误答案,更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。
例如,GPT- 4 在模拟律师资格考试的成绩在考生中排名前 10% 左右,在 SAT 阅读考试中排名前 7% 左右,在 SAT 数学考试中排名前 11% 左右。
但值得注意的是,这一次 OpenAI 并 没有披露 GPT- 4 模型的大小、参数的数量以及使用的硬件。
详见 OpenAI 关于 GPT- 4 的报告:
OpenAI 称此举是考虑到对竞争者的忧虑,这可能是在暗示其对于竞争者——谷歌 Bard——所采取的策略。
后续更新一览:
- ChatGPT 与 Transformer 模型详解
- 基于 GPT- 3 的垂直领域发展(Bing、MidJourney 等)
- GPT- 4 详解
写在最后:
AI 不可怕,但不了解 AI 很可怕。希望能够让更多的人了解 AI,并利用它提高效率。
原文链接:https://zhuanlan.zhihu.com/p/620044762