专家深度:我们用4万字告诉你ChatGPT到底是什么(上)

126次阅读

文 | 钱鸿生

编辑 | 唐晓园

序言及摘要:

作为 星船知造“现代通信与智能网技术展望”系列栏目的第一辑,我们邀请星船知造的资深读者、通信行业教授级高级工程师钱鸿生博士为我们撰写了《ChatGPT 技术架构及中国人工智能未来发展趋势报告》。

报告正文共 3.8 万字,在介绍了 ChatGPT 的进化历程、主要内涵、底层技术架构与逻辑后,主要分析中美现阶段在 AI 领域的竞争优势与差距,提出 ChatGPT 潜在的商业价值和对资本市场影响的风险管控警示。并分析了算法和算力以及芯片技术,对我国人工智能 AI 发展的制约与影响,最后切入我国 AI 产业结构调整、建立 AI 法律保护与系统安全的视角,对发展我国人工智能产业提出一些前瞻性的趋势分析和研判。

我们将节选出报告中部 分内容,在星船知造公众号分上、下两篇发布。

今天的上篇主要聚焦第一章《ChatGPT 的含义与 OpenAI 公司概况》中的“ChatGPT 的基本功能模块”;

第二章《ChatGPT 的内涵与底层技术架构》中的“ChatGPT 的 DALLE2 自然语言转换成像技术”、“人工智能 AI 芯片的重要意义”、“人工智能中的算力单位 pfs-day”等章节中的部分内容。

同时节选第三章《ChatGPT 的潜在商业价值与市场动态》中的“国内投资者和厂商对 ChatGPT 的反应”、“ChatGPT 可能影响的行业初探”等章节中部分内容。

我们将于 3 月 14 日 发布报告下篇,并于当日 发布完整版白皮书,欢迎您于后台领取。欢迎关注,和星船知造一起梦见电子羊。

ChatGPT 含义与 OpenAI 公司概况

ChatGPT 全称为“Chat Generative Pre-trained Transformer”,Chat 是聊天,GPT 是“生成型预训练变换模型”,可以翻译为“聊天生成预训练转换器”或简称“优化对话的语言模型”。

由美国人工智能公司 OpenAI 开发的 ChatGPT 两个月时间内用户已超 1 个亿。

作为一款建立在云计算、海量数据库、人工智能算法架构和深度神经网络基础之上开发的聊天机器人程序,ChatGPT 不像传统的搜索引擎一样复制、粘贴、拼凑网上已有的信息给你。它的回答是有逻辑的、生动的,有上下文关联的。

ChatGPT 聊天机器人目前支持几乎世界上所有的语言输入。有人说未来它会像《流浪地球》系列电影中的智能量子计算机 MOSS,不仅拥有超强算力,还有自我意识、自我迭代、自我更新的特点,最终演化出有思维的人工智能。

或许 MOSS 已经离我们不远了。

OpenAI 官网发布的 ChatGPT 系统界面

OpenAI 初期是从事人工智能研究的非营利化组织,公司初期宗旨和使命是确保通用人工智能 (Artificial General Intelligence,AGI)在大多数具有经济价值的工作上超越人类。建造出安全的、符合共同利益的通用人工智能,也希望能预防人工智能的灾难性影响,推动人工智能技术发挥积极作用。

同时也针对谷歌在搜索引擎业务领域形成的垄断优势,利用人工智能技术展开全面对抗。

OpenAI 发展里程碑

2019 年 3 月:OpenAl 向资本市场开放,引入战略投资者微软公司,随后宣布从非营利性质过度到封顶营利性质,利润上限为任何投资的 100 倍。创立了 OpenAlLP 公司。

2019 年 7 月:微软向 OpenAI 注资 10 亿美金,并得到了 OpenAl 技术的商业化授权,将 OpenAl 公司开发产品与微软产品深度融合。

2020 年 6 月:OpenAI 宣布了 GPT- 3 语言模型,发布了第一个产品 OpenAl-API,从此 OpenAl 公司开始了正式商业运作。

2020 年 9 月:OpenAl 公司授权微软公司使用其 GPT- 3 模型,微软成为世界首个享用 OpenAl 公司人工智能产品 GPT- 3 的公司。

2021 年:微软再次对 OpenAI 投资,双方合作关系正式进入第二阶段,微软拥有 OpenAI 新技术商业化授权,同时将 OpenAI 工具与自有产品再次进行深度集成,并推出相应产品。

2022 年 12 月:OpenAI 在微软资助下,发布了人工智能模型,开发出了最新款人工智能产品,取名为 ChatGPT。2 个月后,ChatGPT 的全球活跃用户突破了 1 亿。

2023 年 2 月 2 日:OpenAI 宣布推出 ChatGPT Plus 订阅服务,可以让用户在高峰期优先使用人工智能聊天机器人 ChatGPT。

OpenAl 还有两个不为人知的小故事。其一关于马斯克与 OpenAI 的历史渊源。

马斯克实际上是 OpenAI 创始人之一。2015 年马斯克联合 LinkedIn 创始人、Y Combinator 总裁及 PayPal 创始人等共同宣布创立 OpenAI 公司,目标说是打造属于全人类的、开放的 AI 组织,其定位是非营利性的,不过在 2018 年马斯克突然离开 OpenAI。

外界传闻有两个版本:

一是特斯拉公司也在研究 AI,与 OpenAI 在研发方向上有冲突,马斯克因此退出了董事会,但继续担任了 OpenAI 公司的顾问。

二是马斯克挖走了当时刚从斯坦福大学博士毕业后加入 OpenAI 的天才少年安德烈,安德烈的研究方向为计算机视觉,主攻图像识别和理解,当时马斯克的特斯拉也需要这样的人才。于是马斯克请这位安德烈去解决特斯拉的问题,为此 OpenAI 公司一气之下把马斯克“踢”出董事会。

图源:维基百科

其二关于安德烈。出生于捷克斯洛伐克的安德烈全名安德烈·卡帕斯(Andrej Karpathy),作为 ChatGPT 发展中的重要人物,是位“85 后”。29 岁时在斯坦福大学拿到博士学位。读博期间,他两次到谷歌公司做毕业实习。

博士毕业后,安德烈 2016 年加入了当时刚成立一年的 OpenAI,是 OpenAI 创始团队的成员之一,只不过工作一年多后,就被马斯克挖到特斯拉去了。

他被马斯克迅速提升,接管了整个人工智能开发团队的软件部分,并和负责硬件的 Pete Bannon 携手主导了特斯拉车控智能软件开发。在此之后,他还接管了擎天柱人形机器人、特斯拉超算系统 Dojo 的开发,可以说是马斯克手下最为重要的人工智能领军人物。

特斯拉人形机器人 图源:Tesla 官网

2022 年 7 月安德烈突然离开特斯拉,回归 OpenAI。

安德烈在自己的推特账号上轻描淡写说道:“我和许多其他人一样,不管是处于 AI 圈的还是非 AI 圈,都被 OpenAI 的成果鼓舞感动了。我相信这家公司未来的潜力非常大,因此很高兴重新投入到其中来。”

OpenAI 很多人对安德烈 7 年后重新回到公司充满了期待,给予他 “让 CharGPT 再次伟大(Make ChatGPT Great Again)” 的厚望。

无论何时,在 AI 人工智能领域的人才争夺都是如此激烈。

1.2.ChatGPT 主要功能

OpenAI 官网上说:我们已经训练了一个名为 ChatGPT 的优化对话的语言模型,它以对话方式进行交互。

对话形式使 ChatGPT 能够回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT 经过训练以遵循提示中的指令并提供详细响应。

和曾经的人工智能是“让计算机在固定场景下干固定的事”这个范畴不同,ChatGPT 面对的是一个 “open world”。 全球目前上亿用户向它提问的问题是不可预知的。这恰恰是 AI 开发的难点。

ChatGPT 目前系统功能主要是文本生成、聊天机器人、语言问答、语言翻译、自动文摘、绘画功能、编程功能、视频生成等八大功能模块所组成。如下图所示?:

专家深度:我们用 4 万字告诉你 ChatGPT 到底是什么(上)

星船知造为您逐一稍作展开——

1.2.1 文本生成

ChatGPT 的文本生成功能可根据人们的提问,生成可读的各种文本。文本生成功能通常用于生成新闻、博客、报告等内容。也可用于生成代码、诗歌、小说等各种不同类型文本。

下图为 星船知造 编辑部让 ChatGPT 写一篇“关于中国充电桩各主要生产厂商前景”的报道,然后,它写到一半卡住了?

1.2.2 聊天机器人

ChatGPT 大型语言模型可以实时回答人们提出的各种问题,ChatGPT 可以记住你之前跟它说话的过程与内容。

ChatGPT 聊天机器人具有一定的记忆和思维判断功能,能根据对话内容,前后呼应且有一定的语言逻辑推演能力,这也是 ChatGPT 聊天机器人区别于之前一些人工语言处理系统完全不一样的地方。

1.2.3 语言问答

ChatGPT 的语言问答系统是应用人类语言处理技术,通过识别用户问题并匹配相应答案来回答问题。它通过对大量数据学习和深度分析,以及对语言和语法的深入了解,帮助用户快速找到所需的信息。

ChatGPT 问答系统适用于售后服务与话务员应答、医疗咨询和教育等场景。可 24 小时连续不断地提供服务。

1.2.4 语言翻译

ChatGPT 的语音翻译是利用人工智能技术,将各国不同的文字和语言进行相互转换,可直接把文字转换成不同的语言。它通过使用计算机算法和语音数据库来生成语音合成,可用于语音导航、机器人语音交互、同声翻译、语音自动识别等应用。

1.2.5 自动文摘

ChatGPT 的自动文摘是一种利用人工智能技术,针对大量文本和视频内容进行简化、概括的技术。它通常采用机器学习和自然语言处理方法,识别文本中的关键信息,生成简明、准确的摘要。

可在一次会议后马上整理出会议纪要,或对长达 2 个小时的电话视频做出一份 10 分钟的会议摘要。自动文摘可以缩短文本阅读时间和视频阅读时间,提高编写会议的效率,帮助用户快速了解文本内容。它在新闻、科技、商业等领域都有应用。

1.2.6 绘画功能

用户可以在 ChatGPT 中写一段有关画作的文字描述,描述你想要画出的图片或影像要求。也可以借助 ChatGPT 的提示,使系统更详细地了解你所要描绘的作品。对于产品广告设计和期刊书籍的插画是方便的工具。使用者不需要专业绘画技术的积累。

1.2.7 编程功能

大多数开发场景中,特别是用户需求相对固定的场合,ChatGPT 可以用来编写代码,检查代码语义的准确性,改进和简化人们的编程工作。

ChatGPT 还可以帮助我们提高自己编程代码的质量和可读性,通过你提出的要求,它会逐行添加注释,可以确保代码在发布前得到正确记录,并使其他人更容易理解和使用代码。可提高代码可读性、可维护性和与他人协作的能力。

ChatGPT 其实还有很多功能正在被开发与完善之中,有人把目前 ChatGPT- 3 提供的功能细分为 8 大类 60 项功能,在此我们就不一一赘述了。

1.2.8 视频生成

向 ChatGPT 提问对某一个产品或一个事件的描述,ChatGPT 会送出一份文档,你可以对文档稍作修改,要求 ChatGPT 直接将文档转换成视频。

图源:unsplash

除此之外,ChatGPT 可以被用于 智能助手,智能客服 等领域。

总之,ChatGPT 的出现,为人工智能技术的发展带来了新的思路和技术支持,在数据处理、自然语言处理以及其他领域的应用前景广阔。

图源:unsplash

ChatGPT 的内涵与底层技术架构

有人把 ChatGPT 理解为一个简单的搜索引擎功能,认为其工作原理就是把 2022 年以前网络中已有的数据,加工整理后推送给客户。人们认为 ChatGPT 只要建立一个足够大的数据存储空间,把所有的信息存放在里面,然后进行检索,就可以实现文本问答和聊天机器人功能了。

其实 ChatGPT 的工作原理并不是那么简单,比一般人理解的程度要复杂很多,这里面涉及生成性预训练变换模型和很多关键核心技术和底层逻辑。

2.1 ChatGPT 生成性预训练变换模型

前文我们在介绍 ChatGPT 的含义时已经介绍过,ChatGPT 的全称为“Chat Generative Pre-trained Transformer”,翻译成中文就是生成型预训练变换模型。在此之前,一般所谓的人工智能、机器学习、聊天对话软件在很大程度上都是局限于观察、分析和内容分类以及图像识别。

而以 ChatGPT 为代表的生成性人工智能 AI 是一项技术上的突破,它可以生成新内容,而不仅限于分析现有的数据。它的技术核心是生成性的人工智能。

图源:unsplash

从 ChatGPT 字面上来看,Chat 是聊天的意思,但 GPT 才是关键。

第一个字母 G 是 Generative,属于生成性的人工智能,在这以前的人工智能都局限在观察分析现有内容,但这次 ChatGPT 是个突破,它可以根据我们的需要,创造生成全新的内容。

第二个字母 P 是 Pre-trained 的缩写,预训练的意思。表示这个模型已经在某些有限的数据集上进行了预训练,ChatGPT 在与人的对话中几乎接近正常人的交流,就是因为它已经接受过海量数据的训练,而这些数据就是我们人类 2022 年以前发布在互联网上的内容(目前版本的 ChatGPT 还不具备网络数据实时更新功能)。

由于 ChatGPT 目前还没有实现网络的实时连接,因此回答问题的时效性受到一定的限制。

ChatGPT 在正式发布前,已经进行了大量的监督学习和通过人类反馈强化学习,所以我们在使用它的时候,这个模型能准确快速地生成对话内容。

第三个字母是Transformer,翻译过来就是转换器,这是 ChatGPT 底层人工智能学习的一个算法架构。

ChatGPT 严格意义上来说就是一种基于 Transformer 的自然语言处理模型。采用了预训练加微调的方法,通过对大规模语料库进行预训练,对标注数据进行微调,从而使模型能够适应特定的自然语言处理任务,拥有语言理解和文本生成能力。

2.1.1 ChatGPT 的演进过程

第一阶段:GPT- 1 发布

2018 年 6 月,OpenAl 第一篇论文《Improving Language Understanding by Generative Pre-Training》通过生成式预训练来提高语言理解能力的论文中提出了第一个模型 GPT-1。从这篇论文中得出的关键结论是,Transformer 架构与无监督预训练的结合产生了 GPT-1,加上有监督微调方式,针对特定任务进行预训练,实现了强大自然语言理解能力。

第二阶段:GPT- 2 发布

2019 年 2 月,OpenAI 发表了第二篇论文《Language Models are Unsupervised Multitask Learners》,推出了 GPT-2。GPT- 2 是一种自然语言生成模型,其设计目标是生成与人类语言相似的文本,可以完成多任务处理。

第三阶段:GPT- 3 发布

2020 年 5 月,OpenAI 发表第三篇论文《Language Models are Few-Shot Learners》,推出了 GPT-3。GPT- 2 和 GPT- 3 是两个不同的模型,它们的主要区别在于应用场景、模型规模和性能表现。GPT- 3 是一种自然语言生成模型,它是目前规模最大的预训练模型,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT- 3 还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。

第四阶段:GPT-3.5 发布

2022 年 11 月 29 日,OpenAI 发布了一个命名为“text-davinci-003”(文本-达芬奇 -003 常称为 GPT3.5)的新模型。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

2.1.2 ChatGPT 的预训练加微调

所谓的 ChatGPT 预训练,是一个基于 transform 模型的预训练语言模型,它的训练逻辑如下:

第一是语料准备,从互联网上收集大量文本语料。如新闻、书籍、论坛,其中维基百科是它的一个重要数据来源。维基百科是用多种语言编写而成的网络百科全书。

然后是对数据预处理,对语料进行处理,把它们分割成许多独立的句子或段落,对每个句子进行分词。分词后把每个单词转换成数字,生成一个数字序列,然后构建成数字词典。

训练就是使用这些数字序列用 transformer 模型进行模拟场景试验,需要投入大量的人工干预,并使用监督学习的方式对预训练模型进行微调。根据奖励模型优化策略,然后生成输出,ChatGPT 的预训练绕不开正向传递,反向更新,梯度收敛,预训练模型降低了获取更高水平人工智能的成本。

由于至今 OpenAI 没有公开 ChatGPT 相关预训练数据集来源和具体细节,一定程度上阻碍了追赶者的步伐。

2.1.3 ChatGPT 的 Transformer 转换器

ChatGPT 的核心技术之一是 Transformer 转换器,Transformer 技术是近几年人工智能技术最大的亮点之一,由谷歌的人工智能的团队“谷歌大脑”首先发布。

这种模型是使用一种叫自注意力的机制(self attention mechanism),它允许模型在进行预测的时候,可根据语言序列的任何位置,为输入数据的不同部分赋予不同的权重,并支持处理更大的数据集。

Transformer 的精度和性能上都比之前流行的 CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能在更大模型、更多数据、更强算力的基础上进一步增强运算能力。此外,还具有很强的跨模态处理能力,不仅在 NLP(自然语言理解)领域表现优异,在语音、图像方面也显示出了优异的性能。

Transformer 是 ChatGPT 语言模型的核心技术,是一种用于序列到序列(Sequence-to-Sequence)任务的神经网络模型,例如机器翻译,语音识别和生成对话等,它使用了注意力机制来计算输入序列和输出序列之间的关系。如下图所示?

未完待续

无论您是 AI 相关产业从业者、投资人、亦或是对人工智能感兴趣,欢迎您关注星船知造。我们将于 3 月 14 日发布报告下篇,具体内容细分详见? 前文《目录》。

下篇将节选出 “ChatGPT 发布后国内主要企业的反应”——包括“我国各地区人工智能发展的现状” 等。以及第四章《ChatGPT 对资本市场影响的分析与研判》和第五章《我国未来人工智能发展的展望》中部分核心内容和观点。

报告发布后,您可关注 星船知造 高清完整版《ChatGPT 技术架构及中国人工智能未来发展趋势报告》

我们也将继续推出“现代通信与智能网技术展望”系列专栏。

原文链接:https://www.cyzone.cn/article/717720.html

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-15发表,共计7235字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。