专家深度：我们用4万字告诉你ChatGPT到底是什么（上）

210次阅读

文 | 钱鸿生

编辑 | 唐晓园

序言及摘要：

作为 星船知造“现代通信与智能网技术展望”系列栏目的第一辑，我们邀请星船知造的资深读者、通信行业教授级高级工程师钱鸿生博士为我们撰写了《ChatGPT 技术架构及中国人工智能未来发展趋势报告》。

报告正文共 3.8 万字，在介绍了 ChatGPT 的进化历程、主要内涵、底层技术架构与逻辑后，主要分析中美现阶段在 AI 领域的竞争优势与差距，提出 ChatGPT 潜在的商业价值和对资本市场影响的风险管控警示。并分析了算法和算力以及芯片技术，对我国人工智能 AI 发展的制约与影响，最后切入我国 AI 产业结构调整、建立 AI 法律保护与系统安全的视角，对发展我国人工智能产业提出一些前瞻性的趋势分析和研判。

我们将节选出报告中部 分内容，在星船知造公众号分上、下两篇发布。

今天的上篇主要聚焦第一章《ChatGPT 的含义与 OpenAI 公司概况》中的“ChatGPT 的基本功能模块”；

第二章《ChatGPT 的内涵与底层技术架构》中的“ChatGPT 的 DALLE2 自然语言转换成像技术”、“人工智能 AI 芯片的重要意义”、“人工智能中的算力单位 pfs-day”等章节中的部分内容。

同时节选第三章《ChatGPT 的潜在商业价值与市场动态》中的“国内投资者和厂商对 ChatGPT 的反应”、“ChatGPT 可能影响的行业初探”等章节中部分内容。

我们将于 3 月 14 日 发布报告下篇，并于当日 发布完整版白皮书，欢迎您于后台领取。欢迎关注，和星船知造一起梦见电子羊。

ChatGPT 含义与 OpenAI 公司概况

ChatGPT 全称为“Chat Generative Pre-trained Transformer”，Chat 是聊天，GPT 是“生成型预训练变换模型”，可以翻译为“聊天生成预训练转换器”或简称“优化对话的语言模型”。

由美国人工智能公司 OpenAI 开发的 ChatGPT 两个月时间内用户已超 1 个亿。

作为一款建立在云计算、海量数据库、人工智能算法架构和深度神经网络基础之上开发的聊天机器人程序，ChatGPT 不像传统的搜索引擎一样复制、粘贴、拼凑网上已有的信息给你。它的回答是有逻辑的、生动的，有上下文关联的。

ChatGPT 聊天机器人目前支持几乎世界上所有的语言输入。有人说未来它会像《流浪地球》系列电影中的智能量子计算机 MOSS，不仅拥有超强算力，还有自我意识、自我迭代、自我更新的特点，最终演化出有思维的人工智能。

或许 MOSS 已经离我们不远了。

OpenAI 官网发布的 ChatGPT 系统界面

OpenAI 初期是从事人工智能研究的非营利化组织，公司初期宗旨和使命是确保通用人工智能 (Artificial General Intelligence,AGI)在大多数具有经济价值的工作上超越人类。建造出安全的、符合共同利益的通用人工智能，也希望能预防人工智能的灾难性影响，推动人工智能技术发挥积极作用。

同时也针对谷歌在搜索引擎业务领域形成的垄断优势，利用人工智能技术展开全面对抗。

OpenAI 发展里程碑

2019 年 3 月：OpenAl 向资本市场开放，引入战略投资者微软公司，随后宣布从非营利性质过度到封顶营利性质，利润上限为任何投资的 100 倍。创立了 OpenAlLP 公司。

2019 年 7 月：微软向 OpenAI 注资 10 亿美金，并得到了 OpenAl 技术的商业化授权，将 OpenAl 公司开发产品与微软产品深度融合。

2020 年 6 月：OpenAI 宣布了 GPT- 3 语言模型，发布了第一个产品 OpenAl-API，从此 OpenAl 公司开始了正式商业运作。

2020 年 9 月：OpenAl 公司授权微软公司使用其 GPT- 3 模型，微软成为世界首个享用 OpenAl 公司人工智能产品 GPT- 3 的公司。

2021 年：微软再次对 OpenAI 投资，双方合作关系正式进入第二阶段，微软拥有 OpenAI 新技术商业化授权，同时将 OpenAI 工具与自有产品再次进行深度集成，并推出相应产品。

2022 年 12 月：OpenAI 在微软资助下，发布了人工智能模型，开发出了最新款人工智能产品，取名为 ChatGPT。2 个月后，ChatGPT 的全球活跃用户突破了 1 亿。

2023 年 2 月 2 日：OpenAI 宣布推出 ChatGPT Plus 订阅服务，可以让用户在高峰期优先使用人工智能聊天机器人 ChatGPT。

OpenAl 还有两个不为人知的小故事。其一关于马斯克与 OpenAI 的历史渊源。

马斯克实际上是 OpenAI 创始人之一。2015 年马斯克联合 LinkedIn 创始人、Y Combinator 总裁及 PayPal 创始人等共同宣布创立 OpenAI 公司，目标说是打造属于全人类的、开放的 AI 组织，其定位是非营利性的，不过在 2018 年马斯克突然离开 OpenAI。

外界传闻有两个版本：

一是特斯拉公司也在研究 AI，与 OpenAI 在研发方向上有冲突，马斯克因此退出了董事会，但继续担任了 OpenAI 公司的顾问。

二是马斯克挖走了当时刚从斯坦福大学博士毕业后加入 OpenAI 的天才少年安德烈，安德烈的研究方向为计算机视觉，主攻图像识别和理解，当时马斯克的特斯拉也需要这样的人才。于是马斯克请这位安德烈去解决特斯拉的问题，为此 OpenAI 公司一气之下把马斯克“踢”出董事会。

图源：维基百科

其二关于安德烈。出生于捷克斯洛伐克的安德烈全名安德烈·卡帕斯（Andrej Karpathy），作为 ChatGPT 发展中的重要人物，是位“85 后”。29 岁时在斯坦福大学拿到博士学位。读博期间，他两次到谷歌公司做毕业实习。

博士毕业后，安德烈 2016 年加入了当时刚成立一年的 OpenAI，是 OpenAI 创始团队的成员之一，只不过工作一年多后，就被马斯克挖到特斯拉去了。

他被马斯克迅速提升，接管了整个人工智能开发团队的软件部分，并和负责硬件的 Pete Bannon 携手主导了特斯拉车控智能软件开发。在此之后，他还接管了擎天柱人形机器人、特斯拉超算系统 Dojo 的开发，可以说是马斯克手下最为重要的人工智能领军人物。

特斯拉人形机器人图源：Tesla 官网

2022 年 7 月安德烈突然离开特斯拉，回归 OpenAI。

安德烈在自己的推特账号上轻描淡写说道：“我和许多其他人一样，不管是处于 AI 圈的还是非 AI 圈，都被 OpenAI 的成果鼓舞感动了。我相信这家公司未来的潜力非常大，因此很高兴重新投入到其中来。”

OpenAI 很多人对安德烈 7 年后重新回到公司充满了期待，给予他 “让 CharGPT 再次伟大（Make ChatGPT Great Again）” 的厚望。

无论何时，在 AI 人工智能领域的人才争夺都是如此激烈。

1.2.ChatGPT 主要功能

OpenAI 官网上说：我们已经训练了一个名为 ChatGPT 的优化对话的语言模型，它以对话方式进行交互。

对话形式使 ChatGPT 能够回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT 经过训练以遵循提示中的指令并提供详细响应。

和曾经的人工智能是“让计算机在固定场景下干固定的事”这个范畴不同，ChatGPT 面对的是一个 “open world”。 全球目前上亿用户向它提问的问题是不可预知的。这恰恰是 AI 开发的难点。

ChatGPT 目前系统功能主要是文本生成、聊天机器人、语言问答、语言翻译、自动文摘、绘画功能、编程功能、视频生成等八大功能模块所组成。如下图所示?：

专家深度：我们用 4 万字告诉你 ChatGPT 到底是什么（上）

星船知造为您逐一稍作展开——

1.2.1 文本生成

ChatGPT 的文本生成功能可根据人们的提问，生成可读的各种文本。文本生成功能通常用于生成新闻、博客、报告等内容。也可用于生成代码、诗歌、小说等各种不同类型文本。

下图为 星船知造 编辑部让 ChatGPT 写一篇“关于中国充电桩各主要生产厂商前景”的报道，然后，它写到一半卡住了?

1.2.2 聊天机器人

ChatGPT 大型语言模型可以实时回答人们提出的各种问题，ChatGPT 可以记住你之前跟它说话的过程与内容。

ChatGPT 聊天机器人具有一定的记忆和思维判断功能，能根据对话内容，前后呼应且有一定的语言逻辑推演能力，这也是 ChatGPT 聊天机器人区别于之前一些人工语言处理系统完全不一样的地方。

1.2.3 语言问答

ChatGPT 的语言问答系统是应用人类语言处理技术，通过识别用户问题并匹配相应答案来回答问题。它通过对大量数据学习和深度分析，以及对语言和语法的深入了解，帮助用户快速找到所需的信息。

ChatGPT 问答系统适用于售后服务与话务员应答、医疗咨询和教育等场景。可 24 小时连续不断地提供服务。

1.2.4 语言翻译

ChatGPT 的语音翻译是利用人工智能技术，将各国不同的文字和语言进行相互转换，可直接把文字转换成不同的语言。它通过使用计算机算法和语音数据库来生成语音合成，可用于语音导航、机器人语音交互、同声翻译、语音自动识别等应用。

1.2.5 自动文摘

ChatGPT 的自动文摘是一种利用人工智能技术，针对大量文本和视频内容进行简化、概括的技术。它通常采用机器学习和自然语言处理方法，识别文本中的关键信息，生成简明、准确的摘要。

可在一次会议后马上整理出会议纪要，或对长达 2 个小时的电话视频做出一份 10 分钟的会议摘要。自动文摘可以缩短文本阅读时间和视频阅读时间，提高编写会议的效率，帮助用户快速了解文本内容。它在新闻、科技、商业等领域都有应用。

1.2.6 绘画功能

用户可以在 ChatGPT 中写一段有关画作的文字描述，描述你想要画出的图片或影像要求。也可以借助 ChatGPT 的提示，使系统更详细地了解你所要描绘的作品。对于产品广告设计和期刊书籍的插画是方便的工具。使用者不需要专业绘画技术的积累。

1.2.7 编程功能

大多数开发场景中，特别是用户需求相对固定的场合，ChatGPT 可以用来编写代码，检查代码语义的准确性，改进和简化人们的编程工作。

ChatGPT 还可以帮助我们提高自己编程代码的质量和可读性，通过你提出的要求，它会逐行添加注释，可以确保代码在发布前得到正确记录，并使其他人更容易理解和使用代码。可提高代码可读性、可维护性和与他人协作的能力。

ChatGPT 其实还有很多功能正在被开发与完善之中，有人把目前 ChatGPT- 3 提供的功能细分为 8 大类 60 项功能，在此我们就不一一赘述了。

1.2.8 视频生成

向 ChatGPT 提问对某一个产品或一个事件的描述，ChatGPT 会送出一份文档，你可以对文档稍作修改，要求 ChatGPT 直接将文档转换成视频。

图源：unsplash

除此之外，ChatGPT 可以被用于 智能助手，智能客服 等领域。

总之，ChatGPT 的出现，为人工智能技术的发展带来了新的思路和技术支持，在数据处理、自然语言处理以及其他领域的应用前景广阔。

图源：unsplash

ChatGPT 的内涵与底层技术架构

有人把 ChatGPT 理解为一个简单的搜索引擎功能，认为其工作原理就是把 2022 年以前网络中已有的数据，加工整理后推送给客户。人们认为 ChatGPT 只要建立一个足够大的数据存储空间，把所有的信息存放在里面，然后进行检索，就可以实现文本问答和聊天机器人功能了。

其实 ChatGPT 的工作原理并不是那么简单，比一般人理解的程度要复杂很多，这里面涉及生成性预训练变换模型和很多关键核心技术和底层逻辑。

2.1 ChatGPT 生成性预训练变换模型

前文我们在介绍 ChatGPT 的含义时已经介绍过，ChatGPT 的全称为“Chat Generative Pre-trained Transformer”，翻译成中文就是生成型预训练变换模型。在此之前，一般所谓的人工智能、机器学习、聊天对话软件在很大程度上都是局限于观察、分析和内容分类以及图像识别。

而以 ChatGPT 为代表的生成性人工智能 AI 是一项技术上的突破，它可以生成新内容，而不仅限于分析现有的数据。它的技术核心是生成性的人工智能。

图源：unsplash

从 ChatGPT 字面上来看，Chat 是聊天的意思，但 GPT 才是关键。

第一个字母 G 是 Generative，属于生成性的人工智能，在这以前的人工智能都局限在观察分析现有内容，但这次 ChatGPT 是个突破，它可以根据我们的需要，创造生成全新的内容。

第二个字母 P 是 Pre-trained 的缩写，预训练的意思。表示这个模型已经在某些有限的数据集上进行了预训练，ChatGPT 在与人的对话中几乎接近正常人的交流，就是因为它已经接受过海量数据的训练，而这些数据就是我们人类 2022 年以前发布在互联网上的内容（目前版本的 ChatGPT 还不具备网络数据实时更新功能）。

由于 ChatGPT 目前还没有实现网络的实时连接，因此回答问题的时效性受到一定的限制。

ChatGPT 在正式发布前，已经进行了大量的监督学习和通过人类反馈强化学习，所以我们在使用它的时候，这个模型能准确快速地生成对话内容。

第三个字母是Transformer，翻译过来就是转换器，这是 ChatGPT 底层人工智能学习的一个算法架构。

ChatGPT 严格意义上来说就是一种基于 Transformer 的自然语言处理模型。采用了预训练加微调的方法，通过对大规模语料库进行预训练，对标注数据进行微调，从而使模型能够适应特定的自然语言处理任务，拥有语言理解和文本生成能力。

2.1.1 ChatGPT 的演进过程

第一阶段：GPT- 1 发布

2018 年 6 月，OpenAl 第一篇论文《Improving Language Understanding by Generative Pre-Training》通过生成式预训练来提高语言理解能力的论文中提出了第一个模型 GPT-1。从这篇论文中得出的关键结论是，Transformer 架构与无监督预训练的结合产生了 GPT-1，加上有监督微调方式，针对特定任务进行预训练，实现了强大自然语言理解能力。

第二阶段：GPT- 2 发布

2019 年 2 月，OpenAI 发表了第二篇论文《Language Models are Unsupervised Multitask Learners》，推出了 GPT-2。GPT- 2 是一种自然语言生成模型，其设计目标是生成与人类语言相似的文本，可以完成多任务处理。

第三阶段：GPT- 3 发布

2020 年 5 月，OpenAI 发表第三篇论文《Language Models are Few-Shot Learners》，推出了 GPT-3。GPT- 2 和 GPT- 3 是两个不同的模型，它们的主要区别在于应用场景、模型规模和性能表现。GPT- 3 是一种自然语言生成模型，它是目前规模最大的预训练模型，可以生成高质量的自然语言文本，包括文章、诗歌、对话等。GPT- 3 还支持一些其他的自然语言任务，例如翻译、问答、语义搜索等。

第四阶段：GPT-3.5 发布

2022 年 11 月 29 日，OpenAI 发布了一个命名为“text-davinci-003”（文本-达芬奇 -003 常称为 GPT3.5）的新模型。它以对话方式进行交互，既能够做到回答问题，也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

2.1.2 ChatGPT 的预训练加微调

所谓的 ChatGPT 预训练，是一个基于 transform 模型的预训练语言模型，它的训练逻辑如下：

第一是语料准备，从互联网上收集大量文本语料。如新闻、书籍、论坛，其中维基百科是它的一个重要数据来源。维基百科是用多种语言编写而成的网络百科全书。

然后是对数据预处理，对语料进行处理，把它们分割成许多独立的句子或段落，对每个句子进行分词。分词后把每个单词转换成数字，生成一个数字序列，然后构建成数字词典。

训练就是使用这些数字序列用 transformer 模型进行模拟场景试验，需要投入大量的人工干预，并使用监督学习的方式对预训练模型进行微调。根据奖励模型优化策略，然后生成输出，ChatGPT 的预训练绕不开正向传递，反向更新，梯度收敛，预训练模型降低了获取更高水平人工智能的成本。

由于至今 OpenAI 没有公开 ChatGPT 相关预训练数据集来源和具体细节，一定程度上阻碍了追赶者的步伐。

2.1.3 ChatGPT 的 Transformer 转换器

ChatGPT 的核心技术之一是 Transformer 转换器，Transformer 技术是近几年人工智能技术最大的亮点之一，由谷歌的人工智能的团队“谷歌大脑”首先发布。

这种模型是使用一种叫自注意力的机制（self attention mechanism），它允许模型在进行预测的时候，可根据语言序列的任何位置，为输入数据的不同部分赋予不同的权重，并支持处理更大的数据集。

Transformer 的精度和性能上都比之前流行的 CNN（卷积神经网络）、RNN（循环神经网络）等模型，大幅提升了模型训练的效果，让人工智能在更大模型、更多数据、更强算力的基础上进一步增强运算能力。此外，还具有很强的跨模态处理能力，不仅在 NLP（自然语言理解）领域表现优异，在语音、图像方面也显示出了优异的性能。

Transformer 是 ChatGPT 语言模型的核心技术，是一种用于序列到序列（Sequence-to-Sequence）任务的神经网络模型，例如机器翻译，语音识别和生成对话等，它使用了注意力机制来计算输入序列和输出序列之间的关系。如下图所示?

未完待续

无论您是 AI 相关产业从业者、投资人、亦或是对人工智能感兴趣，欢迎您关注星船知造。我们将于 3 月 14 日发布报告下篇，具体内容细分详见? 前文《目录》。

下篇将节选出 “ChatGPT 发布后国内主要企业的反应”——包括“我国各地区人工智能发展的现状” 等。以及第四章《ChatGPT 对资本市场影响的分析与研判》和第五章《我国未来人工智能发展的展望》中部分核心内容和观点。

报告发布后，您可关注 星船知造 ， 高清完整版《ChatGPT 技术架构及中国人工智能未来发展趋势报告》。

我们也将继续推出“现代通信与智能网技术展望”系列专栏。

原文链接：https://www.cyzone.cn/article/717720.html

正文完