一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革

115次阅读

链接:https://pan.baidu.com/s/14cFXoIoojbyuLZ4ZYWLstQ?pwd=icyc

提取码:icyc

一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革插图

编辑推荐

适读人群:AIGC 带来的生产力变革与每个人都息息相关,本书适合所有人阅读,特别是文本、图片、音视频等各类内容创作者,以及科技行业、金融行业的从业者和对 AI 领域感兴趣的读者。

1. AIGC 是 2023 年的热点话题,现在已经有很多成熟的应用,ChatGPT 是其中比较典型的应用,由此引发了人们对失业问题的担心。本书介绍了 AIGC 的发展和应用,并且使用了大量的案例,对 AIGC 是否会让我们失业做出了回应。

2. 本书作为一本科普书,内容全面,语言通俗易懂,介绍了 AIGC 在各个领域的应用,可以让你全面了解 AIGC,在未来可以更好的工作和生活。

3. 作者权威,22 位 AIGC 领域专家历时半年编写完成!

内容简介

本书以通俗易懂的方式从各个层面介绍了 AIGC 的基础知识,并辅以大量案例引领读者了解 AIGC 的应用实践,让读者可以更快速地利用 AIGC 改善工作和生活。

第 1 章从 AI 发展历史到资本市场近况阐述了 AIGC 产业的概况,第 2 章介绍了 AIGC 相关技术,第 3 章介绍了文本类 AIGC 技术的发展及其在传媒、教育、办公等场景中的应用,第 4 章介绍了声音类 AIGC 技术的发展及其在音乐、仿真等领域中的应用,第 5 章介绍了图片类 AIGC 技术的发展及其在图片生成、图片处理、图片识别等领域中的应用,第 6 章介绍了视频类 AIGC 技术的发展及其在视频生成、数字人等领域中的应用,第 7 章介绍了 AIGC 上下游产业链(包括芯片、VR 等相关设备、元宇宙建模)的概况,第 8 章提出了 AIGC 对人类文明发展产生的影响,并对普通人如何应对 AIGC 带来的“生产力爆炸”提出方法论。

作者简介

贾雪丽

上海技术交易所专家库专家,代尔夫特理工大学硕士,先后就职于 ING 银行、中国平安、光大集团等顶级金融科技企业,拥有丰富的人工智能、隐私计算及区块链等项目经验,申请人工智能相关发明专利 60 余项,在 INTERSPEECH 会议上发表论文一篇,参与撰写多个隐私计算行业报告和白皮书。

0xAres

利物浦大学硕士,曾先在投资公司工作,后就职于知名公链。从业期间主持制作过多个区块链系列课程,举办过多次“黑客松”,长期致力于区块链的科普教育,有 Web3.0 行业全领域孵化经验,乐于通过多种形式的内容创作传播 Web3.0 共识;2021 年组建去创作者中心化组织 a15a 并开始编写新科技领域的科普书籍,主编了《一本书读懂 Web3.0:区块链、NFT、元宇宙和 DAO》和《一本书读懂 NFT:区块链通证、元宇宙资产、Web3.0 营销和数字化身份》。

张炯

星图比特创始人兼 CEO,中国通信工业协会信息化科技创新专业委员会委员,上海技术交易所专家库专家;曾就职于 IBM,拥有丰富的金融科技从业经验,长期服务中国人民银行、中国工商银行等大型金融机构,擅长技术融合、产业创新,对以区块链、人工智能为代表的数字经济技术有深刻的理解;拥有人工智能和数字资产相关专利 8 项,参与撰写了《一本书读懂 Web3.0:区块链、NFT、元宇宙和 DAO》和《一本书读懂 NFT:区块链通证、元宇宙资产、Web3.0 营销和数字化身份》。

a15a

a15a 是一个 Creator DAO(创作者去中心化组织),致力于以 DAO 的形式来产出新科技领域的内容,降低普通人了解科技的门槛。a15a 已出版多本新科技科普书籍,并计划推出更多体系化课程和讲座。a15a 的主要成员是区块链和人工智能领域的专家、从业者、研究人员和学生,以及法律合规领域的专业人士。在抖音、知乎、小红书、推特等平台上搜索“a15a”即可找到 a15a 官方账号。

精彩书评

无论是 AI 绘画的火热、ChatGPT 惊人的用户增长速度、数字人在线上和线下的使用,还是大模型的迭代,都在宣告 AIGC 时代已经来临。翻开本书,你将成为时代的弄潮儿。

——平安集团首席科学家 肖京

AIGC 时代的到来是一场技术创新驱动的伟大变革。本书能够让你深入浅出地了解生成式 AI 的现状,以及其在各个领域中的应用和相关的技术。翻开本书,你将看到无限可能。

——上海树图区块链研究院首席技术官、微软亚洲研究院前资深研究员 伍鸣

AIGC 将给内容产业带来革命性影响,之所以说革命性,是因为其在“谁是作者”“什么是内容”“什么是创作”这三个问题上给出了与之前纯人工创作内容不一样的答案。这三个问题分别指向内容创作的主体、客体及方式。

这种全面而深刻的影响,与“元宇宙”带来的巨大震撼是可以相提并论的。元宇宙打破了内容产业的“次元壁”,迎来了更广阔的发展空间,而 AIGC 为元宇宙时代的到来提供了产业发动机,是“文化宇宙”的助推器。

本书展现了这幅 AIGC 图景,是打开新内容生产时代大门的一把钥匙。

——中文在线战略运营部总经理 马韬

本书是 AIGC 方面的科普书,可以让读者初窥 AIGC 的门径,既介绍了 AIGC 的基础理论和相关概念,也介绍了相关技术和发展趋势,用各种有趣的案例和实际应用,深入浅出地阐述了生成式 AI。同时,ChatGPT 这样有代表性的 AI 模型的出现,让我感受到了 AI 的觉醒。

——上海市人工智能行业协会秘书长 钟俊浩

AI 商业化正以前所未有的速度融入各个产业,AIGC 应用逐渐进入普通人的生活。从《一本书读懂 Web3.0:区块链、NFT、元宇宙和 DAO》到《一本书读懂 AIGC:ChatGPT、AI 绘画、智能文明与生产力变革》,a15a 团队精心梳理了 AIGC 的“前世今生”。从技术到应用场景,从产业到生态,本书可以让读者更快地对 AIGC 建立基本的知识架构。对于关注 AIGC 赛道的人来说,本书是很好的入门指南。我相信,随着算法、算力、数据的不断加持,AIGC 应用在未来不仅可以生成简单的图片、视频、文本、音乐等,还会展现出惊人的创造能力和商业化能力。AI 文明、硅基文明已然降临。

——南京硅基智能联合创始人 毛丽艳

目录

第 1 章 我们为什么要关注 AIGC

1.1 从人工智能到人工智能生成内容

1.2 巨头如是说

1.3 资本狂潮

1.4 异军突起的独角兽企业

1.4.1 OpenAI

1.4.2 Stability AI

1.4.3 Scale AI

第 2 章 AIGC 相关技术介绍

2.1 规则系统

2.2 变分自编码器

2.3 生成对抗网络

2.4 Transformer 模型架构

2.5 基于 Transformer 模型架构的 LLM

2.6 扩散模型

2.7 其他模型

2.8 LLM 的前景光明

第 3 章 下笔如有神:文本类 AIGC

3.1 何为“智能”

3.2 拆解文本生成技术原理

3.3 文本类 AIGC 在传媒场景中的应用

3.3.1 社交媒体文案:Jasper

3.3.2 新闻写作:Quakebot、CNET

3.3.3 剧本撰写:海马轻帆

3.4 文本类 AIGC 在教育场景中的应用

3.4.1 文章撰写:EssayGenuis

3.4.2 出题和做题:高校联合团队开发的 AI 程序

3.4.3 青少年教育:Cognii

3.5 文本类 AIGC 在办公场景中的应用

3.5.1 搜索引擎优化:Kafkai

3.5.2 营销文案:Copysmith

3.5.3 电子邮件:Compose.ai

3.5.4 代码撰写:GitHub Copilot

3.6 文本类 AIGC 的其他热门场景

3.6.1 AI 聊天机器人

3.6.2 AIGC 搜索引擎:Perplexity AI

3.7 万众瞩目的 ChatGPT

3.7.1 ChatGPT 是什么

3.7.2 ChatGPT 的海量应用场景

3.7.3 GPT- 4 模型:截至 2023 年 3 月最强的 AI 模型

3.7.4 ChatGPT 对普通人意味着什么

3.8 文本类 AIGC 的未来

第 4 章“声临其境”:声音类 AIGC

4.1 从让机器开口说话开始

4.2 音乐类 AIGC

4.2.1 从留声机到个人计算机制作的电子音乐

4.2.2 早期的音乐类 AIGC

4.2.3 端到端模型大展身手

4.2.4 歌声合成

4.2.5 音频延续

4.3 人声类 AIGC

4.3.1 变声器

4.3.2 语音助手

4.3.3 有声内容创作

4.3.4 智能电话机器人

4.3.5 教育

4.3.6 无障碍沟通

4.4 声音类 AIGC 的未来

第 5 章 如你所见:图片类 AIGC

5.1 从计算机艺术到算法模型艺术

5.2 AI 绘画

5.2.1 主流的 AI 绘画工具介绍

5.2.2 生成图片类 AIGC 的方式

5.2.3 Prompt 词组

5.3 图片处理

5.3.1 AI 修图

5.3.2 图片增强

5.3.3 分割抠图

5.4 图片类 AIGC 的衍生应用:AI 识图和 AI 鉴图

5.4.1 人脸和人体识别

5.4.2 通用图片识别

5.4.3 是否由 AI 绘画工具创作

5.5 实用、有趣的图片世界

5.5.1 头像生成

5.5.2 模拟场景

5.5.3 PPT 生成

5.5.4 设计

5.5.5 稿件配图

5.5.6 更多场景

5.6 图片类 AIGC 的未来

第 6 章 众所周知,视频是不能 PS 的:视频类 AIGC

6.1 视频生成技术的发展历程

6.2 视频生成工具

6.2.1 数字人视频生成工具

6.2.2 视频编辑工具

6.2.3 文本生成视频工具

6.3 视频生成应用

6.3.1 高清内容生成

6.3.2 快速拆条和视频摘要生成

6.3.3 场景植入

6.3.4 视频卡通化

6.3.5 文本生成视频

6.3.6 数字人视频生成

6.3.7 人脸视频生成

6.4 数字人:仿生人与电子羊

6.5 视频类 AIGC 的未来

第 7 章 AIGC 的相关产业和生态发展

7.1 芯片:算力决定智力

7.1.1 在 AIGC 领域中,现在用什么芯片

7.1.2 随着 AIGC 的发展,对芯片会有什么新的需求

7.2 AIGC 展示端口:AR/VR/MR/XR 设备

7.3 模型类 AIGC 应用在元宇宙里自动化建模

7.4 AIGC 应用的未来

第 8 章 AI 文明的降临已开启倒计时

8.1 何谓内容

8.2 AIGC 的版权争议

8.3 普通人的 AIGC 时代生存建议

8.3.1 生产力工具:“人工”+“智能”= 最强“打工人”

8.3.2 做 AIGC 应用的老师,为人类的“群体智慧”做贡献

8.3.3 向 AIGC 应用学习逻辑,同时关注创新

查看全部↓

精彩书摘

3.7 万众瞩目的 ChatGPT

3.7.1 ChatGPT 是什么

相信大家都听说过现在火热的 ChatGPT。有人甚至说 ChatGPT 的面世让元宇宙提前 10 年到来。ChatGPT 到底是什么?OpenAI 的官网介绍如下:

ChatGPT 是一种可以用对话形式交互的 AI 语言模型。ChatGPT 能回答符合上下文语义的多次提问,能认识到自己在对话过程中的不足,能纠正不正确的前提假设甚至拒绝不合理的要求。

ChatGPT 这个拗口的名字来源于其背后的模型:GPT 模型。截至 2023 年 3 月,GPT 模型已经发布到了第 4 代。GPT 模型由 AI 专家团队使用 RLHF 策略训练而成。训练的方式是大数据学习和人工反馈。OpenAI 官网介绍,AI 训练员提供对话框架后,在对话中既扮演用户,又扮演 AI 助手。AI 训练员可以访问模型,对 AI 助手回复的答案进行优化。同时,AI 训练员把新的对话数据集与之前的存量数据集混合,将其转换为对话格式。在海量的大数据训练之后,ChatGPT 能用大家熟悉的沟通方式进行互动,生成新的内容而不是重复使用现有的内容。

让中国用户惊喜的是,ChatGPT 不仅支持英语、法语、德语等,还支持汉语。2023 年 3 月 14 日,OpenAI 官方公布的数据显示,汉语的准确率高达 80.1%,是准确率最高的亚洲语言,超过了日语(79.9%)和韩语(77.0%)。

3.7.2 ChatGPT 的海量应用场景

你可能会问,AI 聊天机器人已经应用了多年,ChatGPT 和之前的 AI 聊天机器人有什么区别?其实答案在于高可用性和丰富的落地场景。与之前普通的机械式的 AI 聊天机器人不同,ChatGPT 真正具备了“智能”的特点,能用逻辑思维解决问题,甚至能在学术能力评估测试(Scholastic Assessment Test,SAT)的数学考试中取得 710 分(满分为 800 分)。ChatGPT 的应用场景如下。

1.快速收集资料,高效检索信息

很多人在工作中都需要快速地收集资料并得出事实性的结论。比如,向 ChatGPT 发出“请列举历史上市值最高的互联网公司”的指令。ChatGPT 很快锁定了公司并且给出了它的估值。

历史上市值最高的互联网公司是美国科技巨头苹果公司。苹果公司在 2018 年 8 月成为首家市值突破 1 万亿美元的公司,随后其市值一度超过 2 万亿美元。截至 2021 年 9 月,苹果公司的市值约为 2.2 万亿美元,成为全球市值最高的公司之一。

值得一提的是,亚马逊公司在 2018 年 9 月曾一度超过苹果公司成为市值最高的公司,但其市值并未持续超过苹果公司。此外,其他在互联网和科技领域具有重要地位的公司,如谷歌的母公司 Alphabet、Facebook 等也都是市值数千亿美元的巨头企业。

你可能已经注意到了,我们问的是市值最高的公司是哪家公司(苹果公司)。ChatGPT 在第一段就给出了答案,但是 ChatGPT 的回答更深入,提到了很多别的互联网巨头,如亚马逊、Facebook 等。ChatGPT 就像一个优秀的员工,在完成本职工作的同时,做了很多额外的工作,让回答更加全面。

试想一下,在没有 ChatGPT 的时候,我们需要在传统的搜索引擎上查找资料,在收集完原始数据后,还要进行人工计算和信息处理。这样一问一答的形式,不仅是人们更熟悉的沟通方式,在信息传递上也更高效。其背后的逻辑很简单,我们在提出一个问题的时候,希望得到的是一个答案,而不是上万个搜索结果页。

我们把人们检索信息的历史简单地分为三个阶段:

(1)前搜索引擎时代——书报时代。人们翻阅书籍、报刊,一页一页地查找需要的信息,麻烦且效率低下,而且找到的信息往往不全面。

(2)搜索引擎时代。人们把自己需要查找的信息的关键词输入搜索引擎中,然后根据搜索引擎返回的结果,二次或多次处理信息,最终得到自己想要的信息。

(3)后搜索引擎时代——ChatGPT 时代。人们可以直接提问,ChatGPT 可以直接给出答案。问题越明确,回答得越具体,越高效,但答案不一定完全准确,需要二次验证。

很有意思的是,ChatGPT 有纠正错误的能力。例如,向 ChatGPT 发出“物理学家莫奈有哪些名作”的指令。ChatGPT 在回答问题之前,纠正了问题的一个错误——莫奈并不是物理学家,并给出如下回复。

很抱歉,我认为您可能把名字写错了。因为莫奈(Monet)通常是指印象派艺术家克劳德·莫奈(Claude Monet),而不是物理学家。

如果您想了解莫奈的作品,请看以下列表:

-《草地上的午餐》(Luncheon on the Grass)

-《印象·日出》(Impression, Sunrise)

-《鲁昂的大教堂》(Rouen Cathedral)

-《海港》(The Port)

-《鲜花和水果》(Fruit and Flowers)

2.创意文案生成

这可能是所有创意工作者的福音,因为 ChatGPT 可以做很多有创意性的工作。例如,向 ChatGPT 发出“与 ChatGPT 相关的爆款短视频选题有什么”的指令。ChatGPT 快速给出了 8 个选题。不得不说,有几个选题还真让人拍案称绝。

作为一个 AI 语言模型,我的性质决定了我不是一个可视化的对象,因此不太适合作为短视频选题。不过,以下是一些和我相关的可能会在抖音或其他社交平台上受欢迎的短视频选题的例子:

ChatGPT 是什么?一个对话式 AI 语言模型的简介和介绍。

ChatGPT 的技术原理和工作流程,可以通过动画或演示图表的方式呈现。

ChatGPT 的使用场景和应用,可以通过场景模拟或用户体验展示。

ChatGPT 与人类对话的实时演示,可以通过模拟对话或录制实际对话的方式展示。

这些选题可以让用户更好地了解 ChatGPT,吸引关注和讨论。

3.书写高质量的代码

即使你不会写代码,也没有关系,ChatGPT 可以帮你实现这个梦想。以最常用的结构化查询语言(Structured Query Language,SQL)为例,向 ChatGPT 发出“请写一段 SQL 语句,查找各部门分数最高的 3 个员工”的指令。ChatGPT 先快速地创建了两张表格,一张是员工表(员工 ID、员工姓名、部门 ID 和员工分数),另一张是部门表(部门 ID 和部门名字)。

employees (id, name, department_id, score)

departments (id, name)

然后,ChatGPT 就开始输出以下代码。

SELECT e.name, e.score, d.name AS department_name

FROM employees e

JOIN departments d ON e.department_id = d.id

WHERE (

SELECT COUNT(*)

FROM employees e2

WHERE e2.department_id = e.department_id AND e2.score > e.score

) < 3

ORDER BY d.name, e.score DESC;

最后,ChatGPT 还担心用户看不懂这段 SQL 语句,用中文做了一下解释。

该查询使用子查询来计算每个员工的部门中有多少个员工比他们的分数高,然后筛选出前三个。最终的结果按部门名称和员工分数降序排列。

如果你懂编程,那么可能会觉得上面的例子过于简单。不过,你可别小瞧了 ChatGPT 写代码的功力,ChatGPT 的编程能力虽然与一线互联网“大厂”的程序员相比还有差距,但是已经超过了很多普通的程序员。

4.逻辑性预判和回答

在图 3 -20 中有很多气球通过绳子拴在地面的重物上。向 ChatGPT 发出“What would happen if the strings were cut?”(如果把绳子剪断会发生什么?)的指令,ChatGPT 准确地给出了结论“The balloons would fly away.”(气球会飞走)。从这个回答中可以看出,ChatGPT 不仅可以读懂图片的内容,还能像人一样,结合生活常识对未发生的事情预判结果。

查看全部↓

前言 / 序言

本书于 2022 年 9 月开始筹备编写,至 2023 年 3 月完结。在此期间,我们见证了 ChatGPT 的崛起,也见证了 AIGC 在全球范围内引起热议。

ChatGPT 有多火?或许我可以用自己真实经历的一天来简单说明。

2023 年 2 月 14 日,我在北京财富中心坐电梯,电梯中的 3 位中年人在争论 ChatGPT 是否可以代替人类写文字作业。10 分钟之后,当我在餐厅吃饭时,坐在我旁边桌上的人也在讨论 ChatGPT。晚上 8 点,我在健身的时候,健身教练问我是否知道 ChatGPT,能否教他怎么使用 ChatGPT 生成健身文案。晚上 10 点,年逾 60 岁的长辈给我发微信消息,说 ChatGPT 最近很火,或许可以帮助我写书。

不分年龄,不分职业,几乎所有的人都在关注 ChatGPT 和 AIGC,并且迫切地希望将其应用到自己的工作中。

问题是,上面提到的四批人,很明显都没有使用过 ChatGPT,甚至也没有使用过类似的“包壳产品”(许多所谓的 AIGC 应用其实连接的是 ChatGPT 的 API)。他们对 AIGC 的认知大多来自碎片化信息,而这些信息可能已经传播了五六手,甚至七八手。

我想问的第一个问题是,是否所有人都可以公平地享受科技发展带来的生产力进步?

显然不是。有相当一部分人,或因为接收信息渠道的问题,或因为受教育程度的问题,或因为自身学习能力的问题等,没有办

原文链接:https://www.bilibili.com/read/cv22719060

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-16发表,共计7798字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。