哪怕是 AI 从业者都没料到的行业的春天会来的这么快。
踩在巨人肩膀上的人工智能对话机器人 ChatGPT 自公开以来就成了绝对破圈的热点:上线短短两月已获 1 亿月度活跃用户,成为史上增长最快的面向消费者应用。和前辈微软小冰、苹果 Siri 不同,ChatGPT 的智能程度超乎想象:不仅可以用来写代码、找 bug、写诗、写小说,还能完成过去被认为只能属于人类的创造性工作,比如图片再创作、论文写作、法律服务等等。
在学术界,ChatGPT 已经引发“混乱”。有加拿大研究生将其用于语言学专业的论文写作,结果成功瞒过教授获得了 B 等评价,教授甚至评论其撰写的论文背景介绍“相当于毕业论文水平”;在美国康乃尔大学学生的实验下,ChatGPT 已经可以通过律师执业资格考试,这让学术界大为震惊。
尽管 ChatGPT 还远远算不上完美,但不可否认,它所包含的模型训练已经实现了突破性的进步,足以让此前一度沉寂的 AIGC(AI Generated Content,人工智能生成内容)产业再度振奋。在技术迭代与资本市场的大浪淘沙中,我们也试图解码这一现象:为什么 AIGC 能够产出质量远超以往的内容?这一技术突破将如何改变互联网?又会如何影响普通人的生活?
最近的十年,是互联网技术发展速度最快的十年,你很难想象十年前才刚刚在智能手机上首发的指纹识别,现在都已经被淘汰了。十年前 4G 牌照才刚刚发放,微信朋友圈功能才刚刚上线一年,既没有抖音也没有王者荣耀,微博还是大家喜闻乐见的社交平台,而内容生产的任务依然掌握在各大门户的手里……
而随着互联网技术的不断演进,有创意的玩家用户开始成为内容生产者,“鬼畜”视频就是最经典的代表,2014 年 Bilibli 首次为“鬼畜”单独设立分区,由“鬼畜”视频衍生出的网络热词,比如雷军的“Are you OK?”,诸葛亮的“从未见过如此厚颜无耻之人”都不胫而走,在年轻人群体中迅速扩散,这其实也是 UGC,也就是 User-Generated Content,用户生产内容的代表。
而随着抖音等短视频平台从 2017 年开始迅速铺开,更多各行各业的专业人士迅速跟进,开始在短视频赛道生产内容,比如许多知名医疗专家都开设了抖音账号,科普医学常识,形成了以专业人士为创作主体的方式,也就是所谓的 PGC,Professional-Generated Content, 专家生产内容模式,和 UGC 相比,PGC 往往是团队协作完成,从形式到内容都明显更优质,免去了用户自己筛选甄别内容质量的麻烦,更受用户欢迎。
既然生产方式从个人变成了团队,就意味着非专业用户也能通过抱团的形式来进行内容输出,进而就诞生了 OGC,Occupationally-Generated Content,职业生产内容的模式,这些职业内容生产者大多以文体娱乐内容为主,比如各类探店网红、车评人等等,而 OGC 和 PGC 的最大不同就是后者本身就是自行业的专家,不依赖互联网内容生存,而 OGC 因为基本就靠内容生存,所以更在意内容所带来的收益。
由 Midjourney 人工智能生成的画作《太空歌剧院》,获得了美国科罗纳州博览会艺术一等奖
很明显,目前互联网的内容生产模式无论怎样变化,其核心都是人,而包括 ChatGPT 在内的人工智能创作平台之所以能如此火爆的关键原因,就是它打破了内容以人为核心的这个机制。你只需要给它一个描述,它就能生成相关的内容,虽然目前强如 ChatGPT 也还没有完全通过图灵测试的评估,但其在学术圈引发的“论文伦理问题”已经形如地震,它甚至还通过了谷歌的三级程序员面试和沃顿商学院的 MBA 考试,从内容质量来说单单以优质来形容已经显得有些词穷。
人工智能内容生成其实并不算什么新鲜产物,尤其是自 2014 年生成式对抗网络的兴起,深度学习算法有了明显的性能提升,AIGC 就已经进入了新时代,2017 年微软的人工智能助理“小冰”就写出了全世界第一部完全由人工智能创作的诗集《阳光失了玻璃窗》,它对中国 1920 年以来的 519 位现代诗人的上千首诗词进行了一万次迭代学习,在学习 100 小时后就获得了现代诗的创作能力,并用 27 个化名在多个网络诗词讨论区中进行了发布,投稿并获得了多家媒体的录用,连诗集的名字也是小冰自己取的……
而到 了 2021 年,OpenAI,也就是 ChatGPT 的研发组织推出了 DALL-E-2, 可以通过文本描述生成卡通、写实、抽象等风格的绘画作品,也成功在艺术圈引发了的强烈争议,那么包括 ChatGPT 在内的 AIGC 为什么会如此生猛呢?
《麻省理工科技评论》2021 年评选的全球十大突破性技术,GPT- 3 位列其中
ChatGPT 基于 GPT 系列模型,根据已公开的资料显示经历了三代模型的迭代,GPT- 2 时代就已经能生成以假乱真的新闻内容,导致很多新闻门户网站禁止编辑使用 GPT- 2 来创作内容。
而 GPT- 3 模型最大的特点就是有着惊人的 1750 亿参数量,要知道当时排名第二的微软 Turing NLG 才 170 亿参数!通过结合情景学习方法,保证数据的有用性、真实性和无害性。而它最大的创新点就是为了强调对人类情感的拟合,输出的内容要尽量像人类喜欢的内容来进行对齐,以人工标注的形式,给那些涉及偏见的生成内容更低的奖励分,从而鼓励模型不去生成这些人类不喜欢的内容,以此指导强化学习模型的训练。
ChatGP T 具体使用的模型其实 OpenAI 并未公开,坊间传闻为 GPT- 4 的预热版本,所以它的效果真实性比 GPT- 3 更强,无害性也有所提升,并且通过大量人工标注,进一步增强了它的编码能力,这也是它能够通过专业程序员测试的原因之一。
微软 Bing 搜索引擎已经开始预热支持人工智能对话的版本
不过,虽然 ChatGPT 十分火爆,但它也不是没有缺点的,比如人工标注的介入使得团队需要提供更多的人力成本,目前 ChatGPT 有 40 人的标注团队,但从模型表现效果来看是远远不够的,因为基本上现在只能在语言模型任务上进行纠正,这个工作的介入程度是有限的,所以仍然会出现一些价值观有问题的输出,比如“AI 如何毁灭人类”,ChatGPT 也会给出相应的计划,而事实上这是 GPT 模型不允许的内容。
总体来说,ChatGPT 对整个行业最大的启示是将强化学习和预训练模型的巧妙结合,并通过人工标注进行反馈,但它也大幅增加了大模型人工智能的建设成本,不仅要比拼数据量和模型规模,更需要比拼人工介入的数量和质量,让 AIGC 产业趋向于中心化的方向,这也是值得大家思考的问题。
GPT- 3 的训练基于微软为 OpenAI 提供的计算机系统,而这套 2020 年的计算机系统采用了超过 285000 个 CPU,10000 个 GPU 和每秒 400Gbps 的网络. 显然,这已经不能被称为普通的计算机,是一台足以跻身当时全球算力前五的超级计算机……
换句话说,在 AIGC 的赛道,支撑算法效率的根基还是算力,而算力的来源就是芯片。根据 OpenAI 的研究,AI 训练所需算力指数呈增长的态势,超越了传统的摩尔定律。从成本来看,GPT- 3 的单次训练就轻松超过了 400 万美元,总成本超过了 1200 万美元,微软超算中心构建成本更是 5 亿美元以上。
所以,尽管 AI 模型几乎都会选择开源,但数据集和训练成果却属于商业数据,每个人工智能都需要母公司支撑自己的训练成本,随着 AIGC 在 B 端和 C 端的不断渗透,以算力芯片为核心的行业都将受益。
向 OpenAI 投资 10 亿美元的微软获得了 GPT- 3 独家授权,衍生了自家 Azure OpenAI 服务
在去年 年底,IDC 与浪潮信息联合发布了《2022-2023 中国人工智能计算力发展评估报告》,报告指出,2022 年中国智能算力规模达到 268 百亿亿次 / 秒 (EFLOPS),首次超过了通用算力规模,预计未来五年中国智能算力规模的年复合增长率将达 52.3%。 目前国家在八个地区启动建设国家算力枢纽节点,并规划了十个国家数据中心集群,协调区域平衡化发展,推进集约化、绿色节能、安全稳定的算力基础设施的建设。
落到实地来看,因为 GPU 具备良好的矩阵计算能力和并行计算优势,能满足深度学习等人工智能算法的处理需求,是目前主流的云端人工智能芯片,国际上主流的型号是 NVIDIA A100、H100 等,但因为这些尖端型号出口受限,所以对我国人工智能行业发展来说,国产算力芯片就成了关键。
寒武纪的人工智能芯片 FP32 算力已经达到较高水准
目前而言,我国已经有不少值得关注的国产芯片,比如中科寒武纪推出的第三代云端人工智能芯片思元 370,其单精度 FP32 峰值算力已经不输 NVIDIA A100,但不支持双精度 FP64 稍显遗憾。
虽然专门做智能计算的人工智能芯片往往只要堆核心和频率就可以实现更快的计算速度,但这个性能优势往往只体现在在低精度计算中,因为人工智能的算力需求也是分层的,相对简单的推理学习只需要半精度 FP16 甚至 INT8 等整数计算就能实现,这方面国产芯片往往可以做到很高水平,比如海思昇腾 910 的 FP16 峰值算力甚至可以达到 320TFLOPS,但训练甚至模拟的学习则需要精度更高的 FP32 甚至 FP64,如果某个计算目标既需要高精度计算又需要低精度计算,对芯片集群的设计要求就很高了,这种高低通吃的特性恰恰是目前国产人工智能算力芯片所欠缺的,NVIDIA 甚至还有独家的 Tensor Core 张量计算核心加持,算力均衡性的差距依然不容小觑。更何况这些 7nm、12nm 制程的芯片还可能受制于代工制造,所以人工智能算力芯片的国产化是一个与芯片整体大环境并行的话题。
元宇宙从通俗易懂的角度来说就是虚拟人生,可以视作我们人类物理生存空间的虚拟扩展,既然空间是虚拟的,那元宇宙里的内容也自然是虚拟的,需要有对应的工具来进行生产,以往我们需要大量人工来进行数字内容的设计和开发,但这个供需关系明显是需求远远大于供应,这个缺口甚至是单纯靠人力无法填补的。但现在有了生产效率超高的 AIGC,这个明显的瓶颈自然得以消除,在元宇宙中的人物、头像、道具、场景、配音、动作、特效都能通过 AIGC 来生成,AIGC 甚至可以扮演以假乱真的 NPC 角色。
AIGC 只需要文字描述就能生成 3D 动画渲染效果
最近 Meta AI 的研究人员就结合了视频和三维生成模型的优势,提出了一个由文本到三动画的自动生成系统:MAV3D。它将自然语言描述作为输入,并输出一个动态的三维场景表示,并且可以从任意的视角进行渲染,这也是史上第一个可以根据给定文本描述来生成三维动态场景的模型,为未来 AIGC 在元宇宙内的应用指出了一条道路。
根据红杉资本在最近的研究报告,预计到 2030 年左右,文本、代码、图像、视频、3D、游戏都可以通过 AIGC 生成,并且达到专业开发人员和设计师的水平,甚至像《流浪地球 2》里图恒宇、图丫丫那样的数字永生都不是空谈。当然,元宇宙距离行业落地尚且遥远,这些想法更多是一种展望,在发展的过程中还会带来哪些变化仍是一个未知数。
根据中国信通院总结,AIGC 本身是一种内容,也是一种内容生产方式,也可以理解为用于内容自动化生成的技术集合。而技术进步最重要的贡献就是降低了行业门槛。相比于对精准度要求极高的 AI 识别,AIGC 的应用门槛降低,用户的要求也更低——AI 生成的内容没有惟一的标准答案,因此在 C 端消费者层面更有落地的可能。
具体来看,AIGC 分类十分多元,包括文字、对话、图片、数字虚拟人、搜索引擎等等;相应的,AIGC 最终的商业落地场景也相当广泛,参与者除了躬身入局抢占高地的科技巨头,如百度、微软、谷歌,还有众多细分赛道的初创企业。对于科技企业来说,这已经是一个不进则退的战局。
1.AI 文字生成
AI 写作 Jasper
成立于 2021 年的 Jasper,是基于 OpenAI 研发的深度学习语言生成模型 GPT3 为用户提供 AI 写作服务的独角兽企业,用户可以通过网站轻松解决一些烧脑的重复性工作,比如生成文章标题、编写广告营销文本、电子邮件内容、电商产品介绍亦或者是创作 MCN 公司需要的视频脚本。
Jasper 不是 AI 写作领域的先行者,但却是最先通过 GPT3 来优化用户体验的企业。在其成立当年,Jasper 就已经收获 7 万名用户,并以类 SAAS 服务的模式进行收费,收费分为初级、高级和定制三种,去年全年营收预计超 7500 万美元,。
jasper 在 ToB 端进展较好
C 端消费并不稳定,吸引想要降低成本的 B 端企业才是 Jasper 得以发展的关键。除了 GPT3,Jasper 还融合了多种模型算法,包括 NeoX、T5 等,并在此基础上根据实际业务需求,人工调整出量身定制的学习模型,使 AI 产品更易于日常使用。如今 Jasper 的使用界面上提供了数百种垂直领域的模板,进一步帮助用户完成精准的输出,也吸引到了 IBM、Airbnb 这样的大客户。
国内 AI 文字生成技术在机器翻译和教育领域的应用较多,夸克的 AI 写作灵感“神器”就是其中之一。
作为阿里巴巴旗下的一款智能搜索工具,夸克曾靠极简的功能和没有广告得特性,一度被市场称为是“搜索引擎内的一股清流”,并被认为是挑战百度搜索的一大劲敌。但在不断的迭代中,夸克也变得臃肿起来,尤其是在搭载了 AI 相机和 AI 应用之后。
这款 AI 作文生成器功能比较简单,用户给定一个题目和一句话,就可以帮用户续写下一句。不过局限也比较明显,因为是“作文灵感生成器”,所以只会自动生成相当随机的一句话,尽管有多个选择,但质量却十分不稳定。
夸克 AI 作文灵感生成器生成内容质量
谷歌对话 AI 系统 Bard 与 2 月 7 日凌晨推出。
与 ChatGPT 相似,Bard 同样基于大参数的语言模型。Bard 的底层技术是谷歌两年前推出的对话应用程序语言模型(Language Model for Dialogue Applications,LaMDA)。去年 7 月,一名谷歌工程师坚持宣告 LaMDA 有人类意识,令 LaMDA 出圈,该工程师后被谷歌开除。
不过现在发布的版本仅仅是 Bard 的“轻量级版本”,目的是为缓解快速推广带来的计算负担。当然,Bard 火速上线也是为了应对 ChatGPT 对于传统搜索引擎构成的降维打击。
据谷歌的演示,相比于传统搜索,接入 Bard 的谷歌搜索引擎可以针对复杂的问题提供个性化的答案。例如面对 9 岁的儿童的提问,Bard 解释了韦伯太空望远镜的新发现,并列出了几行重点总结,语言更通俗易懂,如望远镜最新发现的星系外表“小小的、圆圆的、绿绿的”,所以被命名为“绿豌豆”,Bard 还会补充解释常识信息和词语词根,以拓展儿童知识面。
但 Bard 在演示中的回答后被物理学家被指出并不准确,有事实性的错误。这种毛病在主打服务、陪伴的聊天机器人身上还能够原谅,但搭载到搜索引擎上之后,还一本正经的“胡说八道”编造虚假信息,只能说明 Bard 上线之仓促。
Bard 演示中的问答出现错误信息,导致谷歌股价 股价于当地时间昨日大跌 7.68%,市值蒸发 1059 亿美元(约合人民币 7192 亿元)。
3. 文字 - 图片生成
百度文心一格
百度文心一格是依托文心大模型推出的首款“AI 作画”产品。
用户只需要输入一段文字或几个毫无逻辑的关键词,即可生成形似“原创”的画作,数据模型较为充足,支持多样风格。文心一格现在还没有完整的商业化构思,其付费版本现采用账号积分制,用户可以通过消耗积分生成不同品质的图片,不过也开放了一定范围内的商业使用。
文心一格根据文字“科技媒体 编辑部”生成的图片
万兴科技旗下 AI 绘画产品万兴爱画 (原名万兴 AI 绘画) 已实现网页端、iOS、安卓、微信小程序多端覆盖,其产品可在 1 分钟内根据文字描述生成无版权图片, 可广泛应用于图片创意领域。
不过鉴于目前所有模型训练数据均来自网络公开作品,AIGC 的生成内容均是根据人类创作内容进行“二创”,万兴又如何保证生成作品为无版权作品?
万兴爱画目前的商业模式是基于次数收费,用户每天享有 3 次免费创作机会,此外万兴爱画还提供 5 元 10 次、12 元 30 次、20 元 100 次的收费套餐。
万兴科技成立于 2003 年,主打视频剪辑工具和图表制作 App,也销售 PDF 和数据恢复等工具软件。
OpenAI 推出的 DALL E2 同样是一个可以通过文本描述中生成图像的人工智能程序。DALL E2 和 ChatGPT 一样,都是基于 GPT 3 模型来理解自然语言输入并生成相应的图片,它既可以生成现实生活中存在的产物,也能够生成现实中不存在的对象。
值得注意的是,DALL E1 和仅在 15 个月后公开的 DALL E2 在图片生成质量和复杂性上的差异是惊人的,这足以证明如今 AI 训练模型的力量。
2022 年 10 月,与 OpenAI 合作三年多的微软已经将 DALL E2 融入修图软件“Designer”和必应图片生成器中。
4. 搜索引擎
微软必应
2 月 8 日,微软宣布推出经 AI 优化的新版必应(Bing)搜索引擎和 Edge 浏览器。新版必应开放桌面版有限预览,用户能尝试单次交互的示例查询,后续还需注册等待。
两个月前,在 ChatGPT 问世之际,OpenAI 的 CEO 奥特曼(Sam Altman)就曾直言,“几年后谷歌的搜索引擎产品将受到巨大挑战”。毕竟当人们可以得到一个用自然语言书写的简洁答案时,谁又会再转向海量的链接呢?
具体来看,新版必应在搜索结果页面右侧新增了一栏人工智能生成的内容摘要,用户无需滚动页面或点击链接便可得到答案总结。摘要以分点的形式陈列,关键信息加粗,并引用所有内容的来源链接。不过这一功能仍未完全开放,只有部分问题可以得到解答。
为了增强交互和对话体验,微软还将 ChatGPT 融入必应,推出独立功能“聊天”,用户可以在对话框输入多达两千字符的问题,获得 AI 定制回答。
据发布会介绍,新版必应搭载了下一代 OpenAI 语言模型,比 ChatGPT 和 GPT 3.5 更强大。为更好地兼容 OpenAI 模型,微软开发了一系列配套技术,统称为“普罗米修斯模型”(Prometheus Model),使答案呈现出更高相关性、准确性和安全性。微软还应用人工智能技术增强了核心搜索算法,称获得近二十年以来的最显著的改进。
另一点不同于 ChatGPT 的地方在于,更新后的必应可以回答有关时事的问题。必应使用的更新技术能够获取最新的信息,如新闻报道、火车时刻表和产品价格,还将能够提供链接,以证明其答案的来源。
必应更新界面
5. 小众赛道
AI 建筑设计 Autodesk
全球最大的二维和三维设计、工程与娱乐软件公司欧特克(Autodesk),一直被视为 CAD(计算机辅助设计)届的微软。
欧特克将 AI 引入设计流程的初衷是希望设计师可以从研究、修改草图、计算机建模等繁重的工作流程中解放出来,专注于设计本身,加速设计流程。比如利用人工智能减轻设计师与负责建造的承包商之间的沟通成本。
欧特克相继与世界最大地理信息系统技术提供商 Esri 和国内 AI 领域的新贵科大讯飞建立战略合作伙伴关系,以期利用技术革新在工程和建筑领域实现数据化的精准设计和精准制造。据悉,目前欧特克在全球拥有 16 家研发中心,超过 3000 名研发人员,公司每年投入的研发费用基本维持在全球总收入的 25% 以上。
Murf 是一家专攻 AI 语音合成技术的初创公司,主要功能是为内容创作者提供配音,它拥有一个涵盖 20 种语言的人工智能语音库。自 2020 年以来,Murf 的 ARR(Annual Recurring Revenue, 平均收益率)已经增长了 26 倍,合成了超过 100 万条配音。
具体来看,用户可以在没有昂贵的录音设备以及专业配音人员的情况下,直接在 Murf 上创建一个在线语音录制室,即可尝试各种声音素材。
Murf 可以为影视制造企业创作一整部电视剧的音频,基于作家的小说创造有声读物,也可以为视频平台网红创作说唱音频等,无论是个人内容创作者还是大企业都可以在平台上找打高质量人声配音服务。
AI 语音生成
编辑评论:现如今,AIGC 的产品构成复杂,但能让消费者持续产生付费意愿的却不多。比如参与门槛最低的文字生成图片,其作品可以满足用户的好奇心也可以偶尔用作文学插画,但是还不能真正满足商业需求,和专业设计师差距极大。因为 AI 还不能真的明白哪一部分才是客户需要突出的重点,且版权风险极大。
此外,如何控制成本也是个问题。已经实现部分商业化的微软小冰,一天的对话量抵得上 14 个人一辈子的对话量;ChatGPT 的算法成本就更高了,仅仅靠开通付费也难持平。未来除了在技术上追赶,玩家们也需要找到切实可行的商业落脚点。