近期,聊天机器人 ChatGPT 大火,热度赶超 2021 年的元宇宙。数据显示,2022 年 12 月 5 日,上线仅 5 天的 ChatGPT 用户数量突破 100 万,而它在 1 月的活跃用户数已达 1 亿,成为史上用户数增长最快的消费者应用。
一、凭什么是 OpenAI
ChatGPT 是 OpenAI 团队在 2022 年 11 月 30 日发布的全新聊天机器人模型。ChatGPT 能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。
OpenAI 是由创业家埃隆·马斯克、美国创业孵化器 Y Combinator 总裁阿尔特曼、全球在线支付平台 PayPal 联合创始人彼得·蒂尔等人于 2015 年在旧金山创立的一家非营利的 AI 研究公司,拥有多位硅谷重量级人物的资金支持,启动资金高达 10 亿美元。
OpenAI 的创立目标是与其他机构合作进行 AI 的相关研究,并开放研究成果以促进 AI 技术的发展。据悉,埃隆·马斯克为公司的创始人,但于 2018 年离职,原因是特斯拉与 AI 的关联越来越深,外界担忧特斯拉将运用 OpenAI 的技术实现升级,同时马斯克也忍受不了长期以来没有重大产品突破,何况马斯克公司太多,实在顾不过来。
1 月 24 日,微软公司在官方博客宣布已与 OpenAI 公司扩大合作伙伴关系,两家公司合作伙伴关系进入第三阶段,微软将向 OpenAI 进行一项为期多年、价值数十亿美元的投资,以加速其在人工智能领域的技术突破。此外,微软在宣布将搜索引擎 Bing(必应)、Office 全家桶嵌入 ChatGPT 后,还将在云计算平台 Azure 中整合 ChatGPT,宣告 Azure OpenAI 服务全面上市。2 月 7 日,微软推出整合 OpenAI 技术的新版必应搜索引擎和 Edge 浏览器。此外,亚马逊、BuzzFeed 等互联网大厂同样宣布与 ChatGPT 展开合作。
所以,OpenAI 除了人才和技术优势,背后离不开微软大金主的助力,当然微软也发挥云计算、数据等方面优势,从而实现快速突破。
二、ChatGPT 发展历程
无监督学习 GPT-1:GPT- 1 诞生于 2018 年 6 月,以 Transformer(一种利用注意力机制来提高模型训练速度的模型)为核心结构,通过自左向右生成式地构建预训练任务,然后得到一个通用的预训练模型,这个模型和 BERT(一种预训练的语言表征模型)一样都可用来做下游任务的微调。
多任务学习 GPT-2:GPT- 2 诞生于 2019 年,同样基于 Transformer,相比于 GPT-1,GPT- 2 采用了更多的网络参数和更大的数据集,最大模型共计 48 层。
海量参数模型 GPT-3:2020 年 5 月,OpenAI 发布了以 Transformer 为基础的 NLP(自然语言处理)预训练模型 GPT-3。GPT- 3 采用 1750 亿个参数,规模是 GPT- 2 的 117 倍,不经过微调便可以识别数据中隐藏的含义。作为一个无监督模型,GPT- 3 几乎可以完成自然语言处理的绝大部分任务,诸如将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本等复杂任务。
基于人工标注数据和强化学习的 GPT-3.5(ChatGPT 原型):GPT-3.5 是 GPT- 3 和 GPT- 4 之间的过渡版本,训练参数是 GPT- 3 的 10 倍以上。ChatGPT 还采用了颠覆式的迭代方式:人工标注数据和强化学习。其本质是加上了在 GPT- 3 上去掉的微调步骤,从而实现在与人类互动时从反馈中强化学习。
展望 GPT-4:GPT- 4 有可能是多模态的,支持文本、图片、视频等多种数据类型的输入。这意味着 GPT- 4 可以根据文本提示词(prompt)生成图像,或者是可以输入视频,然后通过文本的形式回答问题。
几个月后,OpenAI 将推出 GPT-4,届时它的参数将比 GPT3.5 提升几个量级,算力需求将进一步提升。OpenAI 在《AI 与分析》报告中指出,AI 模型所需算力每 3—4 个月就要翻一番,远超摩尔定律的 18—24 个月。未来如何利用新技术尽可能提升算力,将成为决定 AI 发展的关键因素。
三、ChatGPT 加速 AIGC
ChatGPT 火爆的背后是 AIGC(人工智能生成内容)生态的逐渐繁荣,随着数字经济与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC 作为新型的内容生产方式,已经在传媒、电商、影视、娱乐等行业取得重大的创新进展。
AIGC 也被认为是继 UGC(用户生成内容)、PGC(专业生成内容)之后的新型内容生产方式。AIGC 在创作成本上具有颠覆性,而且具备降本增效的多重优势,有望解决目前 UGC、PGC 创作质量参差不齐以及降低其有害性内容传播等问题,同时激发创意,提升内容多样性。
AIGC 在内容生产上所需成本更少,生产速度更快,并且创作能力可达专业级别。以 AI 绘画为例,一个成熟的人工智能模型在经过特定模型训练后,仅需几个月时间就能达到专业级水平。在价格上,OpenAI 最贵的 AIGC 语言模型达芬奇为每 0.02 美元 750 个单词,AIGC 图形模型价格仅为 0.02 美元一张。
借由 ChatGPT,文本、代码、图像生成有望率先成熟,视频、游戏紧随其后。
文本生成领域:除了较早进行探索的智能客服和聊天机器人领域,早期文本生成主要应用于辅助写作或者结构化写作。此前的文本生成一直面临的巨大挑战在于:上下文关联能力、自然语言生成能力、逻辑能力。
AI 学习绘画:实质过程是对已有画作数据进行训练,通过模型和参数迭代输出有规律的像素组合。由于图片所包含的信息量远高于文字所包含的信息量,像素点位置、色彩、数量等共同组成庞大的参数组,因此深度学习该参数组需要足量的算力。目前,AI 绘画根据文字提示输出图片需要经历两个过程:理解文字提示所包含的信息,再匹配生成相应的图像。此前一直难以发展的原因在于:绘画细节不足、分辨率低,参数量过大导致渲染时间过长,算力和内存不足。
AI 音视频、游戏等其他领域:需要 AI 文本生成和 AI 绘画提供技术基础辅助,未来 AIGC 将在语音合成和音乐合成领域有所进展。但由于一段音频包含的数据量相较于文字和图片都更大,也更抽象,因此目前还难以找到很好的训练方式。同理,以交互和实时反馈为基础的游戏领域也是如此。
四、ChatGPT 商业模式
OpenAI 的商业模式即 API 接口收费。客户可以通过 OpenAI 的强大 AI 模型构建应用程序,例如访问执行各种自然语言任务的 GPT-3、将自然语言翻译成代码的 Codex 以及创建和编辑原始图像的 DALL·E。
OpenAI 的商业模式属于底层模型开放性标准化 SaaS(软件即服务)服务模式。公司通过提供相关 AIGC 代码,提供自动图形模型或语言模型生成等产品,用户通过其 API 接口接入,并支付平台费用获取相关图像、语言、代码调整服务,OpenAI 可获得付费订阅式的 SaaS 费用,该商业模式用户黏性极强。
ChatGPT 订阅计划重新定义 AIGC 商业模式。2 月 2 日,OpenAI 公司宣布推出付费试点订阅计划 ChatGPT Plus,定价每月 20 美元。付费版功能包括高峰时段免排队、快速响应以及优先获得新功能和改进等。同时,OpenAI 方面仍将提供对 ChatGPT 的免费访问权限。ChatGPT 打破了人们对于 AI 技术大多应用于嵌入式项目的固有印象,进一步拓展了 AI 的应用范围,重新定义了 AIGC 的商业模式。
五、ChatGPT 未来应用场景
行业应用
ChatGPT 的能力目前几乎可以涵盖各个自然语言交互领域,如聊天机器人、对话系统、智能客服、信息检索、主题建模、文本生成、写代码、写诗歌,等等。
目前,ChatGPT 已经能基本满足用户的个性化需求和信息供给服务。在需要智能客服的电商、金融、医疗、教育、政务等垂直领域,ChatGPT 能够结合行业特点和需求,构建自动应答系统,为客户提供快速、准确的问题解答。在传媒、娱乐、设计和影视领域,ChatGPT 能够协助完成一些较低层次的任务,包括文稿生成、采访助手、摘要总结等,或将提高行业的运行效率。ChatGPT 具备强大的文本内容创作能力,可用于创意写作(诗歌、新闻、小说、学术等)、命题写作(风格模仿、文本续写、主题拟定等)、摘要生成(学术类、小说类、新闻类等)等。
营销应用场景
虚拟客服:它可以 24 小时工作,迅速捕捉用户需求,在人工客服有限并且素质不一的情况下,虚拟客服展现的品牌形象和服务态度等由商户掌控,比人工客服的可控性、安全性更强。
内容营销:AI 可按广告主要求自动生成广告文案,亦可根据广告文案自动生成广告海报、广告视频,大大降低了广告的制作成本。AI 生成系统与底层的客户数据系统进行数据联通,可以实时根据数据的反馈,对需求进行针对性调整,由 AI 快速迭代对营销内容进行更新,提升个性化营销的效率和精准性。
电商购物:基于不同角度的商品图像,可以借助视觉生成算法自动化生成商品的 3D 几何模型和纹理,辅以线上虚拟“看、试、穿、戴”,提供接近实物的差异化网购体验,高效提升用户转化。
六、ChatGPT 国内外企业布局
我们先看看几个国内外玩家的情况。
微软:微软将 ChatGPT 视为新一代技术革命,正迅速推进 OpenAI 工具的商业化,将 ChatGPT 整合进 Bing 搜索引擎、Office 全家桶、Azure 云服务、Teams 程序等产品中。比如在 Word 中实现写作任务的自动化等。而在视频会议及远程协作平台的高级付费版 Microsoft Teams Premium 上,订阅者可享用 OpenAI GPT 提供支持的大型语言模型技术,用 AI 自动生成会议笔记,此举或对 Zoom、谷歌会议等平台形成巨大的冲击。依托微软的操作系统、办公软件等产品在全球市场份额的优势地位和强大产品生态,ChatGPT 的更多应用场景有望快速推进。
谷歌:在 ChatGPT 发布后,谷歌 CEO 在公司内部发布了“红色警报”(CodeRed),敦促团队解决 ChatGPT 对公司搜索引擎业务构成的威胁,同时批准了在谷歌搜索引擎中加入 AI 聊天机器人的计划。2 月 4 日,谷歌注资 3 亿美元投资 ChatGPT 的竞品 Anthropic,谷歌将获得约 10% 的股份,Anthropic 计划将此轮资金用于购买谷歌云计算部门的计算资源。2 月 6 日,谷歌宣布将推出聊天机器人 Bard(巴德)。据美联社报道,它能用“简单到连孩子也能理解的语言”解释较复杂的主题,还可以执行更为日常的任务,例如为策划聚会提供建议或根据冰箱内剩余食材建议午餐内容等。但 Bard 在一场发布会上对用户提出的问题给出了错误回答,导致谷歌股价跌超 7%。
英伟达:这几年英伟达可谓风光无限,它为 ChatGPT 的开发提供了底层芯片算力支持。据瑞银分析师蒂莫西·阿库里分析,ChatGPT 至少导入了 1 万枚英伟达高端 GPU 来训练模型。
百度:1 月 10 日,百度宣布将升级百度搜索的“生成式搜索”能力,智能解答用户的搜索提问;2 月 7 日,百度官宣将上线类 ChatGPT 版 AI 对话模型文心一言(ERNIE Bot),预计 3 月完成内测,百度港股股价上涨超 15%。据悉,百度的文心一言应用是百度基于文心大模型技术推出的生成式对话产品,文心大模型的参数量目前达到 2600 亿,已经超过 GPT- 3 的水平。百度拥有飞桨(深度学习开源框架)、百度 AI 大底座(全栈 AI 基础设施)和文心大模型(AI 应用场景全覆盖)。
阿里:正在开发类似 ChatGPT 的对话机器人,阿里的 AI 既能答题、画画、写代码、撰文案,还能即兴赋诗几首。在达摩学院,工程师正讨论 AI 大模型技术怎么和钉钉深度结合。
其他:华为、字节跳动、腾讯、京东、网易有道、科大讯飞、知乎、汉王、寺库等也已入局。这些公司有的宣称拥有 ChatGPT 的相关技术,有的正在研发相关技术,还有的正在接入 ChatGPT 的路上。
从 GPT 模型发展三要素“算力、数据、模型”来看,国内巨头与 ChatGPT 的主要差距体现在模型上,由于 GPT3.5 缺少相关论文,也没有开源,国内在代码的训练及推理上仍缺少积累。据悉,国外头部机构引领技术和商业应用,国内整体进度落后 2—3 年。
七、ChatGPT 优劣势和争议
优势:ChatGPT 支持多轮对话,在自然语言交互、情感分析、情景会话等方面运行流畅,在语言模仿能力和逻辑判断方面展现出了更强的能力。
ChatGPT 支持多种语言环境,并且支持长短句输入,在阅读理解复杂语句处理、逻辑能力和文本生成方面更加灵活。
ChatGPT 的训练模型支持大规模数据集,具备海量的话题库,通用性更强,也拥有更高精度的预测结果。
劣势:ChatGPT 的精准性、真实性、重复率和依赖性尚待改善,它会不可避免地写出一些似是而非甚至荒谬的答案,这将导致植入虚假数据和误导用户的风险。
在较长的会话中,由于训练数据的偏差和过度修正,ChatGPT 会过度强调某些短语或者句子,导致重复性高的问题。
为了提高 ChatGPT 输出内容的真实性和安全性,减少或拒绝有害信息的输出,在 ChatGPT 模型中添加限制或内置“内容安全过滤”模块是必要的。
目前,ChatGPT 在创造性、创作伦理和知识产权等方面并未形成有效界定,它能够在用户的引导下快速生成小说、诗歌、散文、编程等需要一定创造力的内容,这或许将会对创作者和以版权为基础的行业造成很大冲击。
争议:ChatGPT 是否会代替搜索引擎?
ChatGPT 指向的是生成式人工智能,也就是让人工智能帮助人类处理一些未来所希望完成的事情。而搜索引擎呢?它只是在帮我们整理过去的内容。两者完全不同,一个面向未来,一个回首过去。
ChatGPT 是一个自然语言处理模型,通过接收用户的输入指令,匹配并输出相应的单一结果,语料库源于离线数据,输出的文本存在虚假信息的可能,且吸纳新的知识需要对模型进行再训练和微调,这会导致训练成本和甄别成本上升。因此,它主要应用于人机对话、智能客服、智能问答等强逻辑性的自然语言交互领域。
搜索引擎能够返回多条查询结果,准确率较高,并且搜索引擎不会对信息做出判断,而是等待用户的筛选。搜索引擎抓取信息速度快,信息库更新频率高、存量大,主要用于帮助用户快速查找匹配信息、找到感兴趣的信息,常常应用在文献检索、互联网搜索等领域。
综上,两者有各自的特点和应用场景,目前无法相互取代,但一定会相互影响,未来会交叉协作,乃至融合。
八、最后的反思
数字化浪潮在提速,紧迫感在加剧,过去每个全球重大危机(这次是疫情)都会伴随科技革命,从而让经济提速。这些年,5G、物联网、元宇宙、ChatGPT 层出不穷,而美国又在通过芯片等“制裁”我们,美国目前也掌握着 ChatGPT 的基础技术,包括开源框架、算法模型、编译器等。当然,我们国家也已把数字经济摆在核心位置,尤其对于卡脖子技术加大了投资和扶持力度,力求早日突破。
移动互联网造就了中国互联网的繁荣,但 APP 带来了数据孤岛,各个平台都将数据当成自己的财产,所以获取数据很困难,并且容易形成信息茧房。另外,我们的数据和内容基本上以汉语为主,而汉语的信息只占人类知识储备的一小部分,全球主流知识类文本语言是英语,更多专业期刊论文都是以英文形式发表,这也是一大问题。同时,数据质量、数据治理、数据算力、数据安全等也日益重要。在算力上,我们国家已启动“东数西算”工程。
ChatGPT 的出现犹如一场工业革命爆发,让人们从农耕文明中醒悟,时代变了,科技日新月异,而人类的学习速度无法和机器相比,人类和机器赛跑的时代真正来了。结合 ChatGPT 的优劣势,我们要反思教育培养模式,不要学且不要干机器擅长的事,不要和机器抢饭碗,而是要重塑人的想象力和思考力。目前,有些学校因为担心学生将 ChatGPT 用于作弊,索性禁止使用 ChatGPT,个人并不认同这种一刀切的做法,我相信未来会有更好的人机相处方式。
ChatGPT 可以说是科技领域的里程碑事件,带来了机遇和挑战。不可否认,目前的 ChatGPT 有很大泡沫,存在一些炒概念、割韭菜的现象,但它无时无刻不在快速进步。未来,AI 之类的科技应用会重塑个人和企业的竞争力,而我们应该快速拥抱它们,实现人机协同,降本增效,给经济注入新的红利。
原文链接:https://www.163.com/dy/article/I244MLAB0519AU4N.html