说明:文章不代表本平台立场和观点,仅作为观点分享
(1)注意三个东西
这个 IT 世界,一直要注意三个东西:
硬件:新的计算设备
软件:开源 - 免费
交互:新的交互方式
你看每一代新的计算设备:大型主机 - 小型机 - 工作站 -PC 机 - 智能手机,每一代新的计算设备出来,都会带起一个体系一个时代。本来我挺期待 2025 年的 XR,新一代的计算平台设备。可惜微软、谷歌、Facebook 都撤火了,硅谷资本也撤火了,大家又都扎回 AI 时代了,这给新时代的拉开又最少延迟 3 年。2025 年的 XR- 新一代的计算平台,我只能祈求苹果公司别掉链子。
开源 - 免费:中国人是吃尽了这里的开放红利。当年日本人搞以人工智能为核心的第五代计算机体系时候,没有开源 - 免费这个环境,所以从芯片到操作系统到编程语言都得自己搞,虽然有美国人 - 欧洲人的加持,但也最后失败。
新的交互方式:我过去就说过,一代技术能不能流行起来大众商用市场普及起来,就看是否产生了新的交互方式,否则只能停留在小众专业市场无法做商业转化。你看从字符型命令式 DOS 到图形型点击式 Windows,从寻找软件下载软件安装软件到 Web 访问网址网页,从九宫格键盘 - 触摸笔到多点触摸,这都开启了一个个的新时代。所以我前几篇文章就呼吁:ChatGPT 是暴力美学,在 AI 内行眼里确实科学成分没那么多,但千万别小看,因为新的交互方式会带来大众市场的规模商业价值转化。
(2)模型:开源
上次 2020 年的 GPT- 3 是有论文,没有开源。就如同谷歌在 2003-2006 年发布了三篇论文,后来 - 三年后,在 2009 年,开源界出现了大数据技术 Hadoop、MR、Hbase。三年时间,这个时间长度大家要记住。咱们再想想移动时代,iOS 是 2007 年发布的,安卓是 2008 年开源的,小米和微信是 2011 年出现的,这都已经过去 3 - 4 年了。所以说,三年这个时间长度,大家一定要等,不要太着急,我们仍然是 2025 年见,让子弹再飞一会,晚不了。
这次 2023 年的 GPT-4,连论文都没有。嘿嘿嘿,彻底断了大家的念想。不过,有 iOS 就必然有安卓。商业世界就这么奇怪,反正就不让你一个人爽。
现在就乞求谷歌和 Facebook 别掉链子。谷歌有钱血厚、人才虽然养老但积累还在那里搁着,如果能像微软换 CEO 那样再焕青春也说不定。Facebook 虽然经历了转型元宇宙的惨败、人才的流失、市值的下跌,但现金流还尚厚。谷歌拿着 Tensorflow、Facebook 拿着 Pytorch。
(3)模型 - 尺寸:小模型是未来
这次 GPT- 4 走的路子仍然是巨模型的路数。传闻 2026 年就可以把人类的知识都学完(听谷歌说互联网上 60% 的内容都是重复的)。
不过我挺喜欢 Facebook 的路数,Facebook 在前不久变相发布开源模型(号称被泄露),表明了一件事:模型虽小,但只要数据量大、数据源质量高、专家人工精修质量高,效果就好。
模型小,意味着训练需要的算力资源 - 时间少,也意味着运行需要的算力资源 - 时间少。这很重要。毕竟,Facebook 一直瞄准的是 VR 元宇宙,VR 这个设备的算力、能耗、存储,VR 要求的实时性,都要求模型必须小。
(4)模型:多模态
GPT- 3 的本质是文本生成,ChatGPT 的本质是文本会话与问答。
在过去的一年里,Open AI 已经出现了三个独立的东西:
视觉生成:Stable Diffusion
语音生成:Whisper
文本生成:GTP-3
现在,GPT- 4 是多模态。多模态意味着更聪明,也意味着输入 - 输出更丰富。大家想啊,你作为人,日常交流,往往是口说手比、面部有表情(虽说中国人喜欢利益输送 - 秘密交易 - 信息黑暗森林 - 喜怒不形于色)、眼睛观察。所以,多模态的信息意味着信息更多更全息也意味着更聪明。
现在预训练大模型还剩一道坎就是信息无法实时性,炼丹并精修一次的财力消耗 - 时间消耗都挺大。这道坎得科学突破了,暴力美学工程在这儿不好使了。所以我上回就说了微软 New Bing 用搜索爬虫的实时性 +ChatGPT 的知识性 + 参考索引的商业性,互补取巧绕弯了一下。但这个问题,未来仍需要直面。
但我想这个问题也实在不好解决。毕竟 2017 年 Transformer 这块标准砖一出来就大杀四方,不仅通吃多任务,而且通吃视觉语音 NLP 三大领域。这让过去专注各种领域各种任务进行精妙算法研究的科学家情何以堪。所以从 2018 年以来,科学家们又纷纷从工业界回归到学术界。没办法啊,工业界自从有了 Transformer 这块砖后,剩下的都是暴力美学工程事情,不需要科学家精妙算法了。
但 Transformer 这块标准砖溯源可以追溯到 1990 年代的 LTSM,而且现在的大模型还都是预训练方式,源源不断的新信息,在这种方式下如何实时被接纳与处理,是我一直关注的,这应该是后续 GPT 版本要攻克的。嘿嘿嘿,咱专业力和创新力不够,只能期待大神了,只能期待 2025 年了。
(5)应用:能干嘛 - 核心竞争力是什么
GTP- 3 和 ChatGPT 的效果如此只好,而且还开放了 API,让资本界、创业界一片兴奋,摩拳擦掌想怎么利用他们俩做一番事业。但一顿操作猛如虎,一看还是二百五。所以不少资本界人士现在有个困惑:这么好的技术到底能干嘛啊?如果基于这些大模型的开放 API 干应用, 那这些应用的核心竞争力是什么?
毕竟,这是第三次人工智能热潮了。人类就是这么想象力匮乏、太阳底下没有新鲜事,过去两轮想干的事一直也没有干成。其实说穿了,AI 走了 70 年,能干的事不外乎就是最初的几个想法:
视觉:识别 - 生成
语音:识别 - 生成
NLP:会话与问答 - 意图与情感 - 搜索与推荐 - 摘要与生成 - 机器翻译
本质上,这三类都是围绕:理解 - 生成这个本质,只是任务不同而已。
我也在思考应用的问题。想想移动互联网时代,2007 年就出了 iOS、2008 年就出了应用商店,但我能干嘛呢?还是开发应用。而且现在回头来看,大量的移动 app 其实和移动特性没半毛钱关系,本质上还是把大象放在冰箱里。
我 2010 年成立创新研发中心的时候,给大家树立了一条原则:如果不能利用上手机硬件特性,就不要做成移动 App,我们不干那种把大象放进冰箱里的事。
但现在回头遍看应用商店里的 800 万个应用,又有几个和手机硬件特性结合了呢?谁又充分应用了手机上的摄像头 - 麦克风、多点触摸屏幕、GPS 定位、各种传感器。我平时就能感受到美团外卖 - 滴滴打车这样利用 GPS 定位特性的。另外还有个应用,就是银行 - 社保金,进行人脸 - 活体 - 语音认证检测,这是利用上了摄像头 - 麦克风。而其他的应用,只不过在智能手机设备上做了个应用,不外乎眼馋的是那 12 亿中国智能手机用户。想一想,中国自从三年疫情防控以来:因为要出示绿码 - 扫码,所以 4G- 智能手机 - 小程序,已经强制普及到社会各个角落各个人群,连我父母亲这样的老人都会了,连沙漠里的牧民都装备上了。想想没有智能手机的时代,我父母亲这样的老人怎么会用电脑的键盘、鼠标、开关机、操作系统、上搜索网站、寻找软件下载软件安装软件卸载软件呢?确实:智能手机简化了许多,可以卷入更多的用户。
(6)应用:元宇宙
小扎搞元宇宙,我很能理解他,我过去就写过:没办法啊,苹果和谷歌都不约而同、以人民的民意、釜底抽薪搞了数据隐私保护,Facebook 赖以生存的广告个性化推送展示和归因分析不存在了,这一下子把 Facebook 的商业模式给颠覆了,所以 Facebook 的营收大跌。所以小扎才痛定思痛,这局是赢不了了,必须新开下一局,Facebook 这次一定更要釜底抽薪,做 VR 新一代计算设备,控制了硬件。
AI 确实是元宇宙 VRAR 的必然组件。视觉识别 - 生成、语音识别 - 生成、机器翻译 - 会话问答 - 摘要生成,都需要。一个平面视频抖音 &TikTok 已经让全世界玩 High 了,那 3D 全方位的 - 真实的如漫威电影的 VRAR 体验,那更会让人流连忘返。
有人说 Web1 是文本的、Web2 是图片和视频多媒体的、Web3 是 3D 全息的,这是从内容呈现角度看事的。
有人说 Web1 是可读、Web2 是可写、Web3 是生成。这是从内容存取技术角度看事的。
有人说 Web1 是 PGC(记者写)、Web2 是 UGC(大众写)、Web3 是 AIGC(人工智能写),这是从内容生产角度看事的。
有人说 Web1 是集中化 - 统一门户信息和统一搜索入口信息、Web2 是社交网络分散式中心(如微信和微博)、Web3 是去中心化的(去年以太坊 2.0 性能合并完成,并且 PoS 代替了 PoW),这是从内容组织角度看事的。
我个人感觉,这四个角度都对,大家看事不要非此即彼,多元化立体化看事才更能中和地看清楚一件事。
(7)说回中国
中国人在三纲五常 - 门当户对 - 非我族类其心必异的文化下,源创新是不行。但是我们擅长的是:把成熟的技术,可以做到全球规模最大 - 成本最低,还能根据用户需求快速修改满足,在修改中会出现一些意想不到的微创新。
我们现在正在把 CentOS、AOSP、K8S、PostgreSQL、Open JDK、Prsto、Flink、Chromium 等欧美开源 - 免费的软件换个名字,但我们也看到也越来越多的中国巨头 IT 公司的工程师在参与开源软件的贡献。
GPT- 4 是不开源了,但商业世界总会出现开源,而且未来的走向肯定是模型变小而不是变的更大。模型小,这对中国是好事啊。被封禁了 GPU 的中国,正愁没算力。中文数据量大不大这事不好说(英文互联网内容更多,中文互联网内容其实占比比较少),数据源质量高不高这事不好说,精修的专家水平到底高不高这事也不好说,但我感觉对普遍中国网民够了(中国网民人数不断放大,从 90 年代的大学学历少数人已经普及到文盲学历大多数人),一方水土养一方人,有什么样的甲方就有什么样的乙方嘛。
2 月份中标信息:
1、
2、
3、
4、
原文链接:https://www.163.com/dy/article/HVTIOM200519CUGP.html