OpenAI是一家什么样的企业——OpenAI企业介绍

124次阅读

最近的 ChatGPT 让 OpenAI 这家企业的名声更上一个台阶,这篇博客将详细介绍 OpenAI 这家企业及其发布的 AI 成果。由于 OpenAI 成立仅仅 7 年,因此,本文罗列了这 7 年时间里 OpenAI 最重要的研究成果。本篇博客内容较长,因为涵盖了过去 7 年 OpenAI 发布的重要技术成果!

原文详情:

OpenAI 是全球最著名的人工智能研究机构,发布了许多著名的人工智能技术和成果,如大语言模型 GPT 系列、文本生成图片预训练模型 DALL·E 系列、语音识别模型 Whisper 系列等。由于这些模型在各自领域都有相当惊艳的表现,引起了全世界广泛的关注。

OpenAI是一家什么样的企业——OpenAI企业介绍插图
这是旧金山的先锋大厦,也是 OpenAI 的办公室所在地

OpenAI 的创立历史

OpenAI 是由马斯克(Elon Musk)等人于 2015 年在旧金山创立的一家非盈利的人工智能研究公司,启动资金就有 10 亿美金,算是标准的富二代。正是由于”金钱“的力量,OpenAI 的目标就是不受经济回报的限制来推进数字智能造福人类。OpenAI 建立的目标就是为了与其它机构合作,进行 AI 的相关研究,并开放研究成果以促进 AI 技术的发展。OpenAI 也被认为是 DeepMind 的有力竞争者。但是,从 GPT- 2 模型之后,OpenAI 认为模型效果太好,可能会被用来做不好的事情,因此开始限制研究成果的”开放“,这一点被很多人吐槽。
2019 年 3 月 11 日,OpenAI 宣布从”非盈利(non-profit)“性质过度到”封顶(‘capped’for profit)“营利性,利润上限为任何投资的 100 倍(创立了 OpenAI LP 公司)。也是这一年,微软向该公司投资了 10 亿美金,并获得了 OpenAI 技术的商业化授权。从此,OpenAI 的一些技术开始出现在微软的产品和业务上。不过,OpenAI 与微软的合作其实从 2016 年就开始,2016 年,微软的云服务 Azure 为 OpenAI 提供了大规模实验的平台。Azure 彼时已经为他们提供了带有 InfiniBand 互连的 K80 GPU 的算力资源,以优化深度学习的训练。2020 年 9 月 22 日,OpenAI 开始授权微软使用他们的 GPT- 3 模型,也是全球首个可以享受 GPT- 3 能力的公司。
2020 年 6 月 11 日,OpenAI 发布了 OpenAI API,这也是 OpenAI 第一个商业化产品。官方解释了,他们认为开发商业产品是确保 OpenAI 有足够资金继续投入 AI 研究的有效手段。自此,OpenAI 也正是开始商业化运作。官方也解释了,使用 API 的方式提供模型而不是开源模型也将降低模型的使用门槛,毕竟对于中小企业来说,部署强大的 AI 模型所需要的成本可能更高。

OpenAI 发布的技术简史

OpenAI 发布了很多人工智能相关的技术,从工具到算法到论文到模型,都有涉及。这里将简单介绍一下他们发布的相关研究成果。由于 OpenAI 的成立时间很短,我们将根据年份来说明 OpenAI 发布的主要技术成果。

2016 年

2016 年 4 月 27 日,OpenAI 发布了他们的第一个项目——OpenAI Gym Beta,这是一个用来开发和比较不同强化学习算法的工具。这个工具起初是 OpenAI 研究人员用来加速他们强化学习研究的,这个工具也是 OpenAI 第一个开放的成果。

2017 年

2017 年 5 月 24 日,OpenAI 开源了一个重现强化学习算法的工具——OpenAI Baselines。强化学习由于过程十分复杂且影响因素众多,导致很多实验难以复现。因此,OpenAI 开源了这个工具,目标是提供用于正确的强化学习算法实现的一些最佳实践,以帮助大家提高强化学习的研究效率。OpenAI Baselines 中第一个基线化的模型是 DQN(Deep Q-Network)

OpenAI是一家什么样的企业——OpenAI企业介绍插图1

2018 年

2018 年 6 月 11 日,OpenAI 公布了一个在诸多语言处理任务上都取得了很好结果的算法,即著名的 GPT,这也是该算法的第一个版本。GPT 是第一个将 transformer 与无监督的预训练技术相结合,其取得的效果要好于当前的已知算法。这个算法算是 OpenAI 大语言模型的探索性的先驱,也使得后面出现了更强大的 GPT 系列。
也是在 2018 年 6 月份,OpenAI 宣布他们的 OpenAI Five 已经开始在 Dota2 游戏中击败业余人类团队,并表示在未来 2 个月将与世界顶级玩家进行对战。OpenAI Five 使用了 256 个 P100 GPUs 和 128000 个 CPU 核,每天玩 180 年时长的游戏来训练模型。在随后的几个月里 OpenAI Five 详情继续公布。在 8 月份的专业比赛中,OpenAI Five 输掉了 2 场与顶级选手的比赛,但是比赛的前 25-30 分钟内,OpenAI Five 的模型的有着十分良好的表现。OpenAI Five 继续发展并在 2019 年 4 月 15 日宣布打败了当时的 Dota2 世界冠军。

OpenAI是一家什么样的企业——OpenAI企业介绍插图2

2019 年

2019 年 2 月 14 日,OpenAI 在博客《Better Language Models and Their Implications》中官宣 GPT- 2 模型。也正是在这篇博客中,官方说到由于模型效果太好,他们担心模型会被恶意使用,在没有想好如何限制 malicious applications 之前是不会发布预训练结果的。GPT- 2 模型有 15 亿参数,基于 800 万网页数据训练。GPT- 2 就是 GPT 的规模化结果,在 10 倍以上的数据以 10 倍以上的参数训练。OpenAI 在 2 月份 GPT- 2 发布的时候仅仅公开了他们的 1.24 亿版本的预训练结果,其后的 5 月份发布了 3.55 亿参数版本的预训练结果,并在半年后的 8 月份发布了一个 7.74 亿参数版本的 GPT- 2 预训练结果。2019 年 11 月 5 日,15 亿参数的完整版本的 GPT- 2 预训练结果发布。
同年 3 月 4 日,OpenAI 发布了一个用于强化学习代理的大规模多代理游戏环境:Neural MMO。该平台支持在一个持久的、开放的任务中的存在大量的、可变的代理。许多代理和物种的加入导致了更好的探索,分歧的利基形成,以及更大的整体能力。
4 月 25 日,OpenAI 继续公布他们最新的研究成果:MuseNet,这是一个深度神经网络,可以用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村到莫扎特到披头士的风格。这是 OpenAI 将生成模型从自然语言处理领域拓展到其它领域开始。

2020 年

2020 年 4 月 14 日,OpenAI 发布了 Microscope,这是一个用于分析神经网络内部特征形成过程的可视化工具,也是 OpenAI 为了理解神经网络模型所作出的努力。
2020 年 5 月 28 日,OpenAI 的研究人员直接提交了论文《Language Models are Few-Shot Learners》,正式公布了 GPT- 3 相关的研究结果,这也是当时全球最大的预训练模型,参数 1750 亿!GPT- 3 在论文中展示了强大的能力,但是如前面的版本一样,官方没有公布预训练结果文件。但是,同年 9 月,GPT- 3 的商业化授权给了微软。
同年 6 月 17 日,OpenAI 发布了 Image GPT 模型,将 GPT 的成功引入计算机视觉领域。研究人员认为,transformer 是与领域无关的,它们都是从序列中建模,因此计算机视觉领域依然可以使用。Image GPT 也在当时取得了很好的成绩!

2021 年

2021 年 1 月 5 日,OpenAI 发布 CLIP,它能有效地从自然语言监督中学习视觉概念。CLIP 可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT- 2 和 GPT- 3 的 "zero-shot " 能力。这个模型是今年来多模态领域很有代表性的一项工作。
同一天,OpenAI 发布了 DALL·E 模型,这也是一个具有很大影响力的模型,DALL·E 是一个 120 亿个参数的 GPT- 3 版本,它被训练成使用文本 - 图像对的数据集,从文本描述中生成图像。DALL·E 可以创造动物和物体的拟人化版本,以合理的方式组合不相关的概念,渲染文本,以及对现有图像进行转换。DALL·E 的发布再一次惊艳世人。
2021 年 8 月 10 日,OpenAI 发布了 Codex。OpenAI Codex 是 GPT- 3 的后代;它的训练数据既包含自然语言,也包含数十亿行公开的源代码,包括 GitHub 公共存储库中的代码。OpenAI Codex 就是 Github Coplilot 背后的模型。当然,Codex 也没有公布,而是 OpenAI 收费的 API。

2022 年

2022 年 1 月 27 日,OpenAI 发布了 InstructGPT。这是比 GPT- 3 更好的遵循用户意图的语言模型,同时也让它们更真实,且 less toxic,使用的技术是通过 alignment 研究开发的。这些 InstructGPT 模型是在人类的参与下训练的,这是一个 AI 对话系统,也是 OpenAI 收费的 API。
2022 年 3 月 15 日,OpenAI 新版本的 GPT- 3 和 Codex 发布,新增了编辑和插入新内容的能力。也就是说除了之前的生成能力外,新增编辑和修改。
同年 4 月 6 日,DALL·E2 发布,其效果比第一个版本更加逼真,细节更加丰富且解析度更高。DALL·E 系列由于可以生成任意图片内容,尽管官方做了很多努力阻止恶意结果产生,依然因为担心而没有放出。也许是因为开源的竞争产品如 Stable Diffusion 的压力,2022 年 7 月 20 日,OpenAI 的 API 增加了一年前发布的 DALL·E(注意不是 V2 版本)。
6 月 23 日,OpenAI 通过视频预训练(Video PreTraining,VPT)在人类玩 Minecraft 的大量无标签视频数据集上训练了一个神经网络来玩 Minecraft,同时只使用了少量的标签数据。通过微调,该模型可以学习制作钻石工具,这项任务通常需要熟练的人类花费超过 20 分钟(24,000 个动作)。它使用了人类原生的按键和鼠标运动界面,使其具有相当的通用性,并代表着向通用计算机使用代理迈出了一步。
9 月 21 日,OpenAI 发布了 Whisper,这是一个语音识别预训练模型,结果逼近人类水平,支持多种语言。最重要的是,相比较很长不开源成果的其它模型,这是一个完全开源的模型,不过其参数也就 15.5 亿。
11 月 30 日,OpenAI 发布 ChatGPT 系统,这是一个 AI 对话系统,其强大的能力也让大家再次见识到了其强大的能力。ChatGPT 在很多问题上近乎完美的表现使得它仅仅 5 天就有了 100 万用户。它可以帮助我们写代码、写博客、解释技术,可以多轮对话,写短剧等等。

总结

OpenAI 是人工智能领域的明星公司。从马斯克等人创办开始就吸引了很多的目光。起初,其研究似乎主要是朝着强化学习努力。但是,随着预训练模型的崛起,他们在诸多领域的创新也让大家见识到 OpenAI 的强大实力。OpenAI 发布的很多模型和系统都具有令人惊讶的效果。尽管随着其商业化进程的加速,免费开源的技术似乎变得稀有。但是,他们发布的技术引起了众多的追随者和竞争者。包括 Meta AI、StabilityAI 等竞争对手都发布了开源版本的兄弟模型。促进了 AI 领域的发展。

原文详情:

原文链接:https://zhuanlan.zhihu.com/p/590676423?utm_id=0

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-02发表,共计4511字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。