OpenAI是一家什么样的企业——OpenAI企业介绍

193次阅读

最近的 ChatGPT 让 OpenAI 这家企业的名声更上一个台阶，这篇博客将详细介绍 OpenAI 这家企业及其发布的 AI 成果。由于 OpenAI 成立仅仅 7 年，因此，本文罗列了这 7 年时间里 OpenAI 最重要的研究成果。本篇博客内容较长，因为涵盖了过去 7 年 OpenAI 发布的重要技术成果！

原文详情：

OpenAI 是全球最著名的人工智能研究机构，发布了许多著名的人工智能技术和成果，如大语言模型 GPT 系列、文本生成图片预训练模型 DALL·E 系列、语音识别模型 Whisper 系列等。由于这些模型在各自领域都有相当惊艳的表现，引起了全世界广泛的关注。

OpenAI是一家什么样的企业——OpenAI企业介绍插图 — 这是旧金山的先锋大厦，也是 OpenAI 的办公室所在地

OpenAI 的创立历史

OpenAI 是由马斯克（Elon Musk）等人于 2015 年在旧金山创立的一家非盈利的人工智能研究公司，启动资金就有 10 亿美金，算是标准的富二代。正是由于”金钱“的力量，OpenAI 的目标就是不受经济回报的限制来推进数字智能造福人类。OpenAI 建立的目标就是为了与其它机构合作，进行 AI 的相关研究，并开放研究成果以促进 AI 技术的发展。OpenAI 也被认为是 DeepMind 的有力竞争者。但是，从 GPT- 2 模型之后，OpenAI 认为模型效果太好，可能会被用来做不好的事情，因此开始限制研究成果的”开放“，这一点被很多人吐槽。
2019 年 3 月 11 日，OpenAI 宣布从”非盈利（non-profit）“性质过度到”封顶（‘capped’for profit）“营利性，利润上限为任何投资的 100 倍（创立了 OpenAI LP 公司）。也是这一年，微软向该公司投资了 10 亿美金，并获得了 OpenAI 技术的商业化授权。从此，OpenAI 的一些技术开始出现在微软的产品和业务上。不过，OpenAI 与微软的合作其实从 2016 年就开始，2016 年，微软的云服务 Azure 为 OpenAI 提供了大规模实验的平台。Azure 彼时已经为他们提供了带有 InfiniBand 互连的 K80 GPU 的算力资源，以优化深度学习的训练。2020 年 9 月 22 日，OpenAI 开始授权微软使用他们的 GPT- 3 模型，也是全球首个可以享受 GPT- 3 能力的公司。
2020 年 6 月 11 日，OpenAI 发布了 OpenAI API，这也是 OpenAI 第一个商业化产品。官方解释了，他们认为开发商业产品是确保 OpenAI 有足够资金继续投入 AI 研究的有效手段。自此，OpenAI 也正是开始商业化运作。官方也解释了，使用 API 的方式提供模型而不是开源模型也将降低模型的使用门槛，毕竟对于中小企业来说，部署强大的 AI 模型所需要的成本可能更高。

OpenAI 发布的技术简史

OpenAI 发布了很多人工智能相关的技术，从工具到算法到论文到模型，都有涉及。这里将简单介绍一下他们发布的相关研究成果。由于 OpenAI 的成立时间很短，我们将根据年份来说明 OpenAI 发布的主要技术成果。

2016 年

2016 年 4 月 27 日，OpenAI 发布了他们的第一个项目——OpenAI Gym Beta，这是一个用来开发和比较不同强化学习算法的工具。这个工具起初是 OpenAI 研究人员用来加速他们强化学习研究的，这个工具也是 OpenAI 第一个开放的成果。

2017 年

2017 年 5 月 24 日，OpenAI 开源了一个重现强化学习算法的工具——OpenAI Baselines。强化学习由于过程十分复杂且影响因素众多，导致很多实验难以复现。因此，OpenAI 开源了这个工具，目标是提供用于正确的强化学习算法实现的一些最佳实践，以帮助大家提高强化学习的研究效率。OpenAI Baselines 中第一个基线化的模型是 DQN（Deep Q-Network）

2018 年

2018 年 6 月 11 日，OpenAI 公布了一个在诸多语言处理任务上都取得了很好结果的算法，即著名的 GPT，这也是该算法的第一个版本。GPT 是第一个将 transformer 与无监督的预训练技术相结合，其取得的效果要好于当前的已知算法。这个算法算是 OpenAI 大语言模型的探索性的先驱，也使得后面出现了更强大的 GPT 系列。
也是在 2018 年 6 月份，OpenAI 宣布他们的 OpenAI Five 已经开始在 Dota2 游戏中击败业余人类团队，并表示在未来 2 个月将与世界顶级玩家进行对战。OpenAI Five 使用了 256 个 P100 GPUs 和 128000 个 CPU 核，每天玩 180 年时长的游戏来训练模型。在随后的几个月里 OpenAI Five 详情继续公布。在 8 月份的专业比赛中，OpenAI Five 输掉了 2 场与顶级选手的比赛，但是比赛的前 25-30 分钟内，OpenAI Five 的模型的有着十分良好的表现。OpenAI Five 继续发展并在 2019 年 4 月 15 日宣布打败了当时的 Dota2 世界冠军。

2019 年

2019 年 2 月 14 日，OpenAI 在博客《Better Language Models and Their Implications》中官宣 GPT- 2 模型。也正是在这篇博客中，官方说到由于模型效果太好，他们担心模型会被恶意使用，在没有想好如何限制 malicious applications 之前是不会发布预训练结果的。GPT- 2 模型有 15 亿参数，基于 800 万网页数据训练。GPT- 2 就是 GPT 的规模化结果，在 10 倍以上的数据以 10 倍以上的参数训练。OpenAI 在 2 月份 GPT- 2 发布的时候仅仅公开了他们的 1.24 亿版本的预训练结果，其后的 5 月份发布了 3.55 亿参数版本的预训练结果，并在半年后的 8 月份发布了一个 7.74 亿参数版本的 GPT- 2 预训练结果。2019 年 11 月 5 日，15 亿参数的完整版本的 GPT- 2 预训练结果发布。
同年 3 月 4 日，OpenAI 发布了一个用于强化学习代理的大规模多代理游戏环境：Neural MMO。该平台支持在一个持久的、开放的任务中的存在大量的、可变的代理。许多代理和物种的加入导致了更好的探索，分歧的利基形成，以及更大的整体能力。
4 月 25 日，OpenAI 继续公布他们最新的研究成果：MuseNet，这是一个深度神经网络，可以用 10 种不同的乐器生成 4 分钟的音乐作品，并且可以结合从乡村到莫扎特到披头士的风格。这是 OpenAI 将生成模型从自然语言处理领域拓展到其它领域开始。

2020 年

2020 年 4 月 14 日，OpenAI 发布了 Microscope，这是一个用于分析神经网络内部特征形成过程的可视化工具，也是 OpenAI 为了理解神经网络模型所作出的努力。
2020 年 5 月 28 日，OpenAI 的研究人员直接提交了论文《Language Models are Few-Shot Learners》，正式公布了 GPT- 3 相关的研究结果，这也是当时全球最大的预训练模型，参数 1750 亿！GPT- 3 在论文中展示了强大的能力，但是如前面的版本一样，官方没有公布预训练结果文件。但是，同年 9 月，GPT- 3 的商业化授权给了微软。
同年 6 月 17 日，OpenAI 发布了 Image GPT 模型，将 GPT 的成功引入计算机视觉领域。研究人员认为，transformer 是与领域无关的，它们都是从序列中建模，因此计算机视觉领域依然可以使用。Image GPT 也在当时取得了很好的成绩！

2021 年

2021 年 1 月 5 日，OpenAI 发布 CLIP，它能有效地从自然语言监督中学习视觉概念。CLIP 可以应用于任何视觉分类基准，只需提供要识别的视觉类别的名称，类似于 GPT- 2 和 GPT- 3 的 "zero-shot " 能力。这个模型是今年来多模态领域很有代表性的一项工作。
同一天，OpenAI 发布了 DALL·E 模型，这也是一个具有很大影响力的模型，DALL·E 是一个 120 亿个参数的 GPT- 3 版本，它被训练成使用文本 - 图像对的数据集，从文本描述中生成图像。DALL·E 可以创造动物和物体的拟人化版本，以合理的方式组合不相关的概念，渲染文本，以及对现有图像进行转换。DALL·E 的发布再一次惊艳世人。
2021 年 8 月 10 日，OpenAI 发布了 Codex。OpenAI Codex 是 GPT- 3 的后代；它的训练数据既包含自然语言，也包含数十亿行公开的源代码，包括 GitHub 公共存储库中的代码。OpenAI Codex 就是 Github Coplilot 背后的模型。当然，Codex 也没有公布，而是 OpenAI 收费的 API。

2022 年

2022 年 1 月 27 日，OpenAI 发布了 InstructGPT。这是比 GPT- 3 更好的遵循用户意图的语言模型，同时也让它们更真实，且 less toxic，使用的技术是通过 alignment 研究开发的。这些 InstructGPT 模型是在人类的参与下训练的，这是一个 AI 对话系统，也是 OpenAI 收费的 API。
2022 年 3 月 15 日，OpenAI 新版本的 GPT- 3 和 Codex 发布，新增了编辑和插入新内容的能力。也就是说除了之前的生成能力外，新增编辑和修改。
同年 4 月 6 日，DALL·E2 发布，其效果比第一个版本更加逼真，细节更加丰富且解析度更高。DALL·E 系列由于可以生成任意图片内容，尽管官方做了很多努力阻止恶意结果产生，依然因为担心而没有放出。也许是因为开源的竞争产品如 Stable Diffusion 的压力，2022 年 7 月 20 日，OpenAI 的 API 增加了一年前发布的 DALL·E（注意不是 V2 版本）。
6 月 23 日，OpenAI 通过视频预训练（Video PreTraining，VPT）在人类玩 Minecraft 的大量无标签视频数据集上训练了一个神经网络来玩 Minecraft，同时只使用了少量的标签数据。通过微调，该模型可以学习制作钻石工具，这项任务通常需要熟练的人类花费超过 20 分钟（24,000 个动作）。它使用了人类原生的按键和鼠标运动界面，使其具有相当的通用性，并代表着向通用计算机使用代理迈出了一步。
9 月 21 日，OpenAI 发布了 Whisper，这是一个语音识别预训练模型，结果逼近人类水平，支持多种语言。最重要的是，相比较很长不开源成果的其它模型，这是一个完全开源的模型，不过其参数也就 15.5 亿。
11 月 30 日，OpenAI 发布 ChatGPT 系统，这是一个 AI 对话系统，其强大的能力也让大家再次见识到了其强大的能力。ChatGPT 在很多问题上近乎完美的表现使得它仅仅 5 天就有了 100 万用户。它可以帮助我们写代码、写博客、解释技术，可以多轮对话，写短剧等等。

总结

OpenAI 是人工智能领域的明星公司。从马斯克等人创办开始就吸引了很多的目光。起初，其研究似乎主要是朝着强化学习努力。但是，随着预训练模型的崛起，他们在诸多领域的创新也让大家见识到 OpenAI 的强大实力。OpenAI 发布的很多模型和系统都具有令人惊讶的效果。尽管随着其商业化进程的加速，免费开源的技术似乎变得稀有。但是，他们发布的技术引起了众多的追随者和竞争者。包括 Meta AI、StabilityAI 等竞争对手都发布了开源版本的兄弟模型。促进了 AI 领域的发展。

原文详情：

原文链接：https://zhuanlan.zhihu.com/p/590676423?utm_id=0

正文完