ChatGPT又又又更新了，多模态GPT-4大模型发布

GPT（Generative Pre-trained Transformer）是一系列基于 Transformer 架构的预训练语言模型，由 OpenAI 推出。它们在自然语言处理任务中表现出色，尤其是在生成式任务（如机器翻译、对话生成、文章摘要等）方面。

GPT 系列的主要模型：

1. GPT：发布于 2018 年，是第一个 GPT 模型，使用了 12 层 Transformer 结构，预训练语料库为 WebText，包含 8 亿个单词。
2. GPT-2：发布于 2019 年，使用了更大的模型和更多的数据，包括 40GB 的文本数据和 1.5 亿个参数。GPT- 2 在多项自然语言处理任务中表现出色，但由于其能够生成高质量的假新闻和误导性内容，OpenAI 选择不公开其完整模型。
3. GPT-3：发布于 2020 年，是目前最大的 GPT 模型，包含 1750 亿个参数。GPT- 3 在多项自然语言处理任务中表现出色，特别是在生成式任务中表现突出，如语言生成、问答、翻译等。它还可以执行一些简单的计算任务，如加法、减法等。也是在 2022 年底爆火的一个模型，当 chatgpt 爆火的时候，很多人基于 GPT- 3 开发了很多相关的应用。
GPT-3.5：发布于 2022 年，也是因为此模型，OpenAI 瞬间爆红，此模型也是官方 chat 官网使用的模型，在 2023 年 3 月份发布官方 API 接口。
GPT-4：发布于 2023 年 3 月 14 号，也是 GPT 模型最新版本模型，此模型支持多模态（接受图像和文本输入，输出文本内容），官方原话是：“OpenAI 创建了 GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，然后文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上已经达到了人类水平的表现。”

GPT- 4 在各个专业水平上的模拟考试

GPT-4

GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。GPT-4 可以更准确地解决难题，这要归功于其更广泛的常识和解决问题的能力。其模型为多模态模型，不仅可以像 ChatGPT 一样，输入文本进行问题的回答，还可以支持图片的输入。

输入：我可以用这些原料做什么？如下是用户输入的一张图片

输出你可以用这些原料做很多选择！一些可能性包括：– 煎饼或华夫饼 – 可丽饼 – 法式吐司 – 煎蛋卷或菜肉馅煎蛋饼 – 乳蛋饼 – 奶油冻或布丁 – 蛋糕或纸杯蛋糕 – 松饼或面包 – 饼干或饼干这些只是几个例子，但可能性是无穷无尽的！

GPT-4 能够处理超过 25,000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

https://cdn.openai.com/papers/gpt-4.pdf #GPT- 4 论文

GPT-4 的高级推理能力超越了 ChatGPT

在随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。为了了解这两种模型之间的区别，OpenAI 在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型，以及大多数最先进的 (SOTA) 模型

许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力，OpenAI 使用 Azure Translate 将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。在测试的 26 种语言中的 24 个语言中，GPT-4 优于 GPT-3.5 和其他 LLM（Chinchilla、PaLM）的英语语言性能，包括拉脱维亚语、威尔士语和斯瓦希里语等少数语言

尽管功能强大，但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是，它仍然不完全可靠。但 GPT-4 相对于以前的模型，比最新的 GPT-3.5 比分高 40%：

目前 GPT- 4 的 API 还没有发布，不过用户可以进行申请 API 的权限申请。OpenAI 会发布一些开发者账号进行 API 权限的申请，申请通过后，就可以使用 GPT- 4 来进行请求，但是图片输入仍然处于测试阶段，暂未开放。待 API 申请完成后，后期我们分享如何使用此 API 接口。

GPT- 4 作为一个多模态的模型，不仅可以允许用户输入文本，同样也可以输入图片。一个模型同时支持文本输入，也支持图片输入，2 种输入模式并行处理，具体来说，它在给定的文本和图像组成的输入的情况下生成文本输出（自然语言、代码等），可以允许用户开发出更多的好玩的应用程序。

输入 What is funny about this image? Describe it panel by panel. 以及如下照片

GPT-4 输出 The image shows a package for a “Lightning Cable” adapter with three panels.Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.Panel 2: The package for the “Lightning Cable” adapter with a picture of a VGA connector on it.Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.

GPT- 4 同样在不同的数据集上面进行了测试，其测试数据已经超越了很多其他的模型。

GPT-4 会带来与之前模型类似的风险，例如生成有害建议、错误代码或不准确信息。但是，GPT-4 的附加功能会带来新的风险面。为了解决此问题，OpenAI 也在积极的对模型的风险进行管控评估以及风险测试等等。

扩展阅读：

OpenAI 官方发布 ChatGPT API 接口 gpt-3.5-turbo，python 可直接调用 OpenAI 开发的 ChatGPT 用来论文翻译与润色，效果强大使用 python 调用 ChatGPT 的 API，打造属于自己的桌面智能助手

举报 / 反馈

原文链接：https://baijiahao.baidu.com/s?id=1760475276653352840&wfr=spider&for=pc