科技观察丨GPT-4来了！它很惊艳，但并不吓人

封面新闻记者边雪燕磊

在人工智能时代，人类能走多快？

答案是：快到你难以想象。

在发布 ChatGPT 不到四个月后，OpenAI 又进行了一次重大升级。GPT-4 是 OpenAI 人工智能系统的最新迭代，它已经消耗了数十亿字的文本——超过任何人一生可能阅读的文本，虽然现在该系统仅能在 ChatGPT 聊天机器人的高级版本中使用，但依旧吸引了全球的目光。

OpenAI 官网发布大型多模态模型 GPT-4。

“大型生成模型从已提供的数据中学到的东西，是在现实世界中，产生这些数据的压缩，这不仅意味着人类的想法与感受，还有一些关于人们所处环境以及人与人之间互动时的相互作用。”OpenAI 的联合创始人 Ilya Stutskever 在接受采访时表示，一个人可能处于的不同情况，所有这些信息都是压缩过程的一部分，该过程由神经网络表示以生成文本。语言模型越好，生成模型越好，保真度越高，它就越能捕捉到这个过程。

终于等到 GPT- 4 问世，它到底能有多震撼？

当地时间 15 日，OpenAI 公司表示，新的 GPT-4 可以生成更长的文本字符串并在人们输入图像时做出响应，它旨在更好地避免早期 GPT-3.5 中可见的人工智能陷阱。例如，这家人工智能研究公司表示，在律师执业必须通过的律师资格考试中，GPT-4 排名前 10%，而 GPT-3.5 排名后 10%。

GPT 代表 Generative Pretrained Transformer，指的是它可以自行生成文本，并且它使用了谷歌率先推出的一种名为 transformers 的人工智能技术。这是一种称为大型多模态模型 GPT- 4 模型或 LLM 的 AI，它根据从互联网收集的大量数据进行训练，通过数学学习来发现模式和重现风格。

预训练指的是用海量的文本语料库对庞然大物进行教育，教它语言的基本模式和关系——简而言之，教它理解世界，意味着人工智能可以从这个知识库中创造出新的想法。

多年来，OpenAI 一直向开发人员提供 GPT 技术，但去年 11 月首次亮相的 ChatGPT 提供了一个简单的界面，引起了人们对该技术的兴趣、实验和担忧：它可以做任何事情，从生成编程代码和回答考试问题，到写诗和提供基本事实。即使会出现错误，但也难以掩盖其光芒。

“在随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就会出现”，OpenAI 的官网视频中指出，GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

GPT-4 的另一项重大进步是能够接受包括文本和照片的输入数据。OpenAI 的示例是要求聊天机器人解释一张图的奇怪之处，该图由三张图片拼成：一根笨重的数十年前的计算机电缆插入现代 iPhone 的微型闪电端口。GPT- 4 会分别对每张图中的内容进行描述，并指出这幅图把一个大而过时的 VGA 接口插入一个小而现代的智能手机充电端口是荒谬的。

GPT- 4 指出这幅图把一个大而过时的 VGA 接口插入一个小而现代的智能手机充电端口是荒谬的。

另一个是更加稳定地表现，在避免出现“一本正经胡编乱造”等问题的同时，GPT-4 还可以更好地阻止它说错话。据 OpenAI 介绍，在内部对抗性事实评估中，GPT-4 的得分比最新的 GPT-3.5 高 40%。

GPT-4 还添加了新的“可操纵性”选项。今天大型语言模型的用户通常必须参与精心设计的“提示工程”，学习如何在他们的提示中嵌入特定提示以获得正确的响应。而 GPT-4 添加了一个系统命令选项，允许用户设置特定的语气或风格，例如编程代码或苏格拉底式导师：“你是一个总是以苏格拉底式回应的导师，从不给学生答案，但总是尝试提出正确的问题，帮助他们学会独立思考。”

“随机鹦鹉”等问题依然存在

尽管 OpenAI 列举出一系列 GPT- 4 在避免缺陷方面取得的进展，但不得不承认的是，GPT- 4 与早期的 GPT 模型具有相似的局限性。

最重要的是，它仍然不完全可靠（存在事实性“幻觉”并出现推理错误）。在使用语言模型输出时应格外小心，特别是在高风险上下文中，使用符合特定用例需求的确切协议（例如人工审查、附加上下文的基础或完全避免高风险使用）。

“它有时会犯简单的推理错误……或者在接受用户明显的错误陈述时过于轻信。有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞”，OpenAI 指出，此外，GPT-4 也可能自信地在其预测中犯错，在可能出错时不注意仔细检查工作。

GPT- 4 普遍缺乏对绝大部分数据中断后（2021 年 9 月）发生的事件的了解，也没有从经验中吸取教训。它有时会犯一些简单的推理错误，这些错误似乎与跨多个领域的能力不相称，或者在接受用户明显的虚假陈述时过于轻信。

大型语言模型可以提供令人印象深刻的结果，似乎可以理解大量的主题，并且可以用听起来有点生硬的语言进行交流。不过，从根本上说，LLM AI 并不真正了解任何东西。他们只是能够以统计上非常精确的方式将单词串在一起。

这种统计——从根本上来说有些空洞的知识方法——导致研究人员，包括前谷歌人工智能研究人员 Emily Bender 和 Timnit Gebru，警告大型语言模型带来的“随机鹦鹉的危险”。语言模型 AI 倾向于对训练数据中存在的偏见、刻板印象和负面情绪进行编码，而使用这些模型的研究人员和其他人往往会“误认为……实际自然语言理解的性能提升”。

虽然针对 GPT- 4 的输出可能存在各种偏差，但 OpenAI 的 CEO Sam Altman 总体上对 GPT-4 所显示的进展感到满意。Altman 在社交媒体发文称：“GPT- 4 比以前的模型更有创意，它的幻觉明显减少，而且偏见更少。它可以通过律师资格考试并在几门 AP 考试中获得 5 分。”

OpenAI、微软和英伟达合作

今年二月，微软在表示其 Bing 搜索引擎中使用了 OpenAI 的 GPT 技术，包括类似于 ChatGPT 的聊天功能。当地时间周二，微软表示表示新 Bing 已经使用 GPT-4。

微软使用 GPT 技术来评估人们在 Bing 中输入的搜索结果，并在某些情况下提供更详尽的对话式响应。结果可能比早期的搜索引擎提供更多信息，但可以作为选项调用的更具对话性的界面仍然存在问题。

3 月 16 日，封面新闻记者在使用最新的 Bing 并与之对话时，当问到“Bing 有结合最新的 GPT- 4 技术吗？”Bing 则给出了完全不同的回答。

3 月 16 日，封面新闻记者在使用最新的 Bing 并与之对话。

OpenAI 和微软共同对谷歌构成了主要的搜索威胁，但谷歌也拥有自己的大型语言模型技术，包括谷歌正在私下测试的名为 Bard 的聊天机器人。

在 GPT- 4 发布的当天，谷歌也宣布将开始对自己的 AI 技术进行有限测试，以提高 Gmail 电子邮件和 Google Docs 文字处理文档的编写速度。谷歌表示：“在你的人工智能合作伙伴帮助之下，你可以继续完善和编辑，根据需要获得更多建议。”

值得注意的是，为了训练 GPT，OpenAI 使用了 Microsoft 的 Azure 云计算服务，其中包括连接在一起的数千个 Nvidia A100 图形处理单元或 GPU。Azure 现在可以使用 Nvidia 的新 H100 处理器，其中包括用于加速 AI 转换器计算的特定电路。

“AI+ 万物”无处不在的人工智能

据封面新闻记者了解，大型语言模型开发商 Anthropic 也在本周推出了一款名为“Claude”的人工智能聊天机器人，这家将谷歌视为投资者的公司为“Claude”开了一个候补名单。

“Claude 能够完成各种对话和文本处理任务，同时保持高度的可靠性和可预测性”，Anthropic 公司负责人在一篇博客文章中指出，“Claude”可以帮助处理总结、搜索、创意和协作写作、问答、编码等用例。

“Claude”仅是不断增长的聊天机器人中的一员。据外媒报道，Meta 将其 AI 业务整合为一个更大的团队，并计划在其产品中构建更具生成性的 AI。摩根士丹利正在推出一款由 OpenAI 最新技术 ChatGPT 驱动的先进聊天机器人，以帮助该行的金融顾问团队。大摩财富管理部门分析、数据和创新主管 Jeff McMillan 表示，摩根大通一直在用 300 名顾问测试这款人工智能工具，并计划在未来几个月广泛推广。

“我们已经对 GPT-4 进行了很长一段时间的初始培训，但我们花了很长时间和大量工作才准备好发布它”，Altman 在社交媒体发文称：“我们希望您喜欢它，非常感谢您对其缺点的反馈。”

考虑到技术问题和人为监管的必要性，人工智能的作用，在于对以人为主导的工作进行辅助。当前，AI+ 战略已经率先实现了人工智能在 B 端垂直行业的应用落地。“AI+ 联络中心”“AI+ 金融”“AI+ 城市公共服务”“AI+ 建筑”等多元化产品及产业形态，在未来，“AI+ 场景重塑”也会随着技术发展而产生颠覆性的变革。

但对人类而言，与不断进化的人工智能同样重要的是，不要反应过度。在荷马的史诗《奥德赛》中，独眼巨人波吕斐摩斯将奥德修斯和他的船员困在洞穴中，打算吃掉他们，但奥德修斯设法使巨人失明并逃脱。人工智能是在改变世界，但不会吃掉我们。

举报 / 反馈

原文链接：https://baijiahao.baidu.com/s?id=1760503396730899424&wfr=spider&for=pc