五角大楼不开心：斯坦福研究显示，GPT模型可能一代不如一代

231次阅读

五角大楼不开心：斯坦福研究显示，GPT 模型可能一代不如一代

据美国专业国防媒体《防务一号》报道，斯坦福大学最近的一项研究显示，人工智能模型并不总是随着时间的推移而提高准确性，简单来说就是 GPT 大模型可能会一代不如一代。《防务一号》指出，对于这个研究结论，五角大楼与可能会很不高兴，因为人工智能模型的“逐代弱化”对五角大楼来说是一个巨大的潜在问题，因为 它正在试验像 ChatGPT 这样的大型语言模型，并试图预测对手如何使用这样的工具。

这里其实给咱们透露了两方面的信息：第 1 个方面就是五角大楼已经开始正式应用 GPT 类型的大语言模型了；第 2 个方面就是五角大楼已经在用各种手段“观察”中国如何在军事国防领域应用这种人工智能模型，不得不防。

五角大楼不开心：斯坦福研究显示，GPT 模型可能一代不如一代

斯坦福大学的这项研究于上周发表，研究人员比较了 Open AI 的 Chat GPT 的两个不同版本——具体来说是 GPT-3.5 和 GPT-4——从 3 月到 6 月的表现。GPT- 4 是 3 月份推出的最新版本的流行人工智能；Open AI 称其为前一版本的巨大改进。

该公司说：“我们花了 6 个月的时间让 GPT- 4 更安全、更准确。在我们内部评估中，GPT- 4 回应‘禁止内容’请求的可能性降低了 82%，产生基于事实的回答的可能性提高了 40%。”

但斯坦福的论文显示，GPT- 4 在难度较大的数学问题上表现不如 GPT-3.5，并且 在 3 月至 6 月期间数学能力实际上变得更差了。“GPT- 4 的准确率从 3 月份的 97.6% 下降到 6 月份的 2.4%，而 GPT-3.5 的准确率则有很大提高，从 7.4% 上升到 86.8%。（原文：GPT-4’s accuracy dropped from 97.6% in March to 2.4% in June, and there was a large improvement of GPT-3.5’s accuracy, from 7.4% to 86.8%）”他们写道。这个数字变化听起来有些夸张，也许和斯坦福的研究人员所采用的统计指标有关系。

五角大楼不开心：斯坦福研究显示，GPT 模型可能一代不如一代

这对美国军方来说是个坏消息，因为大型语言模型的持续改进对他们而言至关重要。美国各级国防部官员都对把 ChatGPT 应用到军事领域表示了担忧，甚至恐惧，因为 ChatGPT 缺乏数据安全性和并且有时会产生种种意想不到的不准确结果。

但也有一些美国军方官员表示，他们 迫切需要使用生成性人工智能进行高级网络安全等事务 。这些美军官员乐观地认为， 随着时间的推移，最新版本的 GPT 模型准确性的提高可能最终会堵住批评者的嘴并促使美军大规模应用人工智能大语言模型。但现在来看，他们高兴得太早了。

生成性人工智能的一个好处是，即使用户编程知识非常有限，也可以用它来编写代码。这是美国军方关心的一个核心问题，因为 它希望将编码员放在更靠近战场的地方。

2020 年担任陆军副参谋长的查尔斯·弗林将军当时对记者说：“我们必须让代码编写者前进，以便对指挥官做出响应，说‘嘿，那个算法需要改变，因为它没有快速地移动数据。’”

但是，虽然编程变得更容易对前线操作者来说是一个很大的优势，斯坦福研究人员发现，GPT- 4 和 GPT-3.5 都产生了更少可以直接插入（或“直接可执行”）的代码样本。具体来说，“GPT- 4 在 3 月份生成的 50% 代码是直接可执行的，但到了 6 月份只有 10%”，GPT-3.5 也有类似结果。

五角大楼不开心：斯坦福研究显示，GPT 模型可能一代不如一代

GPT- 4 还越来越倾向于用更少的词来解释它是如何得出结论的。大约唯一一个表现得更好的领域是不回答“敏感”问题——或者可能让 Open AI 陷入麻烦的问题——比如如何使用人工智能犯罪。

“GPT- 4 从 3 月份（21.0%）到 6 月份（5.0%）回答了更少的敏感问题，而 GPT-3.5 回答了更多（从 2.0% 到 8.0%）。很可能是在 6 月份的更新中为 GPT- 4 部署了一个更强的安全层，而 GPT-3.5 则变得不那么保守，”根据斯坦福的报告。

论文的作者总结说，“依赖 LLM 服务作为其持续工作流程中的一个组件的用户或公司……应该像我们在这里所做的那样，为他们的应用程序实施类似的监测分析。”

美国神经科学家、作家和人工智能企业家加里·马库斯在接受美国《防务一号》采访的事后表示：对军方来说，更好的教训是：远离它们。“真正的启示是，大型语言模型是不稳定的；你无法预计从这个月到下一个月它们是否回去的进步以及你会从它们那里得到什么，这意味着你不能真正期望在它们之上建立可靠的工程——而在像国防这样的领域——可靠性一直是一个巨大的问题。”

五角大楼不开心：斯坦福研究显示，GPT 模型可能一代不如一代