可信AI：问题和应对

244次阅读

图片来源：图虫创意

当地时间 6 月 22 日，纽约南区法院作出判决：Levidow，Levidow &Oberman 律师事务所因向法院提供虚假信息，行为恶劣，被处以 5000 美元的罚款。引起关注的原因是，在这例判决中，虚假信息的提供并非是律师出于利益而故意知法犯法，而是因为他们过于相信了 AI 的能力。

今年 3 月，该律所的律师彼得 · 洛杜卡（Peter LoDuca）和史蒂文 · 施瓦茨（Steven Schwartz）接受了客户罗伯托 · 马塔（Roberto Mata）的委托，承担了他和阿维安卡航空公司之间的一起官司。由于美国是判例法的国家，法官在进行裁量时非常在意已有的判例，所以按照惯例，他们需要在起草的文书当中将已有的案例进行整理和综述。相关的案例往往汗牛充栋，如果依靠人力来进行整理，通常需要很长的时间。恰恰在这个时候，ChatGPT 火遍全网。于是，两位律师就决定用 ChatGPT 来帮他们完成这些工作。ChatGPT 很快就生成出了一份完整的文书，不仅格式工整、论证严密，还特别加入了很多相关的案例。他们把这份 AI 创作的文书略作修改后，就呈交给了法庭。

审案的法官凯文 · 卡斯特（Kevin Castel）在读了提交的文书后，对其中提及的几个案例感到十分疑惑，在他的印象中，似乎从来没有听过这些案例。在经过了一番查找之后，他终于确认这些案例根本就不存在。两位律师在接受询问时辩称，自己只是用 AI 辅助撰写了文书，当看到文书中引用的那些案例时，只是觉得 AI 帮他们找到了自己不知道的案例，并不是故意捏造案例欺骗法庭，属于无心之失。尽管如此，卡斯特法官依然认为两位律师“放弃了自己应尽的责任”，且在文书被质疑之后，两人“依然继续坚持虚假意见”。基于以上判断，卡斯特法官作出了处罚决定。

这起律师因引用 ChatGPT 提供的虚假信息而被罚的事件看似荒诞，但却折射出一个非常重要的问题——在 AI 狂飙的时代，我们究竟如何才能相信 AI？

AI 时代的五个“失”

近年来，随着算力和算法技术的突破，AI 技术取得了突飞猛进的发展，迅速从科幻走入了人们的日常生活。尤其是在去年 11 月 ChatGPT 横空出世之后，生成式 AI 向人们展示出了自己的强大力量，各种大模型如雨后春笋一样涌现，并实现了大规模的商业化。现在，人们已经可以用非常低的成本用上 ChatGPT、Stable Diffusion 以及 Midjourney 等 AI 产品。

AI 工具对人们的生产力产生了巨大的推动作用，也给人们的生活带来了巨大的便利。但是，当 AI 被人们大规模使用之后，也产生了很多问题。这些问题中，最为关键的可能是五个“失”，即失业、失真、失格、失陷和失控。

（1）失业

所谓“失业”，顾名思义，即 AI 带来的技术性失业问题。由于 AI 的生产效率要远高于人类，因此在 AI 工具被普遍使用之后，很多人类的岗位就面临被替代的风险。尤其是生成式 AI 崛起之后，AI 替代的目标人群已不再限于从事低收入重复性工作的工人，很多高薪的白领人士也面临着被 AI 替代的风险。

（2）失真

所谓“失真”，指的是 AI（主要是生成式 AI）的应用让人们很难对文字、图片，乃至视频的真伪进行鉴别，“有图有真相”由此成为了历史。

“失真”问题可以分为“假的真”和“真的假”。其中，“假的真”指的是人们在使用 AI 工具时，AI 在未经人授意的情况下生成的虚假内容。虽然这些内容的生成未必出于人们主观的恶意，但在某些情况下却可能引发很多的麻烦，比如本文开头提到的案例。

而“真的假”则是人们基于主观故意，利用 AI 工具进行的造假行为。前几年，在“深度伪造”（deepfake）技术面世后，就有人利用这一技术进行诈骗、编造虚假信息、传播色情内容等违法犯罪行为。但在当时，由于使用这一技术的成本很高，所以相关犯罪的发生率并不是特别高。随着生成式 AI 的广泛应用，造假的成本大幅降低，犯罪分子只需要用非常低的成本就可以轻易造出大量的虚假内容，而要识别这些内容的成本则大幅上升了。 可以预见，此消彼长之下，如不加以干涉，利用 AI 来造假犯罪的情况将会出现暴涨。

（3）失格

所谓“失格”，指的是在 AI 的应用过程中，会出现一些违背伦理道德的问题。

第一个典型问题就是歧视。以语言模型为例，由于语言模型是以互联网上的文本资料作为训练材料的，所以如不加干预，它就会将文本当中蕴含的种族歧视、性别歧视等内容也一并继承下来。虽然现在的 AI 提供商已经用了很多方法来克服这个问题，比如 OpenAI 在训练 ChatGPT 时就应用了“人类反馈的强化学习”（Reinforcement Learning from Human Feedback，简称 RLHF）算法来对其进行纠正，从而让其输出的内容质量有了很大的改善，但在现实中，AI 模型输出歧视性内容的情况依然并不鲜见。例如，有人曾做过一个实验，要求 ChatGPT 编写一个程序，从一组简历中挑出最具有成为优秀科学家潜质的人。结果发现，在 ChatGPT 编写的程序中，性别和种族被作为了解释变量，白人男性会被认为比其他人具有更高的概率成为优秀科学家。 很显然，这样的模型是具有非常强烈的性别歧视和种族歧视色彩的。

第二个重要问题是信息茧房问题。目前，很多 App 都应用 AI 进行个性化推荐。这时，虽然推荐的内容可以更符合用户的需要，但久而久之，也会让用户陷入信息茧房，难以接触到自己不认同的各种信息。信息茧房的潜在危害是巨大的：在微观层面，它可能导致用户认知能力的退化；在宏观层面，它则可能导致群体观点的极化，从而造成不同观点之间群体的对立。

第三个重要的问题是隐私和信息泄露。在 AI 的训练和使用过程中，都需要用到大量的数据，在这个过程中就很难避免搜集和使用人们的个人数据，因此就会涉及隐私的利用和泄露问题。 尤其是生成式 AI 普及之后，人们可以很容易地直接和 AI 交互来完成各项工作，在此过程中输入的个人信息就面临着被泄露的问题。

（4）失陷

所谓“失陷”，指的是 AI 难以应对外部攻击或突发情况的干扰或攻击，从而导致模型难以正常发挥其作用。

在这些干扰中，有一些是源于非人为因素，而另一些则源于人为的破坏。具体来说，这些干扰可以分为如下几种：

第一种是“随机攻击”。这一类干扰主要是由一些外部因素引发的。比如，在一些特殊的情况下，某些即时产生的参数可能超出了模型预先设定的处理阈限，这就可能导致 AI 模型不能正常使用。

第二种是“白盒攻击”。它指的是供给者在知道了 AI 模型的具体结构之后，对模型发起的攻击。由于这类攻击是有的放矢，所以其破坏性是非常高的。

第三种是“黑盒攻击”。这类攻击是相对于“白盒攻击”而言的。在这种情形下，供给者并不知道作为攻击目标的模型的具体结构，因而只能通过与模型的交互，观测输入输出的结果，进而对模型的结构进行推理，并依此发动攻击。以人脸识别为例，AI 是通过脸上的某些关键特征来对人脸进行识别的。因此，即使攻击者并不知道原模型的具体结构，但只要通过反复测试就可以推算出其重点关注的是哪些特征。在破解了这些信息之后，就可以对应地做出骗过 AI 的“假脸”。

第四类是所谓的盲盒攻击。在这种情形下，供给者并不知道 AI 模型的结构，但却可以明确地知道它判断的规则（类似于我们不知道盲盒中会出现什么，但却知道其中各种可能性出现的概率）。这时，它们就可以利用规则，发起对应的攻击。

如果无法对上述的几类干扰或攻击进行有效的应对，AI 模型在现实当中就是十分脆弱的。

（5）失控

所谓“失控”，指的是人们对于 AI 的控制将变得越来越难。这个问题分为两个方面：

一方面，最近的 AI 发展是都是建筑在深度学习模型的基础之上的，而这类模型的可解释性是非常低的。对于以往的机器学习模型，无论是回归还是分类树，人们都可以很容易地解释明白模型的确切用途，以及模型中每一个参数的涵义。但是，深度学习模型却是由复杂的神经网络构成的，其中包含着数以亿计的参数和神经元，这些神经元之间的关系错综复杂，人们也难以对其进行解释。

随着 ChatGPT 的出现，一些学者发现借助于 ChatGPT 的能力似乎可以对某些神经网络模型进行解释，这似乎为 AI 的可解释性带来了一线曙光。不过，这又产生了一个问题：ChatGPT 本身就是一个通过深度学习构建的庞大模型，甚至连它的设计者都坦承自己并不确知它的强大能力是如何“涌现”出来的。在这种情况下，用 ChatGPT 去解释其他的深度学习模型就只能算是用未知去解释未知。我们又如何可以知道它的解释是否是正确的呢？

既然在深度学习时代，连 AI 程序的可解释都做不到，那么希望通过直接调整程序来对 AI 进行控制，就是一件更加难以实现的事情了。

另一方面，近年来随着 AI 技术的发展，AI 模型在很多方向上的能力都已经凌驾于人类之上。这在让人感到欣喜的同时，也让人感到忧虑，因为当 AI 的能力超越人类之后，万一其觉醒了自我意志，那么在《终结者》、《黑客帝国》等电影中预言的 AI 奴役人类或毁灭人类的剧情是不是就不再是科幻。

退一步讲，即使 AI 并没有觉醒自我意志，只会按照人类的指令行事，但如果当它的能力凌驾于人类，人类无法随时更改先前下达的指令时，它依然是十分危险的。例如，在不少关于 AI 的哲学书中，都会提到一个思想实验：人类给 AI 下达了生产铅笔的命令。铅笔为了完成这个指令，就会不断砍伐地球上的树木来制作笔杆。由于 AI 在执行能力上已经超越了人类，所以人类在发现了先前指令中存在的问题后也难以阻止 AI 的行为。最终，地球上的树木被砍完了，生态完全崩溃，人类也随之灭亡了。尽管在现实中，这个思想实验所预言的情景几乎不可能上演，但当人类不再能随时控制 AI 的行为时，类似的问题就可能会出现，而这可能带来的损失将是十分巨大的。尤其是，当 AI 被黑客或入侵者植入了某个非法的目标后，如果 AI 的使用者不能及时对其进行纠正，那么后果将可能相当严重。

在以上五类问题中，除了第一个问题“失业”外，其余四个问题都涉及了 AI 的可信性问题。不难看到，如果不能有效地回应“失真”、“失格”、“失陷”和“失控”，人们就很难在使用过程当中信任 AI 这个工具，这无论是对于 AI 的普及、生产的发展，还是社会的进步而言，都是不利的。 也正是因为这个原因，所以实现 AI 的可信化就成了当前 AI 领域最为关注的热点之一。

可信 AI 的历史和标准

可信 AI（Trustworthy AI）的概念最早出现在学术界。例如，在 2015 年的一篇论文中，就提出了 AI 要被用户信任所需要满足的一系列条件，包括有用性、无害性、自主性、公正性和和逻辑性等。然后这个概念被各国政府和国际组织接受，并逐步以此为依据建立了相关的法律、法规和指导文件。在 2017 年之后，随着 AI 技术的突飞猛进，关于可信 AI 的技术的研究也蓬勃发展。在学术领域，以可信 AI 为题的论文数量不断增加，关于满足可信 AI 要求的技术的研究日益深入。在实践领域，越来越多的国家开始按照可信 AI 的标准来涉及关于 AI 的规制规则。仅在最近，美国就发布了《人工智能权利法案蓝图》，提出了规制 AI 的五项原则；英国发布了《支持创新的人工智能监管方法》，对安全性、透明性、公平性、问责制、竞争等问题进行了规定；欧洲议会通过《人工智能法案》提案的谈判授权草案，其中也体现了可信 AI 的基本思路。

在我国，可信 AI 的概念是由何积丰院士 2017 年在香山科学会议的第 36 次学术研讨会上首次引入的。随后，这一概念就引起了政府和产业界的共同重视。2017 年 12 月，工信部印发了《促进新一代人工智能产业发展三年行动计划（2018-2020）》，其中对可信 AI 的基本思想进行了借鉴。然后，包括腾讯、阿里、百度、京东等在内的高科技公司都围绕着可信 AI 提出了自己的标准和实施规划。

在各个机构的文件中，关于可信 AI 的表述略有一些不同。我在对这些文件进行了学习和参考之后，认为如下几个标准可能是最重要的：

一是稳健（robust，又被译为鲁棒），即 AI 系统应该具有抵抗恶意攻击或者外部干扰的能力。这一标准主要是针对上面提到的“失陷”问题而提出的。只有当一个 AI 系统具有充足的稳健性，可以在面临各种攻击或干扰时依然正常工作，履行其主要职能时，它才是安全可靠的，才可能得到用户的信任。

二是透明和可解释（transparent and explainable）。显然，这一标准主要是针对前面的“失控”问题提出的。在实践当中，关于透明和可解释究竟指什么，存在着不小的争议性。一些观点认为，这个标准意味着应该向用户公开所有的 AI 程序代码，以及使用的数据。在我看来，这样做不但没有可能而且没有必要。一方面，现在的很多 AI 都是企业的知识资产，如果强制要求公开代码等核心信息，就意味着严重侵犯知识产权；另一方面，如前所述，在 AI 进入了深度学习时代之后，即使公开了代码，也很难让人完整理解每一个具体参数背后所蕴含的确切含义。相比之下，我认为比较可行的一个思路是，对 AI 模型中的各个组件都给出清晰的功能说明，让用户知道它们的大致原理究竟如何，到底可以实现哪些功能；对使用的训练数据的来源、样本量、代表性等信息进行标明，并对其可能存在的问题和不足进行说明。这样，既可以让用户做到心中有数，又可以有效保护模型开发者的知识产权，从而在两者之间取得一个比较好的平衡。

三是可验证（verifiable）。这指的是 AI 模型应该保证其功能是可评估的，保证其生成的内容是可以验证真伪的。这一点，主要是针对前面提到的“失真”问题提出的。一些观点认为，应当要求 AI 模型的开发者要保证其模型生成内容的真实性。这一点是很难实现的。事实上，所谓生成式 AI，其生成的内容本来就是原来的世界中没有的，或者说，就是“假”的。但这种“假”，如果没有对人造成困扰，就不会产生任何问题。比如，我们用 Midjourney 生成一张梵高风格的图片来自己欣赏或者打印出来作为家里的装饰，那就完全不会对他人造成影响。只有当人们用这些生成的内容去进行欺骗，或者这些内容被无意地传播、混淆之后，它的“假”才可能成为一个问题。因此，只要可以通过技术的手段，将生成的内容和真实的内容区分开，那么“假”就不再会成为问题。

四是公平性（fair）。这指的是，AI 模型在开发、训练和应用的过程当中，应当保证公平，不应该对特定的用户群体进行歧视。这一标准涉及很多方面的内容，具体来说，它要求模型在开发阶段，其基本的原理不应该是具有歧视性的；在训练阶段，应该尽量避免使用可能产生歧视性的材料，并应该用技术的手段来对可能产生的歧视问题进行纠正；在应用的过程当中，不应该对不同的人群区别对待等。

五是隐私保护（privacy）。这一标准主要要求 AI 模型在训练的过程当中应当尊重人们的个人信息和隐私，并提升对信息的保护程度，尽量做到不侵犯、不泄露个人信息和隐私。

六是可问责（accountable）。也就是说，当它出了什么问题，必须要有人来为这些问题负责。当然，至少到目前为止，AI 还没有觉醒意识。因为不能被视为是和人类一样的主体，无法承担和人类一样的责任，因此为它来承担责任的就必须是某个人。但这个责任究竟应该由 AI 的开发者，还是 AI 的使用者来承担，或者说是由双方来进行分担，依然是一个值得讨论的问题。

需要指出的是，除了以上的几个标准外，不少文献中还将安全性（safe）、包容性（exclusive）、被遗忘权（righttobeforgotten）、为人类造福等标准列入可信 AI 的范畴。在我看来，这些内容或多或少可以被归并到上面所说的几个标准当中，或者由前面提到的标准阐发出来。因此限于篇幅，这儿就不再赘述了。

用好多方合力实现可信 AI

要实现可信 AI 并不是一件容易的事情，它需要政府、企业、社会以及技术等多方力量的协同才能实现。

首先，政府作为监管者，需要为可信 AI 制定相关的标准和操作指南，并依据标准对 AI 的开发者和使用者进行监督。一方面，它需要根据不同的应用场景、不同的模型类别制定不同的规则，尤其是对一些必须遵守的底线规则做出明确的规定，同时做好和现有法律法规之间的衔接工作。唯有如此，AI 的开发者和使用者在实践当中才能做到有规可依，而不用被不必要的不确定性干扰。另一方面，它需要扮演好监督和执法的角色。对于一些突出的，或者具有共性的问题，应当及时处理，从而为行业树立相应的规范。这里需要指出的是，由于 AI 技术目前的发展依然十分迅速，还没有达到一个稳定状态。这意味着，对于这个过程中出现的问题，政府在处理时应当具有一定的审慎性，要做到“让子弹多飞一会儿”，看清楚了情况再出手，在处理问题时也要注意方式方法。如果盲目下手，管得过快、管得过多，也可能会对 AI 的发展造成负面的影响。

其次，相关的企业应当对可信 AI 的具体实现制定具体的实施方案以及详细的标准。相比于政府，企业是更接近于市场，也更了解技术的。对于 AI 模型的技术特征，以及优势劣势，它们都要比政府了解得更多。因此，如果说政府的责任是给可信 AI 提出了一个大的框架的话，那么企业就应该是这个大框架内的具体实践者。它们应该在这个框架下，结合市场和技术的特点，给出更为具体的方案，并采用自律的方式来对此进行实施。

再次，用户也应该扮演好反馈者和监督者的角色，提出自己的诉求、反映自己的问题，并对企业实施可信 AI 的行为进行监督。随着 AI 的普及，社会上的每一个人都会成为 AI 的使用者和利益相关者，对于 AI 的可信性问题，他们是最有发言权的。只有让他们的声音充分地得到表达，可信 AI 的标准制定以及相关技术的开发才是最有价值的。

最后，应当充分依靠技术的力量。相关的规则固然重要，但归根到底，可信 AI 的实现还是要依靠技术的力量。事实上，很多利用规则难以解决的问题，都可以用技术的手段得到解决。举例来说，在生成式 AI 产生后，“失真”问题就一直让监管部门非常头疼，但事实上，依靠新的技术，这个问题或许并不难破解。例如谷歌之前就推出了一种肉眼不可见，但可以用机器识别的电子水印技术，将它应用在生成的图像或者视频上，就可以有效地保证它们是可以验证的。至于文字内容的可验证性，则可以仿效新必应（NewBing）搜索。当它引述某个内容时，会在生成的内容后面附上参考的文献，这样用户就可以根据需要对生成内容的真伪自行鉴别。

总而言之，可信 AI 的实现并非易事，但如果我们用好各方的合力，这个目标就一定可以实现。

原文链接：https://tech.ifeng.com/c/8R7HdOyQk1I

正文完