可信AI:问题和应对

133次阅读

图片来源:图虫创意

图片来源:图虫创意

当地时间 6 月 22 日,纽约南区法院作出判决:Levidow,Levidow &Oberman 律师事务所因向法院提供虚假信息,行为恶劣,被处以 5000 美元的罚款。引起关注的原因是,在这例判决中,虚假信息的提供并非是律师出于利益而故意知法犯法,而是因为他们过于相信了 AI 的能力。

今年 3 月,该律所的律师彼得 · 洛杜卡(Peter LoDuca)和史蒂文 · 施瓦茨(Steven Schwartz)接受了客户罗伯托 · 马塔(Roberto Mata)的委托,承担了他和阿维安卡航空公司之间的一起官司。由于美国是判例法的国家,法官在进行裁量时非常在意已有的判例,所以按照惯例,他们需要在起草的文书当中将已有的案例进行整理和综述。相关的案例往往汗牛充栋,如果依靠人力来进行整理,通常需要很长的时间。恰恰在这个时候,ChatGPT 火遍全网。 于是,两位律师就决定用 ChatGPT 来帮他们完成这些工作。ChatGPT 很快就生成出了一份完整的文书,不仅格式工整、论证严密,还特别加入了很多相关的案例。他们把这份 AI 创作的文书略作修改后,就呈交给了法庭。

审案的法官凯文 · 卡斯特(Kevin Castel)在读了提交的文书后,对其中提及的几个案例感到十分疑惑,在他的印象中,似乎从来没有听过这些案例。在经过了一番查找之后,他终于确认这些案例根本就不存在。两位律师在接受询问时辩称,自己只是用 AI 辅助撰写了文书,当看到文书中引用的那些案例时,只是觉得 AI 帮他们找到了自己不知道的案例,并不是故意捏造案例欺骗法庭,属于无心之失。 尽管如此,卡斯特法官依然认为两位律师“放弃了自己应尽的责任”,且在文书被质疑之后,两人“依然继续坚持虚假意见”。基于以上判断,卡斯特法官作出了处罚决定。

这起律师因引用 ChatGPT 提供的虚假信息而被罚的事件看似荒诞,但却折射出一个非常重要的问题——在 AI 狂飙的时代,我们究竟如何才能相信 AI?

AI 时代的五个“失”

近年来,随着算力和算法技术的突破,AI 技术取得了突飞猛进的发展,迅速从科幻走入了人们的日常生活。尤其是在去年 11 月 ChatGPT 横空出世之后,生成式 AI 向人们展示出了自己的强大力量,各种大模型如雨后春笋一样涌现,并实现了大规模的商业化。现在,人们已经可以用非常低的成本用上 ChatGPT、Stable Diffusion 以及 Midjourney 等 AI 产品。

AI 工具对人们的生产力产生了巨大的推动作用,也给人们的生活带来了巨大的便利。但是,当 AI 被人们大规模使用之后,也产生了很多问题。这些问题中,最为关键的可能是五个“失”,即失业、失真、失格、失陷和失控。

(1)失业

所谓“失业”,顾名思义,即 AI 带来的技术性失业问题。由于 AI 的生产效率要远高于人类,因此在 AI 工具被普遍使用之后,很多人类的岗位就面临被替代的风险。尤其是生成式 AI 崛起之后,AI 替代的目标人群已不再限于从事低收入重复性工作的工人,很多高薪的白领人士也面临着被 AI 替代的风险。

(2)失真

所谓“失真”,指的是 AI(主要是生成式 AI)的应用让人们很难对文字、图片,乃至视频的真伪进行鉴别,“有图有真相”由此成为了历史。

“失真”问题可以分为“假的真”和“真的假”。其中,“假的真”指的是人们在使用 AI 工具时,AI 在未经人授意的情况下生成的虚假内容。虽然这些内容的生成未必出于人们主观的恶意,但在某些情况下却可能引发很多的麻烦,比如本文开头提到的案例。

而“真的假”则是人们基于主观故意,利用 AI 工具进行的造假行为。前几年,在“深度伪造”(deepfake)技术面世后,就有人利用这一技术进行诈骗、编造虚假信息、传播色情内容等违法犯罪行为。但在当时,由于使用这一技术的成本很高,所以相关犯罪的发生率并不是特别高。随着生成式 AI 的广泛应用,造假的成本大幅降低,犯罪分子只需要用非常低的成本就可以轻易造出大量的虚假内容,而要识别这些内容的成本则大幅上升了。 可以预见,此消彼长之下,如不加以干涉,利用 AI 来造假犯罪的情况将会出现暴涨。

(3)失格

所谓“失格”,指的是在 AI 的应用过程中,会出现一些违背伦理道德的问题。

第一个典型问题就是歧视。以语言模型为例,由于语言模型是以互联网上的文本资料作为训练材料的,所以如不加干预,它就会将文本当中蕴含的种族歧视、性别歧视等内容也一并继承下来。虽然现在的 AI 提供商已经用了很多方法来克服这个问题,比如 OpenAI 在训练 ChatGPT 时就应用了“人类反馈的强化学习”(Reinforcement Learning from Human Feedback,简称 RLHF)算法来对其进行纠正,从而让其输出的内容质量有了很大的改善,但在现实中,AI 模型输出歧视性内容的情况依然并不鲜见。例如,有人曾做过一个实验,要求 ChatGPT 编写一个程序,从一组简历中挑出最具有成为优秀科学家潜质的人。结果发现,在 ChatGPT 编写的程序中,性别和种族被作为了解释变量,白人男性会被认为比其他人具有更高的概率成为优秀科学家。 很显然,这样的模型是具有非常强烈的性别歧视和种族歧视色彩的。

第二个重要问题是信息茧房问题。目前,很多 App 都应用 AI 进行个性化推荐。这时,虽然推荐的内容可以更符合用户的需要,但久而久之,也会让用户陷入信息茧房,难以接触到自己不认同的各种信息。信息茧房的潜在危害是巨大的:在微观层面,它可能导致用户认知能力的退化;在宏观层面,它则可能导致群体观点的极化,从而造成不同观点之间群体的对立。

第三个重要的问题是隐私和信息泄露。在 AI 的训练和使用过程中,都需要用到大量的数据,在这个过程中就很难避免搜集和使用人们的个人数据,因此就会涉及隐私的利用和泄露问题。 尤其是生成式 AI 普及之后,人们可以很容易地直接和 AI 交互来完成各项工作,在此过程中输入的个人信息就面临着被泄露的问题。

(4)失陷

所谓“失陷”,指的是 AI 难以应对外部攻击或突发情况的干扰或攻击,从而导致模型难以正常发挥其作用。

在这些干扰中,有一些是源于非人为因素,而另一些则源于人为的破坏。具体来说,这些干扰可以分为如下几种:

第一种是“随机攻击”。这一类干扰主要是由一些外部因素引发的。比如,在一些特殊的情况下,某些即时产生的参数可能超出了模型预先设定的处理阈限,这就可能导致 AI 模型不能正常使用。

第二种是“白盒攻击”。它指的是供给者在知道了 AI 模型的具体结构之后,对模型发起的攻击。由于这类攻击是有的放矢,所以其破坏性是非常高的。

第三种是“黑盒攻击”。这类攻击是相对于“白盒攻击”而言的。在这种情形下,供给者并不知道作为攻击目标的模型的具体结构,因而只能通过与模型的交互,观测输入输出的结果,进而对模型的结构进行推理,并依此发动攻击。以人脸识别为例,AI 是通过脸上的某些关键特征来对人脸进行识别的。 因此,即使攻击者并不知道原模型的具体结构,但只要通过反复测试就可以推算出其重点关注的是哪些特征。在破解了这些信息之后,就可以对应地做出骗过 AI 的“假脸”。

第四类是所谓的盲盒攻击。在这种情形下,供给者并不知道 AI 模型的结构,但却可以明确地知道它判断的规则(类似于我们不知道盲盒中会出现什么,但却知道其中各种可能性出现的概率)。这时,它们就可以利用规则,发起对应的攻击。

如果无法对上述的几类干扰或攻击进行有效的应对,AI 模型在现实当中就是十分脆弱的。

(5)失控

所谓“失控”,指的是人们对于 AI 的控制将变得越来越难。这个问题分为两个方面:

一方面,最近的 AI 发展是都是建筑在深度学习模型的基础之上的,而这类模型的可解释性是非常低的。对于以往的机器学习模型,无论是回归还是分类树,人们都可以很容易地解释明白模型的确切用途,以及模型中每一个参数的涵义。 但是,深度学习模型却是由复杂的神经网络构成的,其中包含着数以亿计的参数和神经元,这些神经元之间的关系错综复杂,人们也难以对其进行解释。

随着 ChatGPT 的出现,一些学者发现借助于 ChatGPT 的能力似乎可以对某些神经网络模型进行解释,这似乎为 AI 的可解释性带来了一线曙光。不过,这又产生了一个问题:ChatGPT 本身就是一个通过深度学习构建的庞大模型,甚至连它的设计者都坦承自己并不确知它的强大能力是如何“涌现”出来的。在这种情况下,用 ChatGPT 去解释其他的深度学习模型就只能算是用未知去解释未知。我们又如何可以知道它的解释是否是正确的呢?

既然在深度学习时代,连 AI 程序的可解释都做不到,那么希望通过直接调整程序来对 AI 进行控制,就是一件更加难以实现的事情了。

另一方面,近年来随着 AI 技术的发展,AI 模型在很多方向上的能力都已经凌驾于人类之上。这在让人感到欣喜的同时,也让人感到忧虑,因为当 AI 的能力超越人类之后,万一其觉醒了自我意志,那么在《终结者》、《黑客帝国》等电影中预言的 AI 奴役人类或毁灭人类的剧情是不是就不再是科幻。

退一步讲,即使 AI 并没有觉醒自我意志,只会按照人类的指令行事,但如果当它的能力凌驾于人类,人类无法随时更改先前下达的指令时,它依然是十分危险的。例如,在不少关于 AI 的哲学书中,都会提到一个思想实验:人类给 AI 下达了生产铅笔的命令。铅笔为了完成这个指令,就会不断砍伐地球上的树木来制作笔杆。由于 AI 在执行能力上已经超越了人类,所以人类在发现了先前指令中存在的问题后也难以阻止 AI 的行为。最终,地球上的树木被砍完了,生态完全崩溃,人类也随之灭亡了。尽管在现实中,这个思想实验所预言的情景几乎不可能上演,但当人类不再能随时控制 AI 的行为时,类似的问题就可能会出现,而这可能带来的损失将是十分巨大的。尤其是,当 AI 被黑客或入侵者植入了某个非法的目标后,如果 AI 的使用者不能及时对其进行纠正,那么后果将可能相当严重。

在以上五类问题中,除了第一个问题“失业”外,其余四个问题都涉及了 AI 的可信性问题。不难看到,如果不能有效地回应“失真”、“失格”、“失陷”和“失控”,人们就很难在使用过程当中信任 AI 这个工具,这无论是对于 AI 的普及、生产的发展,还是社会的进步而言,都是不利的。 也正是因为这个原因,所以实现 AI 的可信化就成了当前 AI 领域最为关注的热点之一。

可信 AI 的历史和标准

可信 AI(Trustworthy AI)的概念最早出现在学术界。例如,在 2015 年的一篇论文中,就提出了 AI 要被用户信任所需要满足的一系列条件,包括有用性、无害性、自主性、公正性和和逻辑性等。然后这个概念被各国政府和国际组织接受,并逐步以此为依据建立了相关的法律、法规和指导文件。在 2017 年之后,随着 AI 技术的突飞猛进,关于可信 AI 的技术的研究也蓬勃发展。在学术领域,以可信 AI 为题的论文数量不断增加,关于满足可信 AI 要求的技术的研究日益深入。在实践领域,越来越多的国家开始按照可信 AI 的标准来涉及关于 AI 的规制规则。仅在最近,美国就发布了《人工智能权利法案蓝图》,提出了规制 AI 的五项原则;英国发布了《支持创新的人工智能监管方法》,对安全性、透明性、公平性、问责制、竞争等问题进行了规定;欧洲议会通过《人工智能法案》提案的谈判授权草案,其中也体现了可信 AI 的基本思路。

在我国,可信 AI 的概念是由何积丰院士 2017 年在香山科学会议的第 36 次学术研讨会上首次引入的。随后,这一概念就引起了政府和产业界的共同重视。2017 年 12 月,工信部印发了《促进新一代人工智能产业发展三年行动计划(2018-2020)》,其中对可信 AI 的基本思想进行了借鉴。然后,包括腾讯、阿里、百度、京东等在内的高科技公司都围绕着可信 AI 提出了自己的标准和实施规划。

在各个机构的文件中,关于可信 AI 的表述略有一些不同。我在对这些文件进行了学习和参考之后,认为如下几个标准可能是最重要的:

一是稳健(robust,又被译为鲁棒),即 AI 系统应该具有抵抗恶意攻击或者外部干扰的能力。这一标准主要是针对上面提到的“失陷”问题而提出的。只有当一个 AI 系统具有充足的稳健性,可以在面临各种攻击或干扰时依然正常工作,履行其主要职能时,它才是安全可靠的,才可能得到用户的信任。

二是透明和可解释(transparent and explainable)。显然,这一标准主要是针对前面的“失控”问题提出的。在实践当中,关于透明和可解释究竟指什么,存在着不小的争议性。一些观点认为,这个标准意味着应该向用户公开所有的 AI 程序代码,以及使用的数据。在我看来,这样做不但没有可能而且没有必要。一方面,现在的很多 AI 都是企业的知识资产,如果强制要求公开代码等核心信息,就意味着严重侵犯知识产权;另一方面,如前所述,在 AI 进入了深度学习时代之后,即使公开了代码,也很难让人完整理解每一个具体参数背后所蕴含的确切含义。 相比之下,我认为比较可行的一个思路是,对 AI 模型中的各个组件都给出清晰的功能说明,让用户知道它们的大致原理究竟如何,到底可以实现哪些功能;对使用的训练数据的来源、样本量、代表性等信息进行标明,并对其可能存在的问题和不足进行说明。这样,既可以让用户做到心中有数,又可以有效保护模型开发者的知识产权,从而在两者之间取得一个比较好的平衡。

三是可验证(verifiable)。这指的是 AI 模型应该保证其功能是可评估的,保证其生成的内容是可以验证真伪的。这一点,主要是针对前面提到的“失真”问题提出的。一些观点认为,应当要求 AI 模型的开发者要保证其模型生成内容的真实性。这一点是很难实现的。事实上,所谓生成式 AI,其生成的内容本来就是原来的世界中没有的,或者说,就是“假”的。但这种“假”,如果没有对人造成困扰,就不会产生任何问题。比如,我们用 Midjourney 生成一张梵高风格的图片来自己欣赏或者打印出来作为家里的装饰,那就完全不会对他人造成影响。只有当人们用这些生成的内容去进行欺骗,或者这些内容被无意地传播、混淆之后,它的“假”才可能成为一个问题。因此,只要可以通过技术的手段,将生成的内容和真实的内容区分开,那么“假”就不再会成为问题。

四是公平性(fair)。这指的是,AI 模型在开发、训练和应用的过程当中,应当保证公平,不应该对特定的用户群体进行歧视。这一标准涉及很多方面的内容,具体来说,它要求模型在开发阶段,其基本的原理不应该是具有歧视性的;在训练阶段,应该尽量避免使用可能产生歧视性的材料,并应该用技术的手段来对可能产生的歧视问题进行纠正;在应用的过程当中,不应该对不同的人群区别对待等。

五是隐私保护(privacy)。这一标准主要要求 AI 模型在训练的过程当中应当尊重人们的个人信息和隐私,并提升对信息的保护程度,尽量做到不侵犯、不泄露个人信息和隐私。

六是可问责(accountable)。也就是说,当它出了什么问题,必须要有人来为这些问题负责。当然,至少到目前为止,AI 还没有觉醒意识。 因为不能被视为是和人类一样的主体,无法承担和人类一样的责任,因此为它来承担责任的就必须是某个人。但这个责任究竟应该由 AI 的开发者,还是 AI 的使用者来承担,或者说是由双方来进行分担,依然是一个值得讨论的问题。

需要指出的是,除了以上的几个标准外,不少文献中还将安全性(safe)、包容性(exclusive)、被遗忘权(righttobeforgotten)、为人类造福等标准列入可信 AI 的范畴。在我看来,这些内容或多或少可以被归并到上面所说的几个标准当中,或者由前面提到的标准阐发出来。因此限于篇幅,这儿就不再赘述了。

用好多方合力实现可信 AI

要实现可信 AI 并不是一件容易的事情,它需要政府、企业、社会以及技术等多方力量的协同才能实现。

首先,政府作为监管者,需要为可信 AI 制定相关的标准和操作指南,并依据标准对 AI 的开发者和使用者进行监督。一方面,它需要根据不同的应用场景、不同的模型类别制定不同的规则,尤其是对一些必须遵守的底线规则做出明确的规定,同时做好和现有法律法规之间的衔接工作。唯有如此,AI 的开发者和使用者在实践当中才能做到有规可依,而不用被不必要的不确定性干扰。另一方面,它需要扮演好监督和执法的角色。对于一些突出的,或者具有共性的问题,应当及时处理,从而为行业树立相应的规范。这里需要指出的是,由于 AI 技术目前的发展依然十分迅速,还没有达到一个稳定状态。这意味着,对于这个过程中出现的问题,政府在处理时应当具有一定的审慎性,要做到“让子弹多飞一会儿”,看清楚了情况再出手,在处理问题时也要注意方式方法。如果盲目下手,管得过快、管得过多,也可能会对 AI 的发展造成负面的影响。

其次,相关的企业应当对可信 AI 的具体实现制定具体的实施方案以及详细的标准。相比于政府,企业是更接近于市场,也更了解技术的。对于 AI 模型的技术特征,以及优势劣势,它们都要比政府了解得更多。因此,如果说政府的责任是给可信 AI 提出了一个大的框架的话,那么企业就应该是这个大框架内的具体实践者。它们应该在这个框架下,结合市场和技术的特点,给出更为具体的方案,并采用自律的方式来对此进行实施。

再次,用户也应该扮演好反馈者和监督者的角色,提出自己的诉求、反映自己的问题,并对企业实施可信 AI 的行为进行监督。随着 AI 的普及,社会上的每一个人都会成为 AI 的使用者和利益相关者,对于 AI 的可信性问题,他们是最有发言权的。只有让他们的声音充分地得到表达,可信 AI 的标准制定以及相关技术的开发才是最有价值的。

最后,应当充分依靠技术的力量。相关的规则固然重要,但归根到底,可信 AI 的实现还是要依靠技术的力量。事实上,很多利用规则难以解决的问题,都可以用技术的手段得到解决。举例来说,在生成式 AI 产生后,“失真”问题就一直让监管部门非常头疼,但事实上,依靠新的技术,这个问题或许并不难破解。例如谷歌之前就推出了一种肉眼不可见,但可以用机器识别的电子水印技术,将它应用在生成的图像或者视频上,就可以有效地保证它们是可以验证的。 至于文字内容的可验证性,则可以仿效新必应(NewBing)搜索。当它引述某个内容时,会在生成的内容后面附上参考的文献,这样用户就可以根据需要对生成内容的真伪自行鉴别。

总而言之,可信 AI 的实现并非易事,但如果我们用好各方的合力,这个目标就一定可以实现。

原文链接:https://tech.ifeng.com/c/8R7HdOyQk1I

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-03发表,共计7418字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。