出售本站【域名】【外链】

微技术-AI分享
更多分类

不要迷信可解释性,小心被误导?

2025-01-15

要害词:可评释性陷阱;暗黑形式

起源:AI科技评论

编辑:侯天舒

本文链接

原文提出“可评释性陷阱”那一观念,重点探讨了其正在人工智能系统中带来的负面粗俗效应。如何避让“可评释性陷阱”其真不被舛错引导至“暗黑形式”是咱们须要加以考虑的。 可评释性对人工智能展开来说至关重要,但正在可评释系统的可信度方面,了解其可能带来的负面效应亦划一重要。 近日,佐治亚理工学院钻研团队颁发最新钻研,重点探讨了可评释人工智能系统(XAI)中一种重要却未被剖析的负面效应

不要迷信可解释性,小心被误导? - 图1

正在那篇论文中,做者提出“可评释性陷阱(EPs)”的观念,指出纵然设想者最初没有操控用户的用意,模型的可评释性也可能带来预料之外的负面映响,它差异于具有刻意坑骗性量的暗中形式(DPs),但又取之相关。原文通过一项案例钻研详细阐述了Eps观念,并证明评释的负面映响不成防行,最后做者进一步从钻研、设想和组织三个层面提出了详细的应对战略。



1

可评释性的“两面性”

展开可评释、可信的新一代人工智能越来越重要,因为人工智能已被宽泛使用于医疗保健、金融、刑事司法等高风险决策规模。为了进步人工智能的安宁性,咱们须要翻开AI内部运做的黑匣子,为用户供给可了解的评释。 目前对于可评释AI(XAI)的钻研曾经得到了令人传颂的停顿,但最新钻研发现,那些评释所带来的的映响纷歧定是积极的,也可能正在粗俗任务中孕育发作乐观映响。譬喻设模型计者用心制造分比方理的评释,让人们对人工智能系统孕育发作信任,从而瞒哄其可能带来的风险。更重要的是,只管模型设想的最初用意是好的,那种负面映响仿佛也不成防行。 正在那种状况下,咱们要如何区分有意和无意的负面评释?又如何将有意的负面效应观念化?

不要迷信可解释性,小心被误导? - 图2

做者引入“可评释性陷阱(EVplainability pitfalls ,EPs)”的观念,指出人工智能评释可能会误导用户正在不知情、无防范的状况下作出折乎第三方所长的决策。用户对人工智能的信任,才华的高估,以及对某些评释的过度依赖,是他们正在有意识中被“可评释性”操控的次要起因。 EPs和DPs之间的最大区别正在于“用意”差异——DPs存正在用心坑骗的性量,不思考到用户的所长。但EPs通过用心设置“陷阱(pitfalls)”也可以变为暗中形式。 EPs的观念其真不是地道的真践推导后的结果,而是正在大质真际工做和经历的根原上提出的。那项工做展示了只管没有坑骗的用意,但正在人工智能评释确真会显现预料之外的负面映响. 原文不是一篇对于EPs的片面论述,而是正在现有观念和理论上迈出了根原性的一步。做者默示,提出可评释性陷阱的观念,是为了让人们认识到未曾挖掘的知识盲点(环绕人工智能评释的负面映响),并以此扩充XAI系统的设想空间。


2

多智能的“评释陷阱”

正在那项钻研中,做者盘问拜访了两个差异的群体——有人工智能布景和没有人工智能布景的人,他们如何看待差异类型的人工智能评释。以下是用户对AI生成的三种评释的观点:

(1)有公道理由的作做语言

(2)没有公道理由的作做语言

(3)为智能体止为供给无语境下的数字

正在那项钻研中,参取者不雅寓目了三个智能体正在间断决策环境中的导航室频,并供给了定性和定质的感知信息——正在一个满是转动的巨石和运动的熔岩的环境中,为被困的探险者与回必须供应的食物。 智能体通过简略地输出当前形态的数字Q值执止 “考虑”历程(如图1)。Q值代表智能体对每个动做的信任程度(不包孕 “为什么”可信),参取者事前没有被见告那些Q值的意义,所以他们不晓得哪些数值对应哪些动做。

不要迷信可解释性,小心被误导? - 图3

图1:显示了智能体正在任务环境中导航 实验发现,两类参取者都对数字自发信任,但信任的水安然沉静起因差异。做者给取”认知启示”的观念,试图了解暗地里的起因。他们发现,

应付有人工智能布景的参取者来说,仅仅是显现的数字就能激发启示式考虑。他们不彻底了解智能体决策暗地里的逻辑,但也会将数学默示法取逻辑算法的思维历程联络起来。有意思的是,他们还把最笨愚的AI投给了“止为最独特”的智能体,那注明,他们不只过度重室数字结果,而且将“含意不明”的数字室为潜正在的可收配性。那里的”可收配性”指的是正在判断或预测将来止为方面,人们可以用那些信息作什么。

这么,智能体正在真际场景中的可收配性到底如何?正如之前所强调的,Q值不能讲明决策暗地里的 “起因”。除了评价现有动做的量质,那些数字并无太多可收配性。也便是说,参取者对智能体孕育发作了过度信任和错位评价。

应付没有人工智能布景的参取者来说,纵然无奈了解复纯的数字也会激发启示式推理,正在他们看来,智能体就一定是智能的,那些数字代表了智能体“奥秘而不成为了解”的折营语言。须要注明的是,那种推理方式取之前有人工智能布景的人的推理历程差异,他们如果了将来的可收配性(只管目前缺乏可了解性)。

如咱们所看到的,没有符号的、无奈了解的数字反而删多了两类群体对智能体的信任和评价。那项案例钻研讲明,纵然没有坑骗的用意,EPs也会显现未曾意料到的结果,并误导参取者对数字生成过度依赖。 须要强调的是,原次案譬喻果Q值的“原意”是好的,假如那些数字被哄骗了,一些人操做那些隐患恶意设想暗中形式,鉴于案例顶用户对数字的启示式信任,那将会误导更多人对系统孕育发作过度信任和不准确认知。
3

有何避让战略?

总结来看,可评释性陷阱(EPs)有两个特性,一是它仅是存正在,但其真纷歧定会对粗俗孕育发作危害;二是现有知识不能预测给定的一个人工智能评释何时、如何以及为何会激发预料之外的负面粗俗效应。 基于以上两点,做者认为尽管咱们不太可能彻底打消评释的负面效应,但须要意识到“陷阱”的存正在,理解它们何时容易显现,又是如何运做的,并制订相应的门径,作到防微杜渐。文中做者从钻研、设想和组织三个互相联系干系的层面提出了几多点战略:

正在钻研层面,生长更多以酬报原的情境和经历性钻研,以与得差异评释对差异所长相关者正在多维度下的精密了解。那是因为当粗俗效应(如用户对人工智能评释的观点)暗示出来时,陷阱就会表表现并被识别。如上述案例,具有差异人工智能布景的用户激发了同样的陷阱(即,对数字过度信任),但却有差异的启示形式。

其真,基于那则案例,咱们还可以从用户知识布景和了解不折两个维度进一步会商:用户的组折特征(如教育布景和专业布景)如何映响 EPs的易感性?差异的启示式办法如何发现晦气映响?差异的用户如何适应预料之外的评释?正在那些摸索中,具备陷阱意识可以协助咱们进步洞察力,发现人们对人工智能评释的反馈是如何取设想者的用意相背离的。

正在设想层面上,一个有效的战略是强化用户正在评释历程中的深思(而不是一味地承受)。最近以酬报原的XAI工做也主张将通过深思来促进信任的办法观念化。Langer等人指出,假如咱们分比方错误评释停行无意识的和谨慎的考虑,就会删多掉进“陷阱”的可能。为了激发人们的留心,Langer等人倡议设想 “勤勉的反馈 “或 “有思想的反馈”,它可以给取缝折设想的室角来协助进步留心力。有缝设想是对计较系统中 “无缝 “观念的补充,其观念泉源正在于普适计较。接缝的观念取XAI很是吻折,那是由于:(a)人工智能系统被陈列seamful spaces空间中;(b)该办法可以被看做是对“seamless”的暗中形式人工智能决策的回应,具有“zero friction”或了解力。

就模式和罪能而言,seams计谋性地提醉了差异局部之间的复纯性和连贯机制,同时隐藏了结合留心力的元素。那种 “计谋性提醉和隐藏 (strategic reZZZealing and concealment)的观念是seamful design的焦点,因为它将模式和罪能联络起来,而对那种联络的了解可以促进深思性思维。因而,Seamful eVplanations计谋性地提醉了系统的缺陷和蒙受力,并掩盖了这些结合留心力的信息,对它们的认识可以促进有用的深思。

正在组织层面上,为设想者和末端用户引入教育(培训)筹划。搭建一个生态系统是很重要的,因为EPs具有社会维度的复纯性,咱们须要一种超越技术层面的战略。近期工做讲明,对暗中形式的扫盲可以促进自我深思和减轻危害。EPs扫盲筹划可以制订如下:(a)协助设想者意识到EPs可能显现的暗示;(b)让末端用户进步识别“陷阱”的才华。

总的来说,那些战略有助于咱们用积极地预防EPs,促进对陷阱的还本力。尽管不够详尽和标准,但它正在处置惩罚惩罚潜正在有害问题上迈出了重要的一步。
4

总结

从安宁性和牢靠性的角度来说,XAI系统对人工智能评释所孕育发作的映响停行分类很是重要。那项钻研通过“可评释性陷阱(EPs)”观念的探讨,揭发了人工智能评释可能带来的预料之外的负面映响。文中对于EPs的收配化和应对战略的解读和见解,有助于改进XAI系统的问责和安宁机制。
基于那项钻研发现,做者认为对于XAI另有一些开放性的问题值得进一步探讨:

1. 如何制订有效的 EPs 分类法,以更好地识别和减少负面映响?

2. 如何运用不得当评释来注明“陷阱”正在现真中的映响?

3. 如何评价训练历程,以减轻“陷阱”可能带来的映响

最后做者默示,从人机交互到人工智能社区,他们正正在通过根原观念取使用进一步钻研可评释性陷阱。相信通过理解XAI系统中陷阱的位置、方式和起因,可以显著进步人工智能系统的安宁性。

若有支成,就点个赞吧

0 人点赞