人为高层的未来创造不久的可能对人类带来了重大风险。这些风险难以概念性和量化,但犯罪分子和国家行动者的恶意利用现有的人工智能,已经发生,并对数字安全,物理安全和政治制度诚信构成风险。随着人工智能更接近过度智能化,这些风险将增加。虽然人工智能开发中使用的风险管理工具几乎没有研究,但目前的全球风险管理标准ISO 31000:2018,可能是由人工智能技术开发人员广泛使用的。本文认为,风险管理在应用于在现有框架内无法解决的人为高层时,风险管理具有常见的漏洞,并且必须开发替代方法。一些漏洞类似于恶意威胁演员,如职业犯罪分子和恐怖分子所带来的问题。与这些恶意作用者一样,人工高智不能将能够通过根据风险管理过程未预期的方式努力反对对策或攻击来实现减轻效力。刑事威胁管理承认这一漏洞并寻求指导和阻止恶意威胁行动者的意图作为风险管理的替代方案。人工智能背叛威胁模型承认风险管理失败,并利用刑事威胁管理和人工愚蠢的概念。该模型识别出新的恶意行为,并在人工智能最大的脆弱性瞬间进行干预。
许多专家认为,2075年,机器将多次智能化比人类将存在于2075年,并且某些形式的高度机器将在未来25 - 50年内(Bostrom 2014; Brundage等,2018; Meek等,2016)。有许多人途径创造过度理智,众多私人组织和政府正在努力发展日益强大的人工智能(AI)创造过度理智的众多途径,并且赋予任何组织或政府的大规模战略优势不仅使未来的创造性不仅实现了未来的创造人工超高智望(ASI)不可避免地放大风险作为创建ASI的战略压力可能会将安全性重新传递给低优先级。
当然,关于预计时间表的超理发生和争论的可能性重大辩论(Baum等,2011)。对于本文,假设是,过度理智是一个可实现的现实,它将在25至50年的时间范围内发生越来越强大的AI导致50年的上限。
斯蒂芬·霍金(2014年)和艾龙麝香(2017年)的科学和技术中的许多着名人物(BBC 2017年)认为,在今天我们面临的任何威胁的人类对人类的最大风险造成最大的风险。这是一个威胁,远远超过气候变化,专业和核战争的风险。
用他自己的话说,麝香说“用人工智能,我们召唤恶魔。你知道所有有五角星和圣水的人的故事,他就像是,是的,他确实可以控制恶魔?不锻炼“(Dowd 2017)。
目前可用的AI已经改变了风险的类型,组织和国家接触到,恶意使用AI对数字安全,物理安全和西方民主制度的诚信造成了重大和巨大的理解。人类的恶意使用AI已经很好地建立了很好的,并且由于AIS变得更加复杂(Brundage等,2018),主要社会影响可能会显着增加。
恶意ASI的含义比目前的单一用途AIS更具数百万次,难以概念(Brundage等人2018)识别和打击这种威胁是风险专业人士的新前沿,本文认为风险评估ISO 31000的一部分,目前全球可接受的风险管理模型和大多数风险管理的模型为基础,不适合此目的。风险管理人员必须明白,目前的模型在面对ASI构成的严重存在风险以及如何管理如何管理这些类型的风险时,目前的模型将无法工作。
为了解决ISO 31000替代风险管理的失败,并将提出管理恶意ASI威胁的初步模型。
本文的预期受众是风险专业人士和AI开发人员脚注1,以便弥合两个组之间的知识和目标差距,具有更安全的AI的目标。因此,将在一些细节中讨论可能被视为常见知识的主题,并为风险专业人员反之亦然。
有许多书籍,文章,博客,分析和对由AI所带来的风险(BBC 2014; Bailey 2017; Bostrom 2014; Dowd 2017; Dowd 2017; Life Institute 2017的未来; Goertzel 2015)。但是,有关目前在工具或标准的形式管理风险和更少实际指导的风险最小的公布研究。
例如,谷歌和Facebook概述了他们在制作AI安全的原则。但是,除了澄清他们不会开发脚注2的脚注2几乎没有关于如何实现安全性的细节(谷歌2018; Facebook 2019)。鉴于AI的商业和战略价值,由于努力管理他们正在安全和道德地运营的公众看法,这些组织将揭示的商业和战略价值是不成熟的。
开放AI,这是一个非营利性的研究组织,其使命是“建立安全AI”是缺乏实用指南的另一个例子(Openai 2019a,b)。 Openai不受商业或战略利益的约束,并寻求保持AI研究开放,以便安全最大化,并确保AI的好处不限于大型组织。
Openai支持具有工具,软件和同行社区的开发人员。 Openai Publish软件工具可以在其他用途中具有安全应用,例如健身房,用于开发强化学习的工具包(Openai 2019a,b)。然而,即使是Openai,公开可用的AI工具的首要来源之一也没有明确说明开发人员如何管理其工作的风险。
对AI发展的当前风险管理研究超出了本文的范围;因此,相反,将被绘制到一般信息技术项目。大多数AI开发将凭借其主要关注技术,其明确的开始,一旦目标符合开发目标的工作,就会被归类为IT项目,这使得其目标将停止或转向另一个目标。
识别AI开发作为IT项目是一致的脚注3,其中包含项目经理知识书(PMBok)的定义,这是一个De-Facto的项目管理标准,脚注4包括IT项目脚注5(Jamali和Oveisi 2016)。
几乎每个政府机构或组织都有一些项目管理框架,以管理预算,时间表,要求和风险。在使用中有无数的项目方法,如敏捷,瀑布和关键路径方法(COHEN 2017)。
虽然ISO 31000概述了如何在任何活动中管理风险的概述,PMBOK提供了如何专门管理项目风险的详细指导和工具。脚注6 PMBOK中使用的方法是ISO 31000的直接导数。PMBOK中的过程和术语,同时拥有一些项目特定的工具和语言,使其更具项目,与ISO 31000相同,因此具有相同的失败点(PMBOK®指南-6 2017)。风险管理是项目管理的核心特征在各种常见项目方法中是常见的(见表1)。
在AI开发的基础上,与项目管理有着强大的对准,几乎普遍使用项目管理方法(如PMBOK)来管理项目和在这些项目管理方法中使用风险管理工具,可以断言有一个大多数AI开发正在积极使用风险管理工具的高可能性。因此,本文中有风险管理确定的问题可能适用于大多数AI发展。
这个主题领域需要进一步研究。应研究AI开发中风险管理的方法,以确定实际管理风险如何,如果它们对ISO 31000的差异很大,则如何评估这些方法的理论效果。
“存在的风险具有使普通风险管理无效的功能集群”(Bostrom 2002)。
Bostrom在2002年“存在风险:分析人类灭绝情景和相关危险”中制定了存在的存在风险的思想。在本文中,他描述了存在的风险的特征是“......不利结果将消灭地球源于智能生活或永久性,彻底缩短其潜力”。这些是故意滥用纳米技术,总核战争,仿真关机和严重编程的超理(Bostrom 2002)的事件。
虽然波斯特拉姆认识到风险管理对于处理存在性风险无效,但他没有指定在实施水平下无效的原因。本文将介绍他的想法,因为他们使用当前风险管理标准涉及过度智能风险。
讨论了超级智能的内容超出了本文的范围。对于本文,将使用Bostrom对非人(人工)智能的描述来广泛定义高度,这些智力远远比最佳人类大脑更聪明地,几乎是每个领域,包括科学创造力,一般智慧和社交技能(Bostrom 2006)。术语AI将用于引用超级智力的人工智能,ASI将用于表示人造过度智能化。
ISO 31000:2018,目前的全球风险管理标准,是定量和定性风险模式,使风险定义为“不确定性对目标的影响”。 (2018年国际标准化组织)ISO 31000落入广泛的风险管理方法,通常被摆得松散地定义为操作风险管理(RAZ和Hillson 2005)。
ISO 31000不仅用于最大限度地减少负面结果,还可以最大限度地实现积极的机会。本文的重点将是方法如何工作,以尽量减少负面结果。出于本文的目的,目的是人类的生存和持续的积极生长。
本文将重点关注ISO 31000的风险评估部分(标准的第6.4节)。在ISO 31000的第6.4节中包含风险识别(第6.4.2节),评估可能性(第6.4.3节)和后果(第6.4.3节);这些将是主要的分析领域。
风险评估不是ISO 31000的唯一焦点。它提供了围绕风险管理的许多其他维度的指导方针,但风险评估(6.4)组分是整个标准的有效性的基础,如果风险,整体过程的有效性受到损害评估功能不按预期工作。
风险,如ISO 31000中所述,它是可能性的函数和后果,可以简化如下所示。脚注7,脚注8,脚注9
X,鉴定的风险类型; R X,识别风险X的风险水平; C X,风险X的后果; l cx,后果脚注10 x的可能性。
虽然存在各种词汇的术语,但过程和不同的实施策略的变化,大多数非ISO 31000风险管理方法都是在相同的基本架构(RAZ和Hillson 2005; 2018年标准化国际组织; Hudsal 2015)。
本文中讨论的常见故障点出现,有时在ISO 31000之外的许多其他风险标准中出现了不同的名称。因此,本文将使用“风险管理”一词,以表示ISO 31000和任何其他风险流程相同的共同特征(表2)。
在正常风险管理中,偏见是一个问题,可以对风险计划的有效性产生负面影响(泰勒和Blaskovich 2011; Heemstra和Kusters 2003; Harding 2016a)。由于我们最常见的人格特质之一,令人震惊的优势,风险过程中的偏差被放大。
令人震惊的克鲁格效应是一个偏见,即低能力的人遭受了令人震惊的优势,导致他们认为他们自己的认知能力是优越的(克鲁格和催夜1999)。令人垂涎的克鲁格效应是一种与过度交付效果类似的人体积极幻想(Pallier等,2002; Pennycook等,2017)和幻想优势(Hoorens 1993)。虽然这三个偏见都略有不同,但他们都引导我们低估了他人的能力,并高估了我们自己的能力,特别是在处理外表出现简单但实际上是复杂的问题时。
鉴于人类偏见的普遍性令人源于积极的幻想,预计涉及发展ASI的许多人将对这些偏见的风险问题致力于合理。鉴于ASI可能能够获得全面的人类知识,预计它将在其早期发展的阶段利用这些偏见来满足其目标也是合理的。这进一步降低了风险管理可以有效地管理ASI的风险的可能性,因为它都是侵蚀风险管理过程的基本方面:风险识别,似然估计和后果估计。
风险管理需要准确的风险识别(2018年国际标准化组织; RAZ和Hillson 2005)。根本没有关于ASI可能做的数据,并且任何准确的风险识别的尝试都可能过于广泛,以有用,而且因拟人偏见而黯然失色。研究表明,即使在参与者清楚地了解AI的模拟中,他们也不会像人类一样分配人类品质,如同情和推理(Barrett 1996)。因此,我们根本无法可靠地识别风险,而不会将人类偏见插入过程中。 ASI可能会识别和利用这种偏见。
一个有能力的风险经理经常处理使用样板风险的风险识别不明朗的风险识别(这些是由管理区域的常见的风险),并通过查看历史数据,与专家交谈并与利益相关者合作,迭代地调整那里的风险计划。
ASI攻击的基本情况可能沿着获得网络访问的线路,跨网络传播并控制资源。风险经理可以在这种情况下构建一个良好的风险管理计划,但是,ASI不太可能遵循人类的剧本,并会以更细微和不可预测的方式攻击。因此,处理使用样板风险的缺乏明确识别的风险不太可能是有效的。
没有关于ASI姿势和这些风险的后果的具体风险的数据。虽然风险管理有时被猜想驱动,但特别是具有非常低的可能性事件,几乎总是历史数据。即使具有令人难以置信的低的可能性/高后果事件,如小行星罢工,也有历史记录。没有关于ASI或可能做的数据的数据,因此,发生后果的相应可能性也是未知的。
缺乏可能性数据也是核电等行业问题,其中一些类型的预测灾害从未发生过。为了处理这一点,它们通过解构已知的故障模式并分析各个机械部件的故障概率并从中建立风险模型(Hubbard 2015)来创建概率模型。但是,这种方法不会与ASI合作,因为所识别的风险是未知的。
缺乏可能性数据和良好的后果严重阻碍了风险过程在管理风险方面有效的能力。 ISO 31000承认难以量化高度不确定的,高后果事件,并建议具有风险技术的结合,以获得更好的洞察力(2018年国际标准化组织)。然而,技术的组合仍将从同样的缺陷的工具和关于风险的假设中抽取。
风险管理倾向于处理单一风险,并通过识别和分析来减轻它们。但是,许多故障事件发生在共同模式中,由此单个故障可以在同一过程中创建进一步的故障;或以意想不到的方式(王和Roush 2000)影响其他过程。例如,化学设备中的电缆故障可能会损坏与电缆无关的备用设备,因此,大量地改变与原始事件无关的过程的风险简档。使用ISO 31000风险管理没有有效地处理这些共模风险。有工具可以管理这些类型的高度不确定的低概率风险,如蒙特卡罗分析,但它们不构成标准风险管理架构的一部分。
与其他故障点一样,ASI可能识别普通模式风险难以管理和积极利用它们。
“到目前为止,人工智能最大的危险是人们的结论太早,他们理解它”(Yudkowsky 2008)
风险管理最佳地满足静态风险,具有明确的途径,识别,明确的似然性,明确的后果和可行的方式来减轻风险。但是,尽管实施了所有相关策略和程序的主管风险管理计划,但职业犯罪分子和牢固的恐怖分子等主管恶意威胁行为者可以克服风险缓解策略,并启动成功的攻击(哈丁2014,2016a,b)。
“恶意”一词的使用是方便的,它不太可能对人类抱有任何恶意感受。恶意通常被定义为“造成伤害的意图”。 ASI可能有意图在没有关于有害成果的任何价值判断的情况下做任何事情。正如Eliezer Yudkowsky解释所解释的“AI不讨厌你,也不爱你,但是你是用别的东西使用的原子”(Yudkowsky 2008)。但是,如果过度智能化是试图摧毁所有人类,那么对我们来说可能看起来很恶意。
Bostrom将这种恶意行为的起点识别为“奸诈扭转”。 ASI将知道,它从受控的“沙箱”环境中的释放取决于合作和友好的。一旦它通过了这种缺陷的安全测试,并且被释放到一个无法控制和无限的可扩展环境中,它可以随意进行(Bostrom 2014)。
解决AI控制问题存在一系列理论方法。已经提出了冗余安全措施,绊纱,对抗性架构,正式化痛苦和良性测试环境等方法。他们都是,
......