系统足够智能,可以知道何时不够智能(2017)

2020-05-06 21:58:30

我们的答录机有过度自信的问题。谷歌、Alexa和Siri经常当面表示,当他们处于摇摇欲坠的地位或大错特错时,他们会为问题提供明确的答案。

阿德里安·杰弗里斯(Adrianne Jeffries)写道,谷歌的特色片段比假新闻更糟糕,他指出了谷歌努力尽快提供丹尼·沙利文(Danny Sullivan)所说的“一个真正的答案”的不利之处。大约15%的谷歌搜索提供了特色片段,即显示在搜索结果顶部一个大粗体框内的文字摘录。它是您问题的答案。“不幸的是,并非所有这些答案都是真的,”杰弗里斯写道。你知道,就像这个:

这个问题在Echo或Google Home等语音界面中变得更加复杂,这些界面只提供一个答案,给人的印象是这是唯一的答案。

这里有两个问题:不好的信息和不好的表达。关于数据驱动界面的设计者如何在演示部分做得更好,以帮助提醒用户注意不可避免的坏信息,我有一些想法。

首先,让我们先来阐述一下为什么所有这一切都是令人烦恼的。

杰弗里斯和沙利文都提供了谷歌给出的一系列恶臭的答案,作为一个真正的答案:总统是三K党成员,恐龙生活在几千年前,奥巴马是美国之王。然后是这个真正可怕的结果,自从被谷歌删除后,这个问题就是“女人是邪恶的吗?”

周五,谷歌主页给出了可怕的答案“女性是邪恶的”。关于问题的好文章;稍后我会有更多https://t.co/EUtrx4ZFul pic.twitter.com/Ec8mEqx8Am。

--丹尼·沙利文(@dannysullivan)2016年12月4日

这些情况中最糟糕的情况往往会导致算法被玩弄的有争议的地区。在其他情况下,这只是一个彻头彻尾的错误;谷歌找到了一个包含良好信息的页面,但却从中提取了错误的细节,比如它对一个无害的问题的糟糕答案,“焦糖洋葱需要多长时间?”正如汤姆·斯科卡所写:

谷歌,世界上卓越的信息索引,不仅告诉它的用户焦糖洋葱只需要“大约5分钟”-它从一篇文章中提取了这一信息,而这篇文章的整个观点是告诉人们完全相反的。我从“泰晤士报”上发表的一段文字,用来说明它是怎样的谎言,已经被算法提取出来,作为关于这个问题的权威真理。

当亚历克萨问约翰·格鲁伯:“你怎么做马提尼?”时,亚历克萨给了他一个完全相反的回答,背后可能有类似的东西。

“马提尼是一种鸡尾酒,由1份杜松子酒和6份苦艾酒调制而成。”

喜欢马提尼的人都知道,这个食谱是倒退的,会成为一种真正糟糕的饮料-国际调酒师协会(International Bartenders Association)干马提尼的标准食谱要求6份杜松子酒和1份苦艾酒。…。“我不知道,去查一下维基百科”比一个错误的答案要好得多。

首先要说的是,在这些服务每天收到的数十亿个请求中,这些例子是罕见的例外。谷歌(Google)、Siri、Alexa和其他公司都是不可思议的魔术师。事实上,他们可以接受任意的请求,并从互联网的广袤深处提取任何有用的信息,这是令人惊讶的。他们能以如此始终如一的精确度做这件事,这真是奇迹。如果我们的答录机有时出错,我可以原谅他们。

不太容易原谅给出糟糕答案的自信,给人的印象是答案是明确的。这是一个设计问题。随着我们在机器学习和人工智能的支持下建立更多的界面,这将是越来越多的服务将面临的问题。

这也是一个远远超出劣质鸡尾酒和未煮熟的洋葱的后果的问题-特别是在政治宣传领域,一场全面的信息战正在进行。在那里,搜索结果是一个非常有效的战场:2014年印度的一项研究(PDF)发现,搜索排名的顺序和内容可能会使尚未决定的选民的投票偏好改变20%。

自信地传递不好的信息也会激起仇恨,甚至会造成生命损失。在“卫报”上,卡罗尔·卡德瓦拉德描述了她在一条黑暗的隧道里偶然发现谷歌的搜索建议“犹太人是邪恶的吗?”

这是我从未想过要问的问题。我没有去找它。但它就在那里。我按Enter键。此时将显示一页结果。这是谷歌的问题。这就是谷歌的回答:犹太人是邪恶的。因为在我的屏幕上,有证据:整整一页的结果,其中10个中有9个“确认”了这一点。

被判有罪的大规模杀人犯迪伦·鲁夫(Dylann Roof)在谷歌上搜索“白人犯罪中的黑人”时,也遇到了类似的游戏结果,在结果的顶部发现了一页又一页的白人至上主义宣传。他后来明确指出,那一刻是使他变得激进的引爆点,最终导致他在查尔斯顿教堂大屠杀中杀害了9人。“从那天起,我就再也不是原来的我了,”他在谈到那个搜索结果时写道。

我们中的许多人不加批判地将答录机对我们问题的回答视为事实。答案的提出应承担部分责任,暗示了一种可能没有根据的自信和权威。机器的自负从它们的“一个真实答案”的回答中窥探出来。

我们如何才能给这些界面添加一些高效的谦虚呢?我们怎样才能制造出足够智能的系统,让它们知道什么时候不够智能呢?

我现在还不确定我有没有答案,但我相信我有一些有用的问题。在我的工作中,当我为机器人和推荐系统制作和评估界面时,我一直在问自己这些问题。

答录机正在进行军备竞赛,以提供最快、最方便的答案。过去,Google会提供一个页面列表,其中最有可能包含您正在查找的信息。想知道纽约市的天气吗?以下是将告诉您的页面的链接。然后谷歌自己开始回答这个问题:不需要点击另一个页面,我们会在老式搜索结果上方显示预测。如今,谷歌甚至懒得等你搜索。对于某些搜索,Chrome会在搜索栏中直接向您显示答案:

我常说设计师的工作就是缩短意图和行动之间的时间。当用户知道他们想要什么时,我们如何才能尽可能地交付所需的操作呢?在这里,您甚至在制定意图(问题)之前就已经得到了动作(答案)。这台机器预计到你的到来,只需按几下键就能有效地按下“我感觉很幸运”按钮。

速度是竞争优势,而时间在大多数界面中被视为敌人。这反映在我们行业对下载和渲染速度的迷恋上,尽管这些指标仅仅是基本用户需求的分支,但请帮助我快速完成这项工作。“性能不是页面的速度,”格里·麦戈文(Gerry McGoven)说。“这就是答案的速度。”

但这必须是正确的答案。虽然这种方法适用于天气、日期或地址等简单的事实,但在更雄心勃勃的话题中,它开始变得毛骨悚然-特别是当这些话题具有争议性的时候。

对速度的合理渴望必须通过对事实和准确性的更高层次的担忧来缓和。每个数据驱动的服务都有一个阈值,在这个阈值中,对数据的信心让位于出错的破坏性风险。这是该服务不能再提供“一个真实答案”的门槛。设计师必须对引爆点在哪里保持警惕和诚实。

我认为谷歌和其他答录机还需要调整他们的临界点设置。他们以牺牲准确性为代价启动快速拨号,所以我们经常看到错误或有争议的答案的自信表达。

尽管如此,您仍然可以看到在服务中编程了一个临界点。对于谷歌来说,这一临界点在视觉上是由特色片段的存在或缺失来表示的,这是页面顶部用蝴蝶结包裹的答案。当没有高度可信的答案时-大约85%的时间-谷歌会退回到一个简单的、老式的搜索结果列表。约翰·格鲁伯(John Gruber)的前提是,“我不知道”总比一个错误的答案好。

不过,事情非得是非此即彼吗?与其在“我知道答案”和“我不知道答案”之间做出选择,或许这些服务的设计应该更善于说,“我想我知道。”这就引出了我们在设计这些服务时要问的下一个问题。

这些天我最喜欢的推特账号之一是@picdesbot,这是一个通过微软的计算机视觉服务运行随机照片来描述随机照片的机器人。它通常是在正确的范围内,但有一些误读是迷人的天真的:

在所有这些情况下,描述都是以相同的事实置信度呈现的。机器人要么是对的,要么是错的。可以肯定的是,@picdesbot是一个玩具,它的魅力很大一部分在于它过于自信的声明。但是,如果我们想让它更加细致入微--例如,帮助视力残疾的人理解图片上的内容,那该怎么办呢?

在幕后,算法报告了一种更微妙的理解。在这里,系统报告说它97%的信心是在看一只恐龙,但只有26%的信心它是在冲浪板上。

承认模糊性和不确定性必须是设计可信系统显示的重要部分。散文修饰语在这方面可以有所帮助。与“冲浪板上的恐龙”不同,更准确地反映算法信心的应该是“一只恐龙(也许在冲浪板上?)”。

其他信号也可能发挥作用。我们可以添加一个标题,说明结果的总体置信度,并辅之以可视指示器:

一组类似的快速提示可能会在谷歌的特色代码片段中被证明是有用的。然而,对于更复杂的主题,我们可能想知道的不仅仅是结果有多“真实”。我们可能希望看到几个维度上的可信度:代码片段的事实具有决定性、相关性和争议性的程度。(还有来源的可靠性;我稍后会谈到这一点。)。我在这里只是随便说说,我不确定这些术语是否正确,但从概念上讲,我认为是这样的:

相关性和绝对准确性是我们已经熟悉的指标。争议的概念更令人毛骨悚然。它巧妙地适用于事实正在浮现但仍有争议的地方。但对于那些被玩弄搜索结果的玩世不恭的尝试所包围的主题来说,挑战要大得多。

在我努力解决这个问题的过程中,我发现“争议”这个词对这些案例来说还不够强烈。说女人或犹太人是邪恶的并不是“争辩”,而是充满敌意的仇恨言论。说巴拉克·奥巴马不是美国公民是愤世嫉俗的谎言。在某些情况下,数据被毒化了,整个主题已经变成了一个敌意区域,对算法来说太具挑战性,无法做出可靠的判断。

我们生活在一个热点话题的时代,真相争论不休,两个善意的人可以相信完全相反的一套“事实”。更糟糕的是,我们还有一些恶意的破坏者散布错误的信息,在不应该存在的地方制造仇恨或争议。在诸如“女人是邪恶的吗?”等问题上有着糟糕的记录。和“犹太人是邪恶的吗?”,谷歌已经证明,当坏人破坏信息供应时,算法不能胜任整理可靠事实的任务。

当你有恶意信息病毒在系统中传播时,我们的答录机应该做更多的事情来发出信号,表明他们的免疫系统已经受到了损害。他们至少应该承认,有些答案是有争议的,系统可能没有判断真相的能力。

算法失败的那一刻正是用人类判断力来补充它的绝佳时机。维基百科的众包编辑模式通常在监控和标记有争议的话题和文章方面做得很好。该系统也非常公开其潜在的问题。你可以查看维基百科上所有6000多个有争议的页面;这些文章可能不符合百科全书的中立观点政策。

也许我们的系统拥有检测争议信号的数据,或者我们需要依靠人类的专业知识来做到这一点。无论哪种方式,无论是由人还是由机器人标记,显然都有一些主题需要挥舞手臂来提醒读者以怀疑的眼光和批判性的思维继续进行下去。当数据有错误、有争议、不完整或受到宣传活动的影响时,这一点尤其正确。所有这些案例都形成了敌对的信息区。

在我们的工具无法理解被围困的主题的情况下,我们的工具必须让我们知道我们不能依赖它们。答案机器至少应该提供上下文-即使只是一个标志,告诉人们要谨慎行事-以及原始的原始材料,以便人类应用一些更聪明的解释。如果敌意信息区的搜索结果是这样的话,情况会发生什么变化:

警告:此主题被大量宣传网站占据,这些网站可能会包含在这些结果中。以批判性的眼光阅读,并用可靠的参考资料(包括[一组可信资源])检查您的事实。

在这样的主题中,我们需要更明确的帮助来评估答案背后的来源和逻辑。

谷歌只给出了其特色片段的最浅显的背景。当然,这些代码片段总是有来源的;它们直接链接到提取答案的页面。但目前还不清楚那个来源是什么。它是维基百科风格的参考网站吗?主流新闻网站?一个党派宣传网站?或者可能是两者的混合体?除非您访问该页面并自己确定消息来源的身份和可信度,否则没有任何指示。

但没有人关注这些链接。当我们为公司设计了几个垂直网站时,About.com首席执行官尼尔·沃格尔(Neil Vogel)告诉我:“你永远不会想要出现在谷歌的那个盒子结果里。”“没有人点击那些排名靠前的搜索结果。当他们看到答案时,他们的搜索就会停止。“。About.com发现,当搜索词的内容显示为特色答案时,搜索词的流量会急剧下降。

人们不会点击源链接,这是故意的。Google显然是想帮您省去访问源站点的麻烦。特色代码段的整个想法是从它的上下文中挖掘出假定的答案。既然你可以直接给出答案,为什么还要做中间人呢?

代价是人们错过了代码片段周围的框架内容。如果没有这一点,他们甚至不能对消息来源的个性和可信度有一个直观的感觉。只需点击一下,但一如既往:眼不见心不烦。而且,演讲的信心并没有促使人们进行太多的事实核查。

对来源的快速描述可能会有所帮助。人类记者善于简短地指出他们的消息来源,暗示他们的议程和专业知识:“加州的自由派智囊团”,“制药业的游说组织”,“一位研究这种疾病20年的科学家”,“一位忧心忡忡的父母”。数据源的推论是什么?我们如何用简短的描述或数据来“说明”来源,以暗示来源独特的知识味道呢?

或者如果我们试着给线人评级呢?机器衡量和反映信任的一种方式是聚合大量不同的信号。作为用户,我们倾向于信任在300条Yelp评论中获得四星的餐厅,而不是只有一条评论获得五星的餐厅。谷歌本身就是建立在这种评论的复杂版本之上的:它最初的突破性创新是PageRank,通过一个页面收到的入站链接数量来衡量权威。

当然,评论和PageRank都是可以玩弄的。要做到这一点,一种对冲方法是确定一组值得信赖的评论家。Metacritic将专业影评人的电影评分汇总在一起,给出了一个既定的视角。我们如何应用类似的方法来跟踪数据源的可信性并对其进行评级?

也许同样重要的是:我们如何才能洞察为什么这是答案或最佳结果?卡罗尔·卡德沃尔(Carole Cadwalldr)在她的卫报文章中写道:“谷歌和Facebook都没有公开他们的算法。”“为什么我的谷歌搜索返回的搜索结果中,10个中有9个声称犹太人是邪恶的?我们不知道,也没有办法知道。“。

但事情不一定非得是那样的。即使是非常复杂的数据服务也可以提供提示,说明为什么我们的提要中会出现数据。我们在Netflix(“因为你看了”Stranger Things“”、“电视剧有很强的女性主演”)或亚马逊(“再买一次”、“受你的浏览历史启发”、“买了那个小玩意儿的人也买了这些小玩意儿”)等推荐服务中看到了这一点。即使是粗略的见解也有助于理解我们为什么看到某些结果的逻辑。

当我们与Alexa或Google Home或其他语音服务交谈时,“一个真实答案”的问题变得尤为尖锐。语音是一种超低分辨率的界面。在更高分辨率的界面(如纸张或网页)上,您无法在对话中包含尽可能多的数据。您最终可以传递该数据;只是与其他模式相比需要更多的时间。

在时间宝贵的情况下,Alexa和Google Home在搜索结果排名靠前的情况下宣布退出。谷歌的屏幕特色代码片段实际上就是谷歌主页的全部答案。

“谷歌传统的搜索结果列表不能很好地转化为语音,”丹尼·沙利文(Danny Sullivan)写道,“想象一下,当你只想知道一个橙子里有多少卡路里时,谷歌主页会给你读一份包含10个网站的列表。”

当然,卡路里问题是我们的答题机擅长的明确的快速信息数据。但是如果没有快速的答案怎么办呢?

在“牛津英语词典”中,“set”一词有近500个释义。向Alexa询问定义,回答耗时超过60秒:“set有很多不同的含义,”Alexa说,然后列出了15个定义-形容词、动词和名词各5个。答案马上就太详细了(密集的回答很难理解),但又不够详细(仅占该词定义的3%左右)。

不过,真正好的是,Alexa一开始就说,答案不止一个:“set有很多不同的含义。”这是一个直接的免责声明,即答案是复杂的。但是如何更好地传达这种复杂性呢?

人类使用语音来协商彼此庞大而复杂的数据存储的方式是通过对话和对话。我问你一个问题,你给我一些信息。我问另一个问题,让谈话走上一条特定的道路,你给我提供了更详细的信息。诸若此类。随着这些语音接口的成熟,像这样的对话肯定会是一条前进的道路:

Alexa:“set”有464个定义。你想听名词、动词还是形容词?

作为一个名词,“set”的意思是:[三个定义]。你想要更多的意思吗?

然而,目前我们的语音界面更多的是呼叫和响应,而不是对话。问亚历克萨一个问题,给出答案,然后立即忘记你问的问题。没有后续行动;每个问题都从头开始。谷歌助手开始实现这一点,它保存了对话的“状态”,这样你就可以提出后续问题了。随着我们从语音界面过渡到真正的对话界面,其他系统也将紧随其后。对话肯定是探索第一反应以外的信息的关键方式。

同时,Alexa风格的警告,即有不止一个含义,至少可以很好地帮助我们标记有争议或模棱两可的内容。“这一话题颇具争议性,而且存在竞争。

..