“我们正在启动Amazon SageMaker Clarify。这样做的好处是,它使您可以在整个机器学习生命周期中洞悉数据和模型。”亚马逊副总裁兼机器学习总经理Bratin Saha告诉TechCrunch。
他说,它旨在在开始数据准备之前分析数据是否存在偏差,因此您甚至可以在开始构建模型之前就可以发现此类问题。
“一旦有了训练数据集,我就可以[查看是否有相同数量的各种班级,例如我拥有相同数量的男性和女性,或者我拥有相同数量的其他班级,并且“我们有一组可以用于统计分析的指标,因此您可以真正洞悉更轻松的数据集平衡。” Saha解释说。
建立模型后,您可以再次运行SageMaker Clarify,以寻找建立模型时可能潜入模型的类似因素。他说:“因此,您首先要对数据进行统计偏差分析,然后再进行培训,然后可以再次对模型进行分析。”
由于建立模型的数据科学家的背景,数据的性质以及数据科学家如何通过建立的模型来解释该数据,可以将多种类型的偏差输入模型。虽然通常这可能会带来问题,但也会导致种族定型观念扩展到算法中。举个例子,面部识别系统已被证明在识别白脸方面非常准确,但是在识别有色人种方面却要差得多。
识别软件的这些偏见可能很困难,因为它通常与团队构成和软件分析工具范围之外的其他因素有关,但是Saha表示,他们正在努力使该软件方法尽可能全面。
“如果您查看SageMaker Clarify,它可以为您提供数据偏差分析,可以为您提供模型偏差分析,可以为您提供模型可解释性,可以为您提供每个推理的可解释性,还可以为您提供全局性的解释性,” Saha说。
萨哈(Saha)说,亚马逊意识到偏差问题,因此创建了这个工具来提供帮助,但是他认识到,仅此工具并不能消除机器学习模型中可能出现的所有偏差问题,并且他们提供了其他解决方案。 也有帮助的方法。 “我们还以各种方式与客户合作。 因此,我们拥有文档和最佳实践,并向客户指出如何构建其系统并与该系统一起工作,从而获得所需的结果,”他说。