他说:“所检获的大量资料,使我们看到不同州和地区的数码”干草堆“,这延长了检讨和评估资料以协助我们了解所发生的事情的工作。”然而,通过拼凑事件的时间线,我们能够对可能发生的事情有一个彻底的证据洞察力,“它写道,然后继续勾勒出对剑桥分析/SCL当时是如何运作的理解,当时它付钱给剑桥大学学者亚历山大·科根博士,以不正当的方式获取和处理数百万Facebook用户的数据,目的是通过广告瞄准美国选民。在此之前,它写道:”剑桥分析/SCL付钱给剑桥大学(Cambridge University)学者亚历克桑德·科根博士(Dr Aleksandr Kogan),意图通过广告瞄准美国选民,当时它是如何运作的。
ICO写道:“这项工作的结论表明,SCL正在聚合来自几个商业来源的数据集,以便出于政治联盟的目的对个人数据进行预测。”例如,我们恢复了数据,其中包括选民文件(美国版的选民登记册)、消费者数据集、社交媒体和情报数据集,这些数据似乎来自以下公司:Labels&;List、InfoGroup、Aristotle、Magellan、Acxiom和Experian。一些数据具有类似美国选民数据的外观,这些数据曾受到已知网络入侵的影响,并已在网上获得。“。
剑桥分析公司(Cambridge Analytica)前首席执行官亚历山大·尼克斯(Alexander Nix)上个月在与英国破产服务机构签署取消资格承诺书后,被禁止在7年内经营一家公司。他此前告诉英国议会,CA/SCL已经从Acxiom、Experian和Infogroup等主要商业数据经纪人那里获得了用于建立选民心理档案的大部分数据。
根据ICO的评估,CA/SCL一直在过度夸大其人员概况的深度-该监管机构表示,它在营销材料中没有找到证据支持其“在2.3亿成年美国人上拥有每人5000多个数据点”的说法。
它写道:“根据我们的发现,这似乎是夸大了。”
ICO感到满意的是,Kogan博士的公司转移到CA/SCL的Facebook数据被并入了它已经拥有的一个预先存在的更大的数据库-包含“美国个人的选民文件、人口统计和消费者数据”。
报告写道:“GSR(科根博士的公司)收集的有关[Facebook app]调查用户及其Facebook‘朋友’的数据点,是特别选择的,以实现与先前存在的SCL数据库的‘匹配’过程。”该报告解释了它对CA/SCL如何使用不正当获得的Facebook数据的理解。“匹配是通过文件共享平台和参考姓名、出生日期和地点进行的--SCL现有的数据文件被‘丰富’,并由GSR关于这些人的数据补充--这些匹配的信息被传回SCL系统。
例如,这导致了一些信息,包括投票频率的得分,无论是共和党人还是民主党人,投票一致性,以及预测人格特征的个人资料,这些信息与选民ID、姓名、地址、年龄和其他商业数据等信息相匹配。
调查还证实,CA/SCL将人工智能技术应用于数据,试图预测选民的党派或其他重要属性,以便更有效地向他们发送政治信息。尽管该公司表示,无法确认这种技术是否用于具体的竞选活动。
“通过这样的过程,相关的美国选民GSR数据(大约。然后,使用机器学习算法对3000万人)进行进一步分析,以创建与党派偏见和其他标准相关的额外“预测”分数,然后将这些分数应用于数据库中的所有个人。其中一些关注的范围很广,比如“同性恋权利”、“奥巴马是美国历史上最糟糕的总统”、“2012年连任奥巴马总统”、“圣经”和“全国步枪协会”,“它写道。
“这些分数被用来识别可能成为与政治竞选相关的广告的潜在目标群体。这种有针对性的广告最终可能是数据收集的最终目的,但当时是否或哪些来自GSR的特定数据被用于活动的任何特定部分,还无法从审查的数字证据中确定。然而,恢复的证据表明,共和党全国委员会(RNC)的数据也使用了基于预测的人格特征和其他衡量标准的类似方法和模型。
关于CA/SCL的数据建模方法,ICO得出的结论是,该公司主要使用“公认的流程,使用普遍可用的技术”。
“例如,开放源码的数据科学库,如‘SCRICKIT’,是由SCL下载的,其中包含了用于数据可视化、分析和预测建模的成熟的、广泛使用的算法。ICO观察到,正是这些第三方库构成了SCL的大部分数据科学活动。“它写道。使用这些库,SCL测试了多种不同的机器学习模型架构、激活函数和优化器(所有这些都是在第三方库中预先开发的),以确定哪些组合在任何给定的数据集上产生了最准确的预测。我们理解,这一程序在更广泛的数据科学界中已经很好地确立了,在我们看来,SCL的工作中没有任何专有技术或程序。“。
监管机构进一步指出,对于这种预测个人属性的建模的有效性,目前仍存在疑问,这突显出内部对该方法持怀疑态度的迹象。
“通过ICO对公司内部通信的分析,调查发现,SCL内部对正在进行的处理的准确性或可靠性存在一定程度的怀疑。当与其处理的现实相比较时,内部似乎对外部消息感到担忧,“它指出。
ICO的调查也没有发现证据表明,科根出售给剑桥分析公司的Facebook数据被用于与英国退欧公投相关的政治竞选活动。报告写道:“我们对证据审查的看法是,来自GSR的数据不可能用于英国退欧公投,因为科根博士与SCL/剑桥分析公司分享的数据与美国注册选民有关。”
缺乏证据表明英国Facebook用户的数据曾被用于政治目标,这是Facebook在挑战ICO因剑桥分析(Cambridge Analytica)丑闻被处以50万GB罚款时的论点。
监管机构最终于去年与Facebook达成和解-尽管该公司不承认责任。
ICO的信中还讨论了总部位于加拿大的数据公司AIQ,该公司与CA/SCL有关联,确实在英国的退欧公投中发挥了关键作用-因为几个“脱欧”阵营利用AIQ通过Facebook向英国选民投放广告。
“有一系列证据显示AIQ和SCL之间的关系非常密切(例如,有证据表明AIQ是SCL在加拿大的分支机构,以及有证据表明Facebook向AIQ开具的广告发票是SCL直接支付的)。”然而,AIQ一直否认有比软件开发人员和他们的客户之间更密切的关系。西尔维斯特(AIQ的董事兼所有者)曾表示,2014年,SCL‘要求我们创建SCL加拿大,但我们拒绝了’,ICO写道。
该监管机构表示,它调查了AIQ是否使用相同的数据集,代表三种不同的“脱欧”运动(Vote Leave、BeLeave、DUP和Veterans for British)向英国选民投放广告-但没有发现这种情况的证据。
“Facebook提供的初步信息显示,Vote Leave和BeLeave都利用了三个受众。然而,AIQ随后澄清,这是一名初级员工在创建BeLeave账户时犯下的管理错误。第二天,这个错误被更正了,这些活动中的任何信息都没有通过Facebook以定向广告的形式传播。“它写道。
尽管ICO写给议会的信,而不是更正式的最终报告,似乎在某种程度上是一场旷日持久的数据滥用丑闻的高潮,但ICO重申了人们对这封信所说的“我们民主制度中的系统性漏洞”的担忧。
尽管信息专员伊丽莎白·德纳姆(Elizabeth Denham)没有进一步充实她早先公开表示的担忧,即民主正在被大数据扰乱。
相反,这封信指出,ICO为英国公投中留欧和脱欧方面的几个未具名组织提供了“建议和指导”,目的是在未来更好地遵守规则。
“我的审核组亦已完成对十四个与最初调查有关的机构遵守资料保护规定的审计,这些机构包括:主要政党、主要信贷资料库和主要数据经纪商,以及剑桥大学的心理测量学中心。”我们已经提出了重要的建议,要求做出改变,以符合数据保护立法,“她补充说。
这些“重要”建议的细节正在等待ICO对主要政党、主要信用参考机构和主要数据经纪人以及剑桥大学心理测量学中心(ICO指出,该中心将“很快”发布)的审计报告。
ICO对CA/SCL的调查还有一个有趣的细节,那就是该公司似乎一直计划将数据转移到海外,以避开监管机构的审查--想必是因为媒体对Facebook数据丑闻的愤怒将其流程投向了聚光灯下。
“我们亦确认有证据显示,在后期阶段,渣打银行/核证机关正草拟计划,将其资料迁往海外,以避开ICO的监管审查。”我们与海外同行跟进了他们复杂的公司结构,得出的结论是,虽然制定了计划,但公司无法在停止交易之前实施这些计划。“这是监管机构对此的结论。
ICO表示,在Facebook的数据集本身,他们的调查发现了“各种位置的数据,几乎没有考虑到有效的安全措施”。它指出:“我们发现,与调查有关的个人持有各种Gmail账户的数据。”“在服务器中也发现了数据,似乎已经与一系列各方共享,例如,有证据表明,数据曾与SCL/CA、Eunoia Technologies Inc[CA泄密者克里斯·怀利(Chris Wylie)的公司]、剑桥大学和多伦多大学的员工共享。”
信中还透露,多名与丑闻有关的未具名“资深人士”继续拒绝配合ICO的调查。它指出:“几位资深人士继续保持沉默,并拒绝接受采访。”