平台自己向外界开放数据宝藏的努力至少可以说是受阻的。早在2018年,Facebook就宣布了社会科学一号(Social Science One)倡议,称它将为一群精选的学者提供价值约1PB的共享数据和元数据的访问权限。但研究人员花了近两年时间才获得任何数据。
“这是我一生中参与过的最令人沮丧的事情,”其中一名相关研究人员今年早些时候告诉“议定书”,此前他花了大约20个月的时间与Facebook就发布的确切内容进行了谈判。
Facebook的政治广告档案API也同样让研究人员感到沮丧。去年,Mozilla指责这家科技巨头清洗透明度时表示:“Facebook让人们不可能全面了解他们平台上运行的所有广告(这与他们声称的做法正好相反)。”
与此同时,Facebook指出,在美国联邦贸易委员会(FTC)采取干预措施,证明在数据访问方面取得艰苦进展是合理的之后,欧洲的数据保护法规和业务附带的隐私要求。但批评人士认为,这只是对透明度和问责的愤世嫉俗的盾牌。当然,这些法规中有一条从一开始就阻止了Facebook窃取人们的数据。
今年1月,欧洲主要数据保护监管机构就数据保护和研究撰写了一份初步意见,警告不要进行这种屏蔽。
EDPS Wojciech Wiewiorówski写道:“数据保护义务不应被挪用,作为强大参与者逃避透明度和责任的手段。”“因此,在道德治理框架内运作的研究人员应该能够获得必要的API和其他数据,并具有有效的法律基础,并遵守相称性原则和适当的保障措施。”
当然,Facebook也不是这里唯一的违规者。谷歌将自己标榜为“隐私捍卫者”,因为它对访问用户数据的控制非常严格,在它声称“透明”的领域对其发布的数据进行了大量调解。然而,多年来,Twitter经常贬低试图了解内容如何在其平台上流动的第三方研究-称其API没有提供对所有平台数据和元数据的完全访问,因此研究不能显示全部情况。这是逃避责任的又一个方便的盾牌。
最近,该公司向研究人员发出了一些鼓舞人心的声音,更新了开发政策,以澄清规则,并提供了与COVID相关的数据集-尽管包含的推文仍是自己选择的。因此,Twitter的调停之手仍然掌握在研究的舵柄上。
AlgorithmWatch的一份新报告试图解决平台通过调解数据访问来逃避问责的棘手问题-提出了一些具体步骤,以提供透明度和支持研究,包括从医疗数据访问是如何中介的方式中获得灵感,以及其他讨论的治理结构。
目标:对平台数据进行“有意义”的研究。(或者正如报告标题所说:在平台治理中实现研究获取的可操作性:从其他行业学到什么?)。
“我们有严格的透明度规定,以便在许多其他部门(食品、交通、消费品、金融等)实现问责和公益。我们的在线平台绝对需要它,尤其是在新冠肺炎时代,我们在工作、教育、社交、新闻和媒体消费方面都更加依赖它们,“合著者Jef Auslos告诉TechCrunch。
这份报告的作者针对正在思考如何塑造有效的平台治理框架的欧盟委员会(European Commission)议员,提出了强制性数据共享框架,由一个独立的欧盟机构充当披露信息的企业和数据接收者之间的中介。
当然,这并不是第一次讨论在线监管机构-但这里建议的实体在目的方面比欧洲正在提议的其他一些互联网监管机构配置得更严格。
“这样的机构将维持相关的接入基础设施,包括虚拟安全操作环境、公共数据库、网站和论坛。它还将在核实和预处理企业数据,以确保其适合披露方面发挥重要作用,“他们在一份报告摘要中写道。
在进一步讨论这一方法时,Auslos认为,要打破当前的“数据访问”信任僵局,摆脱“二元思维”是很重要的。他说:“我们需要一种更加细致入微的、分层的、不同程度的数据访问/透明的方法,而不是这种披露与不透明/模糊的二元思维。”这种分层方法可能取决于请求数据的参与者类型及其目的。
他建议,市场研究的目的可能只会获得非常高水平的数据。而学术机构的医学研究可以获得更细粒度的访问-当然,必须遵守严格的要求(如研究计划、伦理委员会审查批准等)。
他说:“一个独立的中介机构可能对促进这项工作及产生所需的信任至为重要。我们认为至关重要的是,该监管机构的授权必须脱离具体的政策议程,“Auslos说。“它应侧重于成为透明度/披露促进者--为数据交换创造必要的技术和法律环境。然后,媒体/竞争/数据保护/等机构可以利用这一点来采取潜在的执法行动。“。
Auslos说,许多关于为在线平台建立独立监管机构的讨论提出了太多的授权或能力-使得无法达成政治共识。然而,理论上讲,拥有狭窄透明度/披露权限的更精简的实体应该能够穿透嘈杂的反对意见。
剑桥分析公司臭名昭著的例子确实笼罩着“数据研究”领域-也就是这家声名狼藉的数据公司,它付钱给剑桥大学的一名学者,让他使用一款应用程序来收集和处理Facebook的用户数据,用于政治广告定向。Facebook和Facebook对将这起大规模的平台数据滥用丑闻变成一根棍子来击退旨在破解其数据宝库的监管提案并不在意。
但“剑桥分析”是缺乏透明度、问责性和平台监督的直接后果。当然,这也是一个巨大的道德失败-考虑到政治目标的同意并不是从数据被获取的人那里获得的。因此,它似乎不是一个很好的理由来反对对平台数据的访问进行监管。相反地。
随着这种“直截了当的工具”的科技谈话要点被自私自利的平台巨头游说进入治理辩论,AlgorithmWatch的报告就如何为现代数据巨头创建有效的治理结构带来了可喜的细微差别和坚实的建议。
在分层接入点方面,报告建议,按照医疗数据模型的思路,对平台数据的最细粒度访问将是最高度受控的。“粒度访问也只能在封闭的虚拟环境中实现,由一个独立的机构控制--就像目前由Findata[芬兰的医疗数据机构]所做的那样,”Auslos指出。
报告中讨论的另一个治理结构是欧洲污染物排放和转移登记册(E-PRTR),这是一个案例研究,可以从中学习如何激励透明度,从而实现问责。这规范了整个欧盟的污染物排放报告,并使排放数据通过一个专用的网络平台免费向公众提供,并作为一个独立的数据集。
“可信度是通过确保报告的数据真实、透明、可靠和具有可比性来实现的,因为报告是一致的。建议运营商使用现有的最佳报告技术,以达到这些完整性、一致性和可信度的标准。“报告在E-PRTR上说。
“透过这种形式的透明度,E-PRTR的目的是要求欧洲的工业设施经营者向公众、非政府组织、科学家、政治家、政府和监管当局负责。”
尽管欧盟立法者表示有意在平台上设定具有法律约束力的透明度要求-至少在一些争议较小的领域,如非法仇恨言论,以此作为对一些具体内容问题追究责任的一种手段-但他们同时制定了一项全面计划,通过促进(非个人)数据的重用来刺激欧洲的数字经济。
作为雄心勃勃的数字转型议程的一部分,利用工业数据支持研发和创新是欧盟委员会未来5年以上科技驱动的政策重点的一个关键环节。
这表明,任何开放平台数据的地区性举措都可能超越问责-鉴于欧盟立法者正在推动创建一个基础性的数字支持结构的更广泛目标,以通过数据重用来实现研究。因此,如果能够引入尊重隐私的数据共享框架,那么在欧洲的背景下,几乎在默认情况下启用受监管的数据交换的平台治理结构开始变得非常可能。
在阿姆斯特丹大学信息法研究所做博士后研究的Auslos认为:“实现责任是重要的,我们在污染案例研究中解决了这一问题;但实现研究至少同样重要。”“特别是考虑到这些平台构成了现代社会的基础设施,我们需要数据披露来了解社会。”
AlgorithmWatch管理平台项目的项目负责人麦肯齐·纳尔逊(Mackenzie Nelson)在一份声明中补充道:“当我们考虑DSA的透明度措施应该是什么样子时,我们不需要重新发明轮子。”“该报告就委员会如何设计保护用户隐私的框架,同时仍然允许关键研究访问主要平台的数据提出了具体建议。”