Web爬网对民主至关重要

2020-12-04 21:04:03

Web抓取的成果-使用代码从网站中收集数据和信息-遍布我们。

人们制作刮板,可以找到地球上每个Applebee的踪迹,也可以收集国会立法并进行投票,或在粉丝网站上追踪要出售的精美手表。企业使用刮板来管理其在线零售库存并监视竞争对手的价格。许多知名站点使用刮板来完成诸如跟踪机票价格和工作清单之类的工作。 Google本质上是一个庞大的爬行网络爬虫。

抓取工具也是看门狗和新闻记者的工具,这就是为什么The Markup在本周向美国最高法院提起诉讼的情况下提交了法庭之友摘要,扬言将抓取行为定为非法。

案子本身-Van Buren诉United States-并不是关于刮ing的问题,而是关于起诉佐治亚州警察Nathan Van Buren的法律问题,后者被贿赂在执法数据库中查找机密信息。范·布伦(Van Buren)根据《计算机欺诈和滥用法案》(CFAA)受到起诉,该法案禁止未经授权的人访问计算机网络,例如计算机黑客,其中有人闯入系统窃取信息(或在1980年代经典电影《战争游戏》中被戏剧化, (可能会引发第三次世界大战)。

在范布伦案中,由于他被允许访问数据库进行工作,问题是法院是否将他的烦恼活动广泛定义为“超出授权访问权限”以提取数据,根据CFAA,这将构成犯罪。这个定义可能会影响记者。

或者,就像尼尔·戈索奇(Neil Gorsuch)法官在周一的口头辩论中所说的那样,朝着“也许使我们所有人成为联邦罪犯”的方向发展。

调查记者和其他监督者经常使用刮板来阐明大小问题,从通过收集政府大楼的数字访客日志跟踪秘鲁游说者的影响,到在Facebook上监视和收集政治广告。在这两种情况下,抓取的页面和数据都可以在Internet上公开获得-无需进行黑客攻击-但所涉及的网站可以轻松地更改其服务条款上的精美文字,以将这些信息的汇总标记为“未经授权”。根据最高法院的裁决,美国最高法院可以裁定违反这些服务条款是CFAA规定的犯罪。

Markup在我们的简报中写道:“一项法规,如政府或富有的企业参与者等强大力量,通过其网站的服务条款阻止这些努力,将新闻采集活动单方面定为犯罪,将违反《第一修正案》。” 什么样的工作有风险? 以下是通过网络抓取使一些新闻报道成为可能的摘要: 来自大西洋的COVID跟踪项目每天收集和汇总来自全国各地的数据,以此作为监测正在进行检测,大流行在哪里增长以及谁在感染和死亡的种族差异方面进行监测的手段。 病毒。 来自Reveal的这个项目淘汰了极端主义的Facebook团体,并将其会员资格与Facebook上的执法团体的会员资格进行了比较-发现很多重叠之处。