“公共”是一个在过去十年中有一句话,将紧紧纳入数据。松散定义,公共领域中可用的任何数据都属于此类别,但该术语最常用于描述可能为某种公民目的提供的数据:人口普查数据或环境数据或健康数据,以及透明度集中使用数据等政府预算和报告。经常躲避“公共”是“开放”这个词。虽然两个单词之间的Venn图具有充足的重叠(公共数据通常是打开的,反之亦然),但“打开”一词通常是指数据是如何访问的,而不是如何实现它可能会使用的目标。
单词 - “公共”和“打开” - Invite一个问题:为谁?尽管Mae和Gareth的努力,以及Tom Grundner和许多其他人,但互联网仍然是公共空间。许多人仍然发现自己被排除在外。在城市网页或.gov域上发布的任何东西都受到成本和技术能力的障碍的限制。获取此数据可能特别困难,这些数据对于已经被边缘化的社区,以及障碍金融和技术 - 可以在资源和文学资源有限的地方几乎不可能。
Data.gov,美国“开放数据门户网站”列出了近250,000个数据集,这是一个明显的免费信息赏金。但是,在Data.gov和其他门户网站上花一些时间,并且您将发现公共数据存在凌乱,并且经常混淆。许多托管的“数据集”是与不再活动的URL的链接。试图从美国社区对Data.gov的美国社区调查中获取有关本地美洲社区的数据.Gov将我带到了一个普查网站,其中包含一个未标记的文件文件夹列表。下载zip文件并解压缩它导致64,086个密码命名的文本文件,每个文件都包含零千字节的数据。作为花在过去十年的大部分工作的人与这些类型的数据一起工作,我可以告诉你这不是一个不常见的体验。通常经常使用公共数据感觉,如组装特别复杂的宜家家具,没有工具,没有指示和未知数量的丢失件。
今天的公共数据服务于特定类型的人和特定类型的目的。主要是,它支持技术上擅长的企业家。公民数据倡议对此并没有害羞;在Data.gov的影响页面上,您可以找到一种“公共数据成功案例”的一个名称的公司名单:皮划艇,特鲁利亚,Foursquare,Linkedin,Realtor.com,Zillow,Zocdoc,AccuWeather,Carfax。所有这些公司都以某种方式在公共数据周围建立了利润模型,通常收取对国家宣传的信息,以便“可访问,可发现和可用”。
在1842年访问华盛顿特区,查尔斯狄更斯写了一篇“需要公众的公共建筑物。”虽然他谈到了首都广泛但受损的街道,但他也可以谈论今天的信息公众,稀疏地填充了普及的数据,在路边堆积高。
在过去十年中,我参加了许多开放数据事件:对于使用卫星的科学家,对于图书馆员和档案家,为城市规划者提供软件开发商,为政策制定者提供卫星师和档案家。正如我在这些活动的观众身上坐在观众身上,它一次又一次地对我发生了,我们并不谈论我们说“开放数据”时都在谈论同样的事情。
事实上,似乎有一种分形误解了关于“开放”意味着什么,或者更具体地是“开放”是什么。地球观察员对图书馆员有不同的想法:虽然科学家似乎专注于将他们的项目开放给其他科学家,但图书馆人民主要考虑人文研究人员。但即使在这些群体中,似乎似乎没有共同点。在国会图书馆工作的每个人都不同意欧洲空间机构一个部门的观众的观众。老实说,如果我去过的任何事件中的两个人都可以同意他们打开他们的数据,我会感到惊讶。
我还是足够的,相信开放意味着开放。当它说“开放意味着任何人可以自由地访问,使用,修改和分享任何目的时,我就是开放的知识基础。在这个定义下,我认为,在过去十年中,很少有所谓的开放数据项目实际上是开放的,除非我们为“任何人”制造了一个只有那些看起来的人的“任何人”的定义,否则这是一个像我们一样思考的人。
让我们尝试一个实验。选择一个打开的数据项目,您自己或其他人,并给予它的分数为零。因为我们感到慈善,让我们把项目给出一个点只是为了“打开”这个词,假设数据是以某种方式访问的,通过API或文件下载或运营商鸽子服务。接下来,为每个问题提供一个额外的点,您可以回答:
1.项目是否具有可理解的文档,示例和教程? 2.是否有材料(教学课程,博客帖子,视频等)在数据周围提供上下文,以便与项目不熟悉的人可以理解为什么它可能很重要? 3.非编程器可以访问数据吗? 4.在多种语言中有文件是否有:例如,英语和西班牙语)? 5.您的文档和其网站是否符合屏幕阅读器?你有过测试吗?
你是怎么做的? data.gov得分为2,如果我们慷慨。纽约市的开放数据门户网站得到3。
把红色笔转回自己,我发现我没有多少好多了。我与Creative Research-Floodwatch Office建造的三个开放式数据项目,进入Okavango以及大象图集分别获得2分,2分和3分。我认为这应该是想要合法地使用术语“开放”的每个数据项目的最低目标,以便在此测试中得分至少为3。但是得分一个3就像得分c;这是最低可行的开放,足以让你的父母无法逼你。即使是分数为5,您也达到了开放式数据,最佳开放式数据。我们如何做得更好?
很多答案都在上面的问题中编码。编写可理解的文档,示例和教程,并为您的观众编写它们,这不是您的观众。与良好的沟通者接受采访,他们可以提供上下文和叙述。提供易于使用的可视化工具以促进理解。想想使您的数据是人类可读的以及机器可读性。
2014年初,一群科学家在单一发动机飞机上开始了一系列紧密间隔的横断面,在21个非洲国家的大草原宽阔的宽阔的瓦斯。该平面配有激光高度计,飞行员精心努力保持飞行速度恒定。走出后窗口,飞机每侧的观察者计数大象。在接下来的两年里,自20世纪70年代初以来,他们在第一次泛大陆调查中飞行了数千公里和352,271只大象。
在创意研究办公室,我们在2016年建造了大象地图集,这是一个公共前端到飞行中所有时间的巨大数据集。使数据公众的任务很棘手。收集数据的每个国家都已同意自己的具体条款,了解数据如何发布。对于某些航班,没有可以释放地理空间数据。对于其他人来说,飞机的路径可以公开,但不是大象的位置。即使是高级别的国家逐个历史也很复杂。为了真正了解这些数字,以及他们如何改变四十年,是跟踪一套并行叙述:保护政策,象牙需求,食物稀缺,栖息地损失,人类冲突。
我们知道有少数的研究人员和政策Wonks谁希望深入了解数据。对于他们而言,我们建立了一个可以吐出详细的JSON文件的API(通常是由机器读取的公共格式),每次飞行的时间戳记录和每个大象都计算。可以在整齐地分析,分析,映射,绘制,映射,映射到科学论文。但是,人口普查的观点并不是为了产生更多的奖学金;它是实现政策变化,特别是在大象生活的国家。因此,我们编写了Project API以返回可打印的PDF报告,其中映射和图表是响应用户的请求而生成的。可以在纸上钉在一起的报告一起汇集在一起,落在政治家的桌子上。真实,有形的东西可以用拇指寄出或粘在傻瓜里。
要到达开放的外部,我们的数据真实并真正为公众提供服务,我们需要考虑排除和可访问性。更直接地放置,我们必须思考那些不是我们的人。我们正在被我们使用的技术和我们沟通的方式被排除在外?我花了四年的努力沿着Okavango河沿着Okavango河的数据为中心的保护努力,跨越三个官方语言。我们只提供英文API文档。所有这三个OCR所谓的公共数据项目是繁琐的(或不可能的)访问屏幕阅读器,使我们的所有开放数据都非常关闭对视觉损伤的人。
为了使数据项目真正向任何人开放,我们需要考虑超越电脑。
由Jer Thorp生活在数据中。用发行者,佛罗里达州福雷斯特,斯特鲁斯和Giroux的许可转载。版权所有©2021 by Jer Thorp。