网络的语义未来

2020-12-13 10:15:21

网络是建立在数据之上的—我的数据,您的数据,小公司的数据,大公司的数据等等。我们可能会移交诸如电子邮件地址之类的数据,作为回报,我们可能会访问其他数据,可能是新视频游戏的独家内容或每周新闻。持续不断的数据交换允许进行协作和交流,而协作和交流的规模是Web之前从未存在的。

当前交换手的许多数据都可以视为以人为本。我们有新闻文章,博客,电子商务,论坛,视频平台,社交媒体和问答网站,这些网站为我们提供了读取,观看和使用的数据。但是,我们并不是唯一的Web消费者,搜索引擎,语音助手,定价bot甚至是链接预览bot每天都在执行数量惊人的请求-此类计算机系统在数据消耗中发挥着越来越重要的作用。

蒂姆·伯纳斯·李(Tim Berners-Lee)提出了“语义网”的概念,其中,网可以被视为计算机系统可以理解的全球数据库,而不是一系列单独的网页。反过来,这可以有效地允许不同计算机系统之间的更深层集成,并允许更大程度的数据分散。这里的数据不仅来自大型公司,还可以是您的数据,也可以是我的数据,也可以是我们通过自己的网站控制和管理的数据。

不幸的是,我们还没有达到完整的数据乌托邦阶段。大量数据不是公开可用的,对于可用数据,通常可以将其锁定在具有自己专有系统的API后面,而您需要为这些API付费才能访问。

从我们现在的位置迁移到完整的语义网并不是一overnight而就的。多年来,我们已经在HTML,CSS和JavaScript上构建了针对人类观看体验进行了最佳设计的网页。当前要从HTML提取可靠的数据,计算机系统需要能够处理非结构化数据,然后建立上下文和含义。问题是,我们人类可以通过查看页面来确定上下文和含义,但是机器必须执行额外的处理才能获得相同的上下文。直接编码结构化数据消除了机器自身处理的额外复杂性。有许多不同的解决方案可以对结构化数据进行编码,包括Open Graph,Microdata,RDFa和JSON-LD。

由Facebook创建的Open Graph是一种流行的格式,用于保存特定类型的结构化数据。 Facebook使用它从页面元数据生成链接预览。网站开发人员希望根据元数据中所描述的方式对显示的内容进行其他控制。自创建以来,其他社交媒体网站还采用了Open Graph来生成链接预览。

但是,微数据,RDFa和JSON-LD有点不同,因为它们本身仅表示在Web页中存储数据的不同格式。计算机可以解析这些标准化的结构。但是,除非它知道所表示的数据类型,否则它实际上将无法理解该数据。这里缺少的是共享词汇表,以便两个不同的计算机系统可以相互理解。

谷歌,微软,雅虎和Yandex的共同努力提出了一种名为Schema.org的解决方案,以使用通用词汇表在网页中推广结构化数据。对于搜索引擎,此结构化数据可帮助在搜索结果中提供更丰富的信息。尽管Schema.org并没有描述每种类型的对象,也没有意图,但它确实为描述许多常见对象(如书籍,事件,位置,医疗状况,电影,组织和人员)奠定了坚实的基础。对于它未涵盖的领域,可以使用替代词汇表来描述该专用数据。通过提高SEO的知名度,Schema.org拥有不断增长的用户基础,进而帮助发展了语义Web。

语义网不仅可以改变我们对在线搜索信息的看法,而且可以改变谁来控制信息。想象每个网站不仅是内容的墙,而且是相互关联的主题和思想的图表。数据不必由单个实体来存储和控制,而是可以避免对审查和偏见的担忧,同时可以提高隐私性和对共享数据的控制力。

例如,以Facebook之类的网站。它维护着关于人员和企业的大量信息,不同实体之间的各种关系(来自评论,反应和共享)。这些数据是Facebook生态系统的一部分;它实际上“属于”他们。在数据由我们自己控制的未来,像Facebook这样的网站可能只是现有网络的可视表示形式,而该网络是建立在语义Web上的。我们可以查看我们在网站上公开的数据,从而使我们可以完全控制共享的内容。这也意味着我们并未锁定Facebook之类的服务。您可以自由移动到其他“前端”,因为数据由您自己维护。

像Facebook这样的组织曾经想要放弃其数据似乎有些奇怪,但是,随着更严格的法律的通过,例如欧盟的GDPR和加利福尼亚的CCPA,在Facebook被迫放弃之前可能只是时间问题。 。

随着利用这些数据的新技术的建立,它还将为用户提供新的工具和体验。虽然搜索引擎背后的算法很复杂,但它们当前提供的查询结果已经被专门回答。如果您问:“ 1995年以前的所有歌曲都在国内失败,但在世界范围内广受欢迎”,您将不太可能取得结果,因为还没有人回答这个问题。此类查询的数据存在于Web上;但是,由于搜索方式的原因,该信息尚不可用。借助基于数据的网络,诸如此类的晦涩查询可能会通过组合多个站点中的不同数据集而产生结果。

查询更复杂数据的能力尤其可以帮助研究人员和数据科学家,将潜在的大量公共数据与他们自己的私人研究数据相结合,从而发现新的有趣事物。另外,它可以帮助那些训练机器学习模型,因为可以精心设计特定的数据集,否则可能无法获取它们。

支持语义Web的更改并非一朝一夕就能完成,我们谈论的是多年的小步骤和渐进式改进。即使大多数网站的标记中都包含丰富的结构化数据,也需要构建许多新工具和技术来利用它。例如,Berners-Lee一直在研究Solid作为一种方法,使用户可以基于语义Web的关键概念来更好地控制自己的数据。

像许多其他概念一样,语义网确实有其批评者。一个人,科里·多克托洛(Cory Doctorow)甚至称其为“一场梦想,建立在自欺欺人,书呆子傲慢和歇斯底里的市场机会之上。”该评论并非没有价值,因为有几个潜在问题需要考虑。

由于Web上的网站数量众多,可能需要表示的类型众多,因此对于任何足够复杂的查询,都需要理解大量的数据。 Schema.org本身具有841种类型,但仅在可能表示的所有数据的表面上有划痕。在查看特定行业以及它们可能公开共享的数据时,可能有数百种词汇,每种词汇都有数千种。

除了庞大的数据量外,还要决定如何对其中一些数据进行分类。关于诸如“洗衣机是厨房电器还是家用清洁设备”等最平凡的事情,辩论可能会激起争议。

然后,语义Web需要处理重复数据,不幸的是,这可能比尝试对非结构化数据进行重复数据删除要容易得多。单个项目可能能够用两个或更多不同的词汇表表示,并且可能定义了不同的属性。数据的全局标识符在特定情况下可能会有所帮助,但是,它不能完全解决问题。

数据的可信度是语义Web的另一个关键问题。当前,当我们研究信息时,在确定我们阅读的信息是否可以信任时,我们可能会考虑许多不同的因素。此外,我们可能会验证我们在多个不同站点中找到的内容。系统不仅需要处理事实不正确的数据,而且还需要处理确实发现的数据中的不一致问题。

也许最大的问题不是技术问题而是人的问题。 Web开发人员或对这些类型的技术感兴趣的其他人可能会竭尽所能向其页面和网站添加数据,但是,您的父母会想要这样管理自己的数据吗?你的邻居?你的朋友们?即使为普通人构建了工具,这意味着他们甚至想使用它们?对于他们来说,语义网可能在到达时就死了。

我们距离某种形式的语义网还有很长的路要走。尽管我们在很多方面都肯定会朝着它迈进,但完整的数据乌托邦将取决于许多方面的完善安排。这不太可能是一场数据革命,而是网络现在运行方式的演变。但是,随着我们前进,毫无疑问,我们将发现数据的新用途,并开始开发可以利用它的技术。

标签:语义网