发布于:2020-12-30 11:56:32
0
72
0
网络是建立在数据之上的——我的数据、你的数据、小公司的数据、大公司的数据等等。我们可能会交出电子邮件地址等数据,作为回报,我们可能会获得其他数据,可能是新电子游戏的独家内容或每周新闻通讯。这种持续的数据交换允许在web之前从未存在过的规模上进行协作和通信。
目前很多交换的数据都可以看作是以人为中心的。我们有新闻文章、博客、电子商务、论坛、视频平台、社交媒体和问答网站,为我们提供了阅读、观看和消费的数据。我们不是唯一的网络消费者,搜索引擎,语音助手,定价机器人,甚至链接预览机器人每天执行惊人数量的请求。像这样的计算机系统在数据消费中扮演着越来越重要的角色。
蒂姆·伯纳斯-李创造了“语义网”的概念,在这个概念中,网络可以被认为是一个计算机系统可以理解的全球性数据库,而不是一系列独立的网页。反过来,这可以有效地允许不同计算机系统之间的更深入集成,并允许更大程度的数据分散。这里的数据不只是来自大公司——它可以是你的数据,也可以是我的数据,我们通过自己的网站控制和管理自己的数据。
不幸的是,我们还没有达到数据乌托邦的这个阶段。大量数据不是公开可用的,对于可用的数据,通常会被api和它们自己的专有系统锁定,在这些系统中,您需要付费访问。
构建语义Web
从我们现在所处的位置到一个完整的语义网不是一朝一夕就能实现的。多年来,我们一直在HTML、CSS和JavaScript上构建网页,为人类的浏览体验进行优化设计。目前,要从HTML中提取可靠数据,计算机系统需要能够处理非结构化数据,然后建立上下文和意义。问题是,我们人类可以通过查看页面来确定上下文和含义,但机器必须执行额外的处理才能获得相同的上下文。直接编码结构化数据消除了机器自身处理的额外复杂性。编码结构化数据有许多不同的解决方案,包括开放图、微数据、RDFa和JSON-LD。
由Facebook创建的Open Graph是一种保存特定类型结构化数据的流行格式。Facebook使用这个从页面元数据生成链接预览。网站开发人员希望根据元数据中描述的方式来控制显示的内容。自从它诞生以来,其他社交媒体网站也采用了Open Graph来生成链接预览。
然而,微数据、RDFa和JSON-LD有一点不同,因为它们本身只表示在web页面中存储数据的不同格式。计算机可以解析这些标准化的结构。然而,除非它知道所表示的数据类型,否则它不会真正理解数据。这里缺少的是一个共享的词汇表,以便两个不同的计算机系统能够相互理解。
谷歌、微软、雅虎和Yandex联合提出了一个名为Schema.org的解决方案,以在具有通用词汇表的web页面中促进结构化数据。对于搜索引擎来说,这种结构化数据可以帮助在搜索结果中提供更丰富的信息。org并没有描述所有类型的对象,也没有打算这样做,但它确实为描述许多常见对象创建了坚实的基础:书籍、事件、地点、医疗条件、电影、组织和人员。对于它没有涵盖的领域,可以使用替代词汇表来描述专门的数据。由于Schema.org在增强SEO方面的流行,它拥有一个不断增长的用户基础,这反过来有助于语义网的发展。
数据可能会改变我们使用网络的方式
语义网不仅会改变我们对在线搜索信息的看法,还会改变谁来控制信息。想象一下,每个网站不仅仅是一堵内容墙,而是一张相互关联的主题和想法的图表。不需要有一个中心点,将数据存储和控制在一个单一的实体,这有助于避免审查和偏见的一些担忧,同时提高隐私和对共享数据的控制。
以Facebook这样的网站为例。它维护关于人员和企业的大量信息,以及来自评论、反应和共享的不同实体之间的各种关系。这些数据是Facebook生态系统的一部分;它实际上“属于”他们。在未来,数据由我们自己控制,像Facebook这样的网站可能只是现有网络的可视化表现,建立在语义网上。我们在网站上公开的数据是可以查看的,这使我们能够完全控制哪些数据被分享。这也意味着我们不会被Facebook之类的服务所束缚。您可以自由移动到其他“前端”,因为数据是您的,您可以维护它。
像Facebook这样的组织想要交出他们的数据似乎很奇怪,然而,随着更严格的法律的通过,例如欧盟的GDPR和加州的CCPA, Facebook被迫交出数据可能只是时间问题。
随着利用这些数据的新技术的出现,它也将为用户提供新的工具和体验。虽然搜索引擎背后的算法很复杂,但它们目前提供的查询结果已经得到了明确的回答。如果你问,“1995年之前所有在国内失败但在世界范围内广受欢迎的歌曲”,你不太可能得到结果,因为还没有人回答这个问题。这种查询的数据存在于web上;然而,由于搜索的工作方式,它并不是现成的。在一个建立在数据基础上的网络中,像这样的模糊查询可以通过组合多个站点的不同数据集来显示结果。
查询更复杂数据的能力尤其能帮助研究人员和数据科学家,因为他们有可能将大量的公共数据与自己的私人研究数据结合起来,发现新的和有趣的事情。此外,它可以帮助那些训练机器学习模型,因为特定的数据集可以精心制作,它们可能是不可能获得的其他方法。
仍然有障碍需要克服
支持语义网的改变不是一夜之间就能实现的——我们说的是多年的小步骤和增量的改进。即使大多数网站在其标记中有丰富的结构化数据,也需要构建许多新的工具和技术来利用它。例如,Berners-Lee一直致力于将Solid作为一种方法,使用户能够更好地控制自己的数据,这是建立在语义网的关键概念之上的。
像许多其他概念一样,语义网也有其批评者。其中一位是科里•多克托罗(Cory Doctorow),他甚至称其为“一个建立在自欺、书呆子自大和极度膨胀的市场机会之上的白日梦”。这一评论并非毫无道理,因为还有几个潜在的问题需要考虑。
由于web上有大量的网站和可能需要表示的大量类型,任何足够复杂的查询都需要理解大量的数据。org本身有841个类型,但仅触及了可以表示的所有数据的表面。当查看特定行业和它们可能公开分享的数据时,可能有数百个词汇表,每个词汇表中有数千种类型。
除了纯粹的数据量,我们还要决定如何对其中一些数据进行分类。人们可能会在最平凡的事情上展开激烈的争论,比如“洗衣机是厨房用具还是家用清洁设备”。
然后,语义Web需要处理重复数据,不幸的是,这可能并不比试图消除非结构化数据的重复数据更容易。单个项可以用两个或更多不同的词汇表表示,并且可以定义不同的属性。数据的全局标识符在特定情况下可能有帮助,但是它不能完全解决问题。
数据的可信度是语义Web的另一个关键问题。当我们研究当前的信息时,在确定我们所阅读的信息是否可信时,我们可能会考虑许多不同的因素。此外,我们可能会验证我们在多个不同的站点发现的内容。系统不仅需要处理事实上不正确的数据,而且还需要处理它发现的数据中的不一致性。
也许最大的问题不是技术问题,而是人的问题。Web开发人员或其他对这类技术感兴趣的人可能会在他们的页面和网站上添加数据,但是,你的父母会希望像那样管理他们自己的数据吗?你的邻居吗?你的朋友吗?即使工具是为普通人设计的,他们想要使用它们又有什么关系呢?对他们来说,语义Web可能一出现就死了。
我们离某种形式的语义Web还有很长的路要走。虽然在很多方面我们都在朝着这个方向迈进,但完整的数据乌托邦将依赖于许多方面的完美整合。它不太可能是一场数据革命,而更可能是当前网络运作方式的演变。随着我们向前迈进,毫无疑问,我们会发现数据的新用途,并开始开发利用它的技术。
作者介绍