计算头条:Google推出数据集搜索



2018年12月18日Google 被迫关闭了 Dragonfly 使用的一个数据分析系统,该数据分析系统关联 Google 旗下的 265.com 导航网站,Google 通过中国用户在 265.com 上的搜索查询来构建 Dragonfly 原型。原项目员工也被分配至其他地区的搜索项目组。在内部爆发冲突之后,Google 秘密的中国搜索项目事实上终止了。GoogleCEO桑达尔·皮查伊也在近日举办的国会听证中明确表示:“目前没有在中国推出搜索引擎的计划。”

然而2018年9月6日继 Google Scholar(Google 学术搜索)之后,Google 为科研工作者推出了一款重磅产品—— Google Dataset Search(Google 数据集搜索)。

网址:https://toolbox.google.com/datasetsearch

为什么说这款产品如此重要?因为数据从未如此重要。由于深度学习的兴起,AI 研究员需要大量的数据来训练他们的模型,吴恩达就曾表示,深度学习像火箭,计算是引擎,数据是燃料。有时候,数据可能比算法更重要。

然而,数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。

一些掌握了大量数据的互联网公司也因此拥有很大的优势,而高校的学者除了一些公开的知名数据集,想要拥有大量的数据则非常困难,因此 Google 的这款产品可谓是及时雨。当然,其他需要各种数据的工作者也能从中受益。

Google Dataset Search 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。

现在,就让我们来一起看下这款搜索工具。

与 Google Scholar 类似,Google Dataset Search 可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页。

为了创建 Dataset Search,Google 还为数据集提供方制定了一套数据指南(https://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者,发布时间,数据收集方式,使用数据的条款等等。然后,Google 收集并链接这些信息,分析同一数据集的不同版本可能在哪里,并找到可能描述或讨论这一数据集的出版物。

Google 的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。

在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如 ProPublica。随着越来越多的数据仓库使用 schema.org 标准来描述他们的数据集,Google Dataset Search 能够搜索到的数据集的种类和覆盖面将持续增长。

目前 Google Dataset Search 已经支持多种语言,笔者尝试了下,除了英文,还支持中文。




 
(以上文章被中国计算网收录于2018年12月19日,转自AI科技大本营,欢迎CAE与计算机行业人士投稿于中国计算网)
搜索微信公众号: cncompute_Mall   直接关注,更多惊艳的资讯等你来关注~您也可以来投稿~