请选择 进入手机版 | 继续访问电脑版

搜索爱好者

 找回密码
 注册会员

QQ登录

只需一步,快速开始

查看: 1481|回复: 3

Google推出全新数据搜索服务Dataset Search

[复制链接]
发表于 2018-9-6 18:15:13 | 显示全部楼层 |阅读模式
 Google和数据技术的发展一直是齐头并进的,现在Google通过更快搜索数据来进一步强化大众和数据的关系。

  眼下,一个好消息又来了:Google再次宣布开放一个全新的搜索服务:Dataset Search

  (数据集搜索)。



 还记得不久之前Google发布的Google  Scholar(学术搜索)吗?当时的Google

  Scholar 填补了快速查找学术资料的空白,那么这一次,Google直接将注意力更精准地聚焦到了数据集,简直“体贴又细心”!

  Google人工智能研究科学家Natasha Noy表示,科学家、研究人员、数据记者和其他有兴趣使用数据的人是这个工具的主要受众,与此同时,Google认为这些数据集在整个Google产品中的地位将会变得更加突出。

  数据工作者的又一“神器”

  首先,数据集到底是什么?先来普及下概念。Dataset(数据集),又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Dataset通常以表格形式出现。每一列代表一个特定变量,每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

  从历史上看,这个术语起源于大型机领域,在那里它有一个明确界定的意义,非常接近现代的计算机档案。

  Natasha Noy表示,这个新服务会将数万个不同在线数据集存档统一起来。那最终这些数据集的归属在哪呢?Natasha Noy谈到:“我们想要让这些数据可以被发现,但数据仍保留在原始位置。”

  如何运行?我们尝试进行了操作

  这个Dataset Search怎么运行的?事实上,即使对于组织最完善、数据最丰富的人来说,也需要利用来源于外部的数据。

  举个天气和环境数据的典型例子。

  假设你想要将农业数据与天气现象相关联以预测作物生长,或者想要研究天气对整个历史时期发生的现象的影响。这种历史天气数据,几乎不可能由任何单一组织积累和策划,很可能由NOAA和NASA等组织随时提供(雷锋网注:NOAA是美国国家海洋和大气管理局,NASA是美国国家航空航天局)。

  这些组织会通过专用数据门户定期策划和发布其数据,因此,如果你需要定期获取数据,可能需要熟悉通过这些门户定位数据的过程。当然,你还必须同时关注NOAA和NASA之外的其他可能的信息来源。

  如果不仅需要天气数据,还想找到正确的来源,然后再找到这些来源的更多正确数据,在此之前一个搜索界面根本无法做到,现在Google开发了Dataset Search,可以实现一个界面搜索出来,是不是很惊喜很意外?

  实际上,Google对结构化数据的热爱一直是持续的,标志性事件就是通过收购Metaweb整合了Google的知识图谱,并通过schema.org支持结构化元数据。




 搜索数据集会检索查询的多个结果,显示数据集提供者和时间段

  雷锋网编辑尝试进入Dataset Search官网,发现在搜索页面,如果一个数据集直接对应于一个出版物,那么在数据集名称旁边就有一个出版物的链接。雷锋网还观察到,Google还提供了参考数据集的出版物的大致数量。

  诸多问题值得考虑:错误内容、排名与盈利的可能

  推出了这个搜索,不仅为专业用户提供方便,而且对于数据集提供商也是大有好处。NOAA的CDO(首席开发官) Ed Kearns是该项目的坚定支持者,并帮助NOAA在该工具中搜索了许多数据集。


  “这种类型的搜索,长期以来一直是开放数据和科学界许多研究人员的梦想。对于NOAA而言,一部分工作是与他人共享我们的数据,Dataset Search对于让更广泛的用户社区更容易访问我们的数据至关重要。”





 Dataset Search搜索后进入某一个数据集链接,其对一些信息的排名

  为了避免数据集提供商将内容错误地描述为“数据集”,Google能够告诉它“这不是一个数据集”或者降低它的排名吗?Google并没有给出明确的应对措施,只是表示,Google会在用户开始使用该工具后获得更多经验,进行改进,努力地提高结果的质量。

  如何解决被搜索出的数据集排名问题呢?Google表示,对数据集来自的页面使用Web排名的组合(基于Google算法),并将其与数据集特定信号(如元数据质量、引用等)相结合。

  再进一步想,如果排除在搜索排名上盈利的可能,Google哪一天会不会拿它出来盈利?比如从销售渠道收集数据,并使用它们来生成具有洞察力的定期报告?

  不论如何,眼下这个项目是有助于科学决策的,需要的人士尽管放心的使用。不过随着数据的价值越来越凸显,Google也越来越重视,包括其在云计算和AI不断加大投入。大胆猜测一下,Dataset Search会是Google在学术数据领域的商业化的第一步。

来源:雷锋网
 楼主| 发表于 2018-9-6 18:16:11 | 显示全部楼层
谷歌推出"数据集搜索"功能:帮了科学家和记者

据TechCrunch报道,谷歌于美国当地时间周三宣布,该公司将推出新的“数据集搜索”(Dataset Search)功能,以帮助科学家和数据记者更容易、更快速地搜索数据之间的联系。



传统上,数据集广泛分布在各个研究网站、美国宇航局(NASA)和美国国家海洋和大气管理局(NOAA)等机构,甚至ProPublica等数据驱动的出版物上。通过“数据集搜索”功能,谷歌旨在调整其Google Scholar搜索方案,以帮助数据极客和研究人员在单个搜索栏中筛选这些数据。

谷歌为数据集提供商概述了指导方针,这将帮助搜索巨头和其他公司更容易识别其内容,并顺利地将信息重定向到搜索它的研究人员。这种方法基于协作数据社区模式(collaborative data community Schema)提出的开源标准,并要求数据供应商提供包括创建数据集的人、如何收集数据、何时发布数据以及数据可以使用哪些术语等信息。来源:网易科技作者:小小

这个新的搜索功能是谷歌旨在通过搜索提高数据可见性和访问能力的计划的第二部分。今年早些时候,谷歌对标准搜索的改进旨在帮助数据记者更容易发现数据。

 楼主| 发表于 2018-9-6 18:18:52 | 显示全部楼层
Google推出数据集搜索!百度,你怎么看?



继Google Scholar(Google 学术搜索)之后,Google 又为科研工作者推出了一款重磅产品—— Google Dataset Search(Google 数据集搜索)。

网址:

http://toolbox.google.com/datasetsearch

为什么说这款产品如此重要?因为数据从未如此重要。由于深度学习的兴起,AI 研究员需要大量的数据来训练他们的模型,吴恩达就曾表示,深度学习像火箭,计算是引擎,数据是燃料。有时候,数据可能比算法更重要。

然而,数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。

一些掌握了大量数据的互联网公司也因此拥有很大的优势,而高校的学者除了一些公开的知名数据集,想要拥有大量的数据则非常困难,因此Google 的这款产品可谓是及时雨。当然,其他需要各种数据的工作者也能从中受益。

Google Dataset Search 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。

现在,就让我们来一起看下这款搜索工具。

与Google Scholar 类似,Google Dataset Search 可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页。

为了创建Dataset Search,Google 还为数据集提供方制定了一套数据指南(http://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者,发布时间,数据收集方式,使用数据的条款等等。然后,Google 收集并链接这些信息,分析同一数据集的不同版本可能在哪里,并找到可能描述或讨论这一数据集的出版物。

Google 的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。



在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如ProPublica。随着越来越多的数据仓库使用schema.org 标准来描述他们的数据集,Google Dataset Search 能够搜索到的数据集的种类和覆盖面将持续增长。

目前Google Dataset Search 已经支持多种语言,笔者尝试了下,除了英文,还支持中文。

我们先尝试下英文搜索,如果你想分析天气记录,那么就可以在Google Dataset Search 的输入栏里尝试输入“daily weather”,结果如下图所示:      



可以看到,左边栏呈现的是各种数据源,右边则是相应的介绍,包括数据集的名称、下载链接、更新日期、提供者、说明等等,非常清晰。

现在,我们来尝试下中文,在搜索栏输入“房价”,第一条就是中国房价的数据集,该数据集由CEIC 提供,涵盖的时间段从2017年7月1日— 2018 年6 月1 日,算是非常新的数据了。



打开该数据集的链接,嗯,是个收费网站。不过,花钱能解决的事,总比毫无头绪来得好。



Dataset Search 的发布凸显了Google 对数据集的重视。最近,Google 也对自家的Google Search 也进行了改进,使得用户搜索结果中发现表格数据变得更加容易,不过该计划更侧重于新闻机构和数据记者,而Dataset Search 的受众则更加广泛。

Google 表示,这个项目能够带来下列好处:

a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;

b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。

当然,Google Dataset Search 的搜索质量取决于数据发布者,因此,如果大家都用开放标准来描述自己的数据,那么搜索结果肯定会越来越好。

Google Dataset Search 目前仍处于测试阶段,虽然支持中文搜索,但中国大陆的用户想要使用依然需要“梯子”,不过这么好的工具,错过岂不可惜!

针对Google Scholar,2014 年6 月百度上线了“百度学术”,不过大家似乎仍对Google Scholar 情有独钟。这次,百度怎么看?来源:AI科技大本营 作者: 非主流
 楼主| 发表于 2018-9-6 18:24:08 | 显示全部楼层
帮助科研需求:谷歌发布数据集搜索服务

新浪科技讯 北京时间 9 月 6 日早间消息,谷歌的目标是对全世界的信息进行组织和管理。该公司最初瞄准了商业网络,而目前谷歌想要用新的数据集搜索引擎,为科学界提供服务。

这个名为“数据集搜索”(Dataset Search)的新服务于今天推出,将成为谷歌学术搜索服务的伴侣服务。在网上发布数据的机构,例如大学和政府部门,可以在网页中加入元数据标签,以描述他们的数据,包括谁创建了数据、何时发布数据,以及如何收集数据。

随后,这些信息将被谷歌的搜索引擎编目,并与来自知识图谱的信息相结合。比如说,如果某个数据集由欧洲核子研究中心(CERN)发布,那么有关该研究所的信息也会被包含在搜索结果中。

谷歌人工智能研究科学家娜塔莎·诺伊(Natasha Noy)协助开发了数据集搜索。她表示,这个新服务的目标是将数万个不同在线数据集存档统一起来。“我们想要让这些数据可以被发现,但数据仍保留在原始位置。”

目前,数据集的发布非常碎片化。不同科学领域都有自己首选的数据集存档,而政府部门也是如此。诺伊指出,科学家们长期以来的困扰都是不知道到哪里去找数据集,一旦他们走出自己的圈子,事情就变得困难。(邱越)
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

Archiver|手机版|大川乒乓网|中文搜索引擎指南网(搜网) ( 鲁ICP备16006309号

GMT+8, 2018-9-24 01:05 , Processed in 0.148149 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表