请选择 进入手机版 | 继续访问电脑版

搜索爱好者

 找回密码
 注册会员

QQ登录

只需一步,快速开始

查看: 664|回复: 0

Google 搜索如何整理信息

[复制链接]
发表于 2019-1-27 00:44:28 | 显示全部楼层 |阅读模式
在您搜索之前,网页抓取工具会从数千亿个网页中收集信息,然后在 Google 搜索索引中进行整理。

Google 搜索基础知识

抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,我们的抓取工具会使用网站上的链接来探索其他网页。该软件会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。

我们提供了 Search Console,让网站所有者可以精确地控制 Google 如何抓取其网站:他们可以提供详细说明,告诉我们如何处理其网页;可以申请重新抓取;也可以使用名为 robots.txt 的文件,选择完全不抓取。Google 决不接受为了更频繁地抓取网站而付费的行为 - 我们为所有网站提供相同的工具,以确保用户尽可能获得最佳结果。

通过抓取查找信息

网络就像一个规模与日俱增的图书馆,拥有数十亿本图书,却没有中央档案系统。我们使用一种称为网页抓取工具的软件来探索公开网页。抓取工具会查看网页,并跟踪访问这些网页上的链接,就好像您在网上浏览内容一样。这些抓取工具会逐一访问各个链接,并将各网页中的数据返回至 Google 的服务器。

通过编入索引整理信息

当抓取工具找到一个网页时,我们的系统就会像浏览器一样呈现该网页的内容。我们会记下关键信号(从关键字到网站新鲜度),然后会在 Google 搜索索引中跟踪所有这些内容。

Google 搜索索引中包含数千亿个网页,大小远远超过 1 亿千兆字节。它就像图书尾部的索引一样 - 被我们编入索引的每个网页中出现的每个字词都在其中,且分别对应一个条目。在将某个网页编入索引时,我们会将它添加到与它包含的所有字词对应的条目中。


借助知识图谱,我们将继续超越关键字匹配,以更好地了解您关注的人、地点和事物。为此,我们不仅要整理有关网页的信息,还要整理其他类型的信息。如今,Google 搜索不仅可帮助您搜索大型图书馆内数百万册图书中的内容,查找当地公交公司的线路和车次安排,还可帮助您浏览世界银行等公开来源的数据。


您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

Archiver|手机版|大川乒乓网|中文搜索引擎指南网(搜网) ( 鲁ICP备16006309号

GMT+8, 2019-2-21 10:39 , Processed in 0.132617 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表