首页>>专家专栏>>西瓜大姐>>正文

 

搜索引擎的基本原理


2002年131日 西瓜大姐
搜索引擎虽然表现为各种不同的形式,但其最根本是由信息搜集系统、索引数据库和查询接口三部分组成。下面就分别详细描述不同形式搜索引擎的组成:

1)目录导航搜索引擎的信息搜集系统、索引数据库和查询接口

目录导航式搜索引擎的信息搜集系统主要是由人工来完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新的网站,给每个网站一个标题和大概的描述,将其放入相应的类目体系中。在页面上表现为每个类目路径下排列着相关的网站,所以也叫目录导航。

目录导航式搜索引擎的索引数据库存入每个网站的标题、描述、类目、超文本链接(URL)组成倒排文档。

目录导航式搜索引擎提供两种查询接口形式,一种是在网页上用户可以直接点击树状目录,一层一层的点击查看下去,直到找到用户需求的相关类目下的网站信息。另一种查寻接口就是关键词检索,用户直接在搜索框中输入所需信息的关键词,服务器接受命令后就会去索引数据库中匹配关键词,返回查询结果。因此可以看到,目录导航实现的原理比较简单,主要是编制目录导航页面和设计简单的检索功能。

2) 网页搜索引擎的信息搜集系统、索引数据库和查询接口

网页搜索引擎完全体现了现代先进的网络技术。

网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人工处理。网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部有用信息,并将抽取的信息记录到索引库中是关键。

网页搜索引擎的的索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。索引库的具体结构在下文中会有详细的描述。

网页搜索引擎一般只提供关键词检索这一种检索接口形式。为了方便用户的检索,网页检索的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。网页搜索引擎的检索接口还担负着检索结果相关性排序等关键技术的实现。

当然,也有的搜索引擎开发公司利用网络机器人(robot)或是网络蜘蛛(spider)抓取的网页用计算机自动分类建立目录导航系统,象香港中文大学开发的悠游网(http://www.goyoyo.com)就是这种类型。

3) 随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等。

1999年,许多经营图库的公司逐渐将其图库上网,并使得内容可以被搜索利用。图像搜索技术可以分为基于文字的搜索与基于内容的搜索。基于文字的搜索是利用图像的文字描述寻找需要的图像;基于内容的检索是分析图像中颜色、纹理分布等特征,寻找相关的图像。有一种做法是用户首先点选画面中随机产生的图片中比较符合需求的图片,找到与用户选择较为相似的图片,用户再从中点选更为接近要求的图片,经过数次互动后,用户可以愈来愈接近想查找的图片。

 


发表观点>> 


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南网 
版权所有