中文搜索引擎指南网
标题:
[搜索引擎技术普及 - 2] 搜索引擎系统的网络链接结构分析技术(上)
[打印本页]
作者:
sowang
时间:
2007-4-8 22:37
标题:
[搜索引擎技术普及 - 2] 搜索引擎系统的网络链接结构分析技术(上)
内容出自:搜狗实验室
关于搜索引擎技术普及的主题,第二次我们选择来跟大家谈一谈链接结构分析技术。超链接结构信息是网络信息环境与传统信息媒介的最大区别之一,与用户查询需求乃至页面内容均相对独立的超链接结构,是搜索引擎区别于传统信息检索系统的核心所在。
如果说Web信息资源是一部包罗万象的百科全书,那么链接结构信息就是这部百科全书的目录,我们面临的看似无序繁杂的网络信息资源,如果没有链接结构信息作为组织的媒介的话,将很难被用户充分利用。
自从1998年Google将其PageRank算法的一些内容在学术论文中加以公布后,研究界、产业界和搜索引擎技术爱好者对链接分析技术的热忱就没有终止过。在介绍详细的算法流程之前,我们想换一个角度首先对链接分析能够成立的几个基础假设进行一个介绍。
1. 什么是超链接
超链接是指两个网页或网页的两个不同部分之间的一种指向关系,源网页是指包含超链接的网页,超链接一般在源网页HTML源码中表现成如下的文字形式:
<A HREF="
http://www.tsinghua.edu.cn/">
清华大学主页</A>
目的网页是被超链接所引用的网页。在上述例子中,用户在源网页中可以看见的描述链接的内容被称为“链接文本”(在上述例子中链接文本即为“清华大学主页”),链接文本的特殊颜色和下划线格式表示它是可以被点击的超链接。各种基于超链接结构分析的页面质量评估算法,都是围绕对于链接关系图及链接文本的应用而展开的。
2. 超链接结构分析的基础假设
在2001年SIGIR会议上(美国计算机协会ACM每年召开的关于信息检索方面国际上最权威的研究会议),澳大利亚联邦工学研究组织的Craswell等人对链接结构分析算法的应用方式进行了分析,提出网页超链接结构所具有的以下两个特性(用假设的方式表述)事实上是各种超链接算法得以成立的基础:
如果存在超链接L从页面Psource指向页面Pdestiny,则Psource与Pdestiny满足:
假设1:(内容推荐假设)页面Psource的作者推荐页面Pdestiny的内容,且利用L的链接文本内容对Pdestiny进行描述。
假设2:(主题相关假设)被超链接连接的两个页面Psource与Pdestiny比随机抽取的两个页面有更大的概率有内容相关性。
由假设1可以推知,拥有较高入链接个数的网页得到更高程度的推荐,并应当在页面质量评估中得到较高的评分。在较小规模网页语料库中的实验证明利用这个假设设计的算法能够有效的挑选出高质量网页。因此,在实际网络环境中,为网页增加更多的入链接也成为通过作弊提高网页在搜索引擎中排名的主要方式之一。假设1还指出链接文本的重要特性,即它是对目标页面内容的相对客观的描述,利用这一特性设计的算法被许多研究证明是有效的提高网络信息检索质量的手段。
假设2的正确性被多项研究所证明,它也是某些将内容分析与链接分析相结合的算法如行为扩散算法(spreading activity, SA算法)的理论基础。利用这个假设,检索算法有理由把与相关网页在链接关系上相近的网页同样排认定为比较相关,这也为不少重复/冗余网页判定算法提供了有力的在网页内容分析之外的分析途径。
作者:
url
时间:
2007-4-10 08:30
学习一下。
作者:
url
时间:
2007-4-11 12:22
错误
请求失败 发生错误,您可将此错误报告给我们,我们将非常感谢您的反馈。 ...
labs.blog.sohu.com/ 1K 2007-2-9 - 百度快照
欢迎光临 中文搜索引擎指南网 (http://www.sowang.com/bbs/)
Powered by Discuz! X3.2