全球最大中文网页搜索、MP3免费下载、图片搜索、新闻搜索平台

 

 

·收藏本站
·
站内搜索
·
搜索工具

   首 页 - 搜索引擎目录 - 搜索入门到精通 - 中国网址之家 - 搜索引擎营销 - 搜索爱好者论坛

    

社会化搜索初探

  http://www.sowang.com   2006年11月23日 极端搜索者


    关键词:社会化、智能搜索、标签(tags)、兴趣群

    一、社会化与结构化信息

    智能搜索以社会化和信息的结构化为前提。搜索引擎是查找网页的工具,但不是知识库或智能问答系统,所以用户对搜索引擎并不能任意地提问。或者说,任意地提问是不恰当的。例如,不应该问“我应该报考哪所大学?”或“从北京到上海乘座哪种交通工具省钱,但速度又不慢?”诸如此类非定制问题。因为搜索引擎不是知识库或智能问答系统,以上的提问方式不适于搜索引擎。不过在未来,我们可以考虑将知识库或智能问答系统与搜索引擎结合在一起。
 

    网页信息大部分都是非结构化的,如何让这些非结构化信息结构化呢?我以为,通过社会化方式能部分地解决这个问题。某一网页的信息可能是非结构化的,不过当用户为其贴上标签(tags)时,这部分信息已被打上了结构化的烙印。一定程度上,标签(tags)是对非结构化信息的结构化分类。而且更为重要的是,标签(tags)这种结构化分类,比以往任何的文本自动分类和人工的分类目录更加具体和人性化。

    作者要指出的是,当前社会化引擎在对于标签的利用方式上,存在一些不合理的地方,或忽略的要素。主要表现为标签仅仅是贴在收藏结果后面的尾巴,而没有把标签用于对非结构化收藏结果的整体分类。因此,我提供一种模式:

    标签作为分类的位置放在搜索框的下面,搜索结果的上面,有些类似于搜狗的网页分类的位置。现在,标签已经不是仅仅作为对收藏结果的被动描述,而是变为积极的分类描述,供用户获取分类下的结果。标签的使用上,与以往也有很大不同。我建议用户用句子或短语作为标签,而不是笼统的关键词。之所以这样,好处在于使分类更具体、意义更明晰。可以让其他用户在最短的时间内,找到需要的分类及结果。社会化引擎在做分类时,需要注意的问题是:文字完全相同的类别(标签),不能并列地放在一起,这样就造成了分类的重复(所谓分类就是把重复的东西归为一个类别)。

    在对收藏结果建立索引方面,有两种不同的方式。其中之一是,对收藏结果的摘要建立索引。这种方式的好处是,数据所占用的空间少,而缺点也是很明显的:用户一般不喜欢写摘要。另一种方式是,当某个网页被收藏后,系统立即地这个网页建立索引,好处是用户不必填写摘要了,但有一点值得注意:一定要保证搜索结果的相关性。雅虎的收藏+这点做得不好,社会化引擎应该吸取雅虎的这个负面经验教训。

    为了保证社会化搜索的优势得到最大限度的发挥,我以为用户必须使用标签(tags)。

    二、引进同义词词库

    社会化引擎应该做一个同义词词库,这样做完全是站在用户的角度,为了给用户提供方便而做的服务。同时为了改善用户的搜索体验,社会化引擎应该具备网页快照的功能。除了收藏网页信息以外,用户应该还能将自己的文件上传、添加到自己的收藏中。下面,言归正传。谈谈同义词搜索:

    同义词搜索在功能上分为:精确匹配和模糊匹配。区别在于,前者的同义词词库完全建立在权威的《辞海》上,后者则尽可能多地收录生活世界日常语言里的同义词。因此,有必要做两个同义词词库。当然引进同义词搜索的前提是,不能降低搜索结果的相关性。

    三、兴趣群

    每个用户都可以建立自己的兴趣群,用户能够在上面发布信息(多媒体)。其他用户可以参与到群中来,共同完善和丰富这个群。为了保证群内信息的质量,群主有权接纳或剔除某个用户。当然,群主也可以设定为允许任何用户加入。随之而来的问题是:用户该如何获取自己感兴趣的群。我的解决办法有两个:前者叫社会化智能(social intelligence),由系统根据用户的信息自动把用户引领到某个兴趣群中,当然前提是你得有社会化智能的技术。

    接下来是另一个办法,社会化引擎应该建立一个分类目录,群主在建群时将自己的群添加到某一类及层次分类中。分类目录是需要不断丰富和具体的,因而是一个需要不断做的工作。社会化引擎需要将分类目录尽量做得详细。

    四、社会化引擎与淫秽信息的长期斗争

    淫秽信息一直让政府很头疼,也一直让搜索公司头疼。淫秽信息让搜索公司背了不少黑锅,甚至沦为道义谴责的对象。社会化引擎应该建立一个监督委员会,负责清除淫秽信息。当接到淫秽信息的举报时,委员会有义务将其删除。

    补充一点:性知识、性保健及成人用品这类信息在性质上可能是色情的,但不是淫秽的。根据《现代汉语词典》“色情”的定义,是指性欲方面表现出来的情绪。由此可见,色情不是一个贬义词。如果它们遭遇打击的话,恐怕治疗性疾病的医院也在打击范围之内。

    “淫秽”的定义,是指性行为上违反道德标准。宣扬乱伦、一夜情及强奸之类的信息,在本质上是淫秽的,应该毫不留情地打击。在此,作者为打击不良信息方面,提供一个精确标准和依据。

    五、社会化搜索与电子商务

    这是经济学家的工作。我在此仅提供一个思考维度,我觉得社会化引擎应该尝试与电子商务结合。经济是互联网存在的根本动力和这座大厦的物质基础。如何利用自身社会化优势,在电子商务这个领域,有一番作为,是值得思考的。我以为,电子商务,或笼统地说,经济利益的驱动,能让互联网和社会化引擎更加繁荣。

    作者的blog
    http://hi.baidu.com/bewisdom 

     

  
 参与讨论>>

 



Copyright © 2006 SoWang.com.All Rights Reserved
中文搜索引擎指南网
 版权所有