百度Google文档搜索应用与比较
  | 
  |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 
     http://www.sowang.com 2004年9月23日 作者:loverty  |     
  |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 
     |    
  |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 
     |    
  |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 
     
 
    
      
      互联网上除一般网页外,还如PDF,DOC,RTF,xls,PPT(S)等的文档文件,虽然这些文件不象 
      HTM文件那样多,但这些文件通常会包含一些别处没有的重要资料,因此具有独特的价值和吸引力!所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能.对网络的这部分资源的挖掘和分析的水平也成了衡量一个搜索引擎完整与否,成熟与否的重要指标.多文档搜索是高级搜索的重要内容,与其他高级搜索功能一起,构成高级搜索功能体系. 
      主要比较文档数量,语法使用的灵活性,准确性,多语法混合使用等等
       
          数据 
          参比引擎
           
          百度
           
          Google 
           
          filetype:doc
          搜索引擎  
          1050 
           
          743 
           
          filetype:doc
          计算语言学
           
          546 
           
          214 
           
          filetype:doc
          计算机检索
           
          17700 
           
          6080 
           
          filetype:ppt课件
           
          13900 
           
          1480 
           
          filetype:ppt
          软件开发模型
           
              
              filetype:ppt 软件 
              模型
               
          560 
           
          697 
           
          919000 
           
          697    
          filetype:pdf 
          xml高级编程
           
          55 
           
          116但是匹配的质量很差,由各自不同的分次特点决定的。
           
          filetype:pdf
          服务器安全 
          17800 
           
          6240 
           
          filetype:xls
          报名
           
          9940 
           
          1890 
           
          filetype:xls
          名单
           
          32300 
           
          3000 
           
      表1 
      文档数量比较
       
          性能 
          参比引擎
           
          百度
           
          Google 
           
          灵活性
           
          支持三种方式查询 
          支持三种方式查询 
          准确性 整体上讲根网页搜索的效果差不多 
          ,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是全部,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别google的搜索结果就不太能令人满意。这也是由于google的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是最重要的,数量只是其次。
           
          多语法混用
           
          一般的逻辑搜索:+ 
          - | 均能很好的支持 
          其他高级搜索指令: 
          其他支持
           
          
          1 
          支持对所有文档类型的搜索,filetype:all 
          
          1 
          不支持对所有文档类型的搜索,          
      表2其他参数比较
       
         
      
      一搜也提供文档搜索,目前支持的文件类型不多,文档的数量也不够(或者可检出的数量不够),而且使用习惯与其他的不同(google,altavista,alltheweb等)所以不列入比较范围。  |    
  |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 
     |  
  |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 
     |   
  
| 
       
  | 
    
Copyright © 2001--2004 SoWang.com.All 
Rights Reserved
            
中文搜索引擎指南网  
 版权所有