(原载《中国青年报》电脑周刊(数字青年)1999.7.12.) 网上搜索“方舟子” --网站评点之十二 ·方舟子· 有一位国内网友读了上一篇《雅虎中文和搜狐:一个比较》之后,来函说, 国内实际上并不看重网页目录的编排,更看重网页搜索引擎的速度和准确。是 否真的如此,我不得而知。刚好看到搜狐在七月一日推出了网页搜索的服务, 也许正是国内的行情使然。其实目录和搜索是相辅相成的。目录是人工有组织 的编排,搜索则是“机器人”大范围的寻找,可以适应不同的需要。目录可以 相互抄袭,搜索则没有这种省事的捷径,所以,搜索功能的好坏,其实更能反 映一个网站的技术实力。 搜狐的目录编排虽然不是令人很满意,与其他类似网站相比,毕竟还是较 为实用的。那么新推出的这项网页搜寻服务又是如何呢?我输入了“方舟子” 三字,选择了“全球网页”,第一次出来了系统错误,要我去向系统管理员报 告。我再试了一下,出来了112条结果,看上去不算坏。但仔细一看,这个结 果是有很大水分的。如果一个网页中出现了几次“方舟子”,它就列成了几条, 而其他的搜索引擎对这种情况一般只列出一条。去掉了这些重复部分,剩下的 网页就不多了。而且,虽然说是“全球网页”,国外的网页却一条也没有,只 限于国内,而且似乎集中在北京地区,搜寻出来的,以搜狐自己收藏的《电脑 周刊》、《信息产业报》和水木清华BBS精华区存档处的文章为主。不知是不 是它的“机器人”刚刚从北京出发开始旅行,还没有满世界地跑? 对一项新服务,本来也没必要太苛求。那些老牌的中文搜索引擎又如何呢? 印象中“悠游”是中文搜索引擎的先驱,虽然我自己从来不用,现在就特地去 调查一番。这才发现这个先驱好像已经没落,它的美国主站点(www.goyoyo.com) 已连不上。就先去了其北京镜像点,输入“方舟子”,出来1227条结果。原来 它跟其他中文搜索引擎不同,缺省设置是按字搜索的。按其要求设置了词组搜 索,竟只出来了一条结果。而在前面按字搜寻的时候,我明明看到有好几条都 有“方舟子”三字嘛。再连到它的香港镜像搜索,结果稍好一点,但也只有17 条结果。可以说,这个中文搜索引擎形同摆设,毫无用处。 我平时用的中文搜索引擎是雅虎中文和AltaVista。在雅虎中文输入“方舟 子”,可出来393条结果,而且都是不重复的。雅虎引擎的另一个好处,是有一 项show match(显示匹配)功能,一一列出在那篇文章的哪个地方出现了“方 舟子”,读者可以据此决定是否连到那个网站去读,可以节省很多时间。但雅虎 中文的引擎也有几点不足:一、它只搜索html文件,不搜索纯文本文件,而网 上许多资料库都习惯使用纯文本,遗漏不少。二、它每页只显示十条结果,要 查看最大显示限度的200条结果,需要翻阅20次,很不方便。三、它的更新速 度很慢,里面许多链接都已失效,较新的资料都找不到。 AltaVista原来有一页是专门用于搜索东亚文字的,很方便。现在这一页 已经没了,在搜索之前需要自己设置,才能用于搜索中文。它的搜索结果很 不稳定,我在一天之内搜索“方舟子”,分别出现过498、420、408、360、325、 306、304、256条这样不同的结果,这种情形,是在其他中文搜索引擎上所没 见过的。数据库应该不会说更新这么频繁,所以我估计是其引擎对中文的识 别有毛病。跟雅虎中文类似,它最大限度只显示200条结果,每次10条。不如 雅虎中文之处,是没有“显示匹配”功能。胜于雅虎中文之处,是它同时搜寻 html和纯文本文件,而且更新还算即时,五月底才编写的网页,现在就可以找 到了。 因为雅虎中文和AltaVista的搜索结果并不完全重复,所以应该把二者结 合起来用。但即便如此,他们的结果也是很不完全的,比如在搜狐搜索到的那 些网页,雅虎中文和AltaVista就大部分都没有搜索到,从这个角度说,各个 大型搜索引擎也都有自己的价值。 最后我总结一下,按照我的标准,一个较好的中文搜索引擎应该具备哪些 特点。我不想提出什么不切实际的要求,只不过是把现有引擎的优点综合一下 而已: 一、它应该搜索速度快速,系统稳定,结果一致。 二、它搜集的资料应该非常全面,即使不能把所有的网页都搜集进去,至 少也应该有代表性。要同时能够搜索html和纯文本。数据库要能即时更新,能 不晚于一个月最佳。 三、搜索结果不应该有重复。除了显示每个网页开头部分外,还应该有显 示匹配功能,帮助读者决定是否去访问该页。 四、雅虎中文和AltaVista的最大显示条数都是200,这在一般情况下都是 很不够的,至少也应该再增加一倍。每页显示条数也应该加倍(英文雅虎就是 每页显示20条)。 五、搜索的结果往往是条数太多,而不是太少,所以缺省设置应该是词组 搜索,而且要有排除功能。比如我在搜索“方舟子”时,并不希望新语丝自己 的网页也在里头。雅虎中文和AltaVista都有这种排除功能,只要在不希望出 现的词组或网址前面加上减号即可,但据我所知,搜狐并不具有这个功能。 网站: 搜狐:http://www.sohoo.com.cn 北京悠游:http://www.goyoyo.com.cn 香港悠游:http://www.goyoyo.com.hk/main/indexgb.html 雅虎中文:http://gbchinese.yahoo.com/ AltaVista:http://www.altavista.com/ 1999.7.7.