全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户 图片查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果的来源不同,全文搜索引擎可以分为两类。一个有自己的索引器,俗称“蜘蛛”程序或“机器人”程序,可以建立自己的网络数据库,搜索结果直接从自己的数据库中调用。上面提到的谷歌和百度就属于这一类;另一种是租用其他搜索引擎的数据库,按照自己的格式排列搜索结果,比如Lycos搜索引擎。
在搜索引擎分类部分,提出了全文搜索引擎从网站中提取信息并建立网络数据库的概念。搜索引擎有两种自动信息收集功能。一种是定期搜索,即每隔一段时间(比如谷歌通常有28天),蜘蛛搜索引擎会主动发出“蜘蛛”程序,搜索一定IP地址范围内的互联网网站。一旦发现新网站,它会自动提取网站的信息和地址,并将其添加到自己的数据库中。另一种是提交网站搜索,即网站所有者自愿向搜索引擎提交网站地址,搜索引擎在一定时间内(从2天到几个月不等)向您的网站发送“蜘蛛”程序,扫描您的网站并将相关信息存储在数据库中供用户查询。由于近年来搜索引擎索引规则的巨大变化,主动提交网站并不能保证您的网站能够进入搜索引擎数据库。目前最好的办法就是多获取外部链接,让搜索引擎有更多的机会找到你,自动收录你的网站。
当用户通过关键词搜索信息时,搜索引擎将在数据库中进行搜索。如果找到了与用户请求的内容相匹配的网站,就会采用一种特殊的算法——通常是根据网页中关键词的匹配程度、位置、频率和链接质量——来计算每个网页的相关性和排名等级,然后将这些网页链接按照相关性依次返回给用户。这类引擎的特点是搜索召回率高。
搜索索引/目录
虽然有搜索功能,但严格意义上不能称之为真正的搜索引擎,它只是按目录分类的网站链接列表。用户可以根据分类目录找到需要的信息,不需要依靠关键字进行查询。最具代表性的目录索引是知名的雅虎和新浪分类目录搜索。
与全文搜索引擎相比,目录索引有很多不同之处。
首先,搜索引擎属于网站自动检索,而目录索引完全依赖人工操作。用户提交网站后,目录编辑会亲自浏览你的网站,然后根据一套自己确定的评价标准甚至编辑的主观印象来决定是否接受你的网站。其次,当一个搜索引擎包含一个网站时,只要网站本身不违反相关规则,一般都能成功登录。但是,目录索引对网站的要求要高得多,有时候即使多次登录也不一定能成功。尤其是像雅虎这样的超级指数,登录难度更大。
另外,在登录搜索引擎时,我们一般不需要考虑网站的分类,但是在登录目录索引时,我们必须将网站放在最合适的目录中。
最后,搜索引擎中每个网站的相关信息都是从用户的网页中自动提取的,所以从用户的角度来看,我们有更多的自主权;目录索引要求网站信息必须手工填写,有各种限制。更何况,如果工作人员认为你提交的目录和网站信息不合适,他可以随时调整,当然不会提前和你商量。
目录索引,顾名思义,就是将网站存储在不同类别对应的目录中。因此,用户在查询信息时,可以选择关键词进行搜索,也可以按照分类目录逐层搜索。如果按关键词搜索,返回的结果和搜索引擎一样,搜索引擎也是根据信息关联程度对网站进行排名,只是人为因素较多。如果按层次目录搜索,目录中网站的排名由标题字母的顺序决定(也有例外)。
目前,搜索引擎和目录索引有相互融合和渗透的趋势。现在有些纯全文搜索引擎提供目录搜索,比如谷歌借用Open Directory目录提供分类查询。而且喜欢雅虎!这些旧目录索引通过与谷歌(注)等搜索引擎合作,扩大了搜索范围。在默认搜索模式下,有些目录搜索引擎会先返回自己目录中匹配的网站,比如搜狐、新浪、网易等。在中国;而另一些则默认为网络搜索,比如雅虎。这种发动机的特点是精度高。
元搜索引擎
META Search Engine(元搜索引擎),在收到用户的查询请求后,同时在多个搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括InfoSpace、Dogpile、Vivisimo等。代表性的中文元搜索引擎是搜索之星。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;其他人根据自己的规则重新排列结果,比如Vivisimo。
垂直搜索引擎
垂直搜索引擎是2006年以来逐渐兴起的一种搜索引擎。与一般的网络搜索引擎不同,垂直搜索侧重于特定的搜索领域和搜索要求(如机票搜索、旅行搜索、生活搜索、小说搜索、视频搜索等)。),在其特定的搜索领域拥有更好的用户体验。与一般搜索中的数千个检索服务器相比,垂直搜索需要的硬件成本低、用户需求具体、查询方式多样。
集体搜索引擎
集合搜索引擎:这个搜索引擎类似于元搜索引擎,只是不同时调用多个搜索引擎进行搜索,而是由用户从提供的几个搜索引擎中进行选择,比如2002年底HotBot推出的搜索引擎。
门户搜索引擎
门户搜索引擎:AOLSearch、MSNSearch等。提供搜索服务,但他们既没有分类目录,也没有网络数据库,他们的搜索结果来自其他搜索引擎。
免费链接列表
Free For All Links列表(简称FFA):一般只有链接项是简单滚动的,少数有简单的分类目录,但规模比雅虎大!比如目录索引就小很多。