1 / 7 一、 搜索引擎技术的产生背景搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表搜索引擎的发生背景在因特网发展初期,网站相对较少, 新闻查找比较容易。然而随着新闻技术的飞速发展,特别是因特网应用的迅速普及,网站越来越多, 并且每天全球互联网网页数目以千万级的数量增加。要在浩瀚的网络新闻中寻找所需要的材料无异于大海捞针。这时为满足人人新闻检索需求的搜索网站应运而生。搜索引擎从发生到发展大概阅历履历了如下四个步骤: (1)Archie 的出现 Archie 已经具备了现代搜索引擎的雏形。1990 年,加拿大蒙特利尔大学艾伦伊米杰等三个学生在查询文件的时候感触非常不便,当时需要到散布在各个地方的FIP 主机中去搜索,于是他们三人开发了用文件称号查找文件体例的想法。经过精心设计,终于开发出了Archie 程序。 Archie 是第一个自动搜索互联网上匿名FTP 网站文件的程序。Archie 是一个可搜索的FTP 文件称号排列表,当用户输入精确的文件称号时,Archie 会告诉用户哪一个FTP 地址可以下载该文件。Archie 还不是真正的搜索引擎,只是实现了自动索引互联网上匿名FIP 网站文件的技术,但无疑是在搜索引擎技术发展上迈出的第一步。(2)Spider 的出现为搜索引擎的发展奠定了基础,由于特地用于检索新闻的机器人(Robot)程序像蜘蛛 (Spider)一样在网络间爬来爬去,因此,Robot 程序又被称之为Spider 程序。世界上第一个Spider 程序,是由1993 年 6 月美国麻省理工学院学生马杰· 杰瑞开发出来的,它可以用来捕捉互联网上的网址,追踪互联网发展规模。虽然它也还不是真正意义上的搜索引擎, 但 Wanderer 的原理与技术已经被今天的搜索引擎广泛采用。随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在www Wanderer 基础上,一些编程者将传统的 spider 程序工作原理作了些改进。其原理是, 既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,优化。就有可能检索整个互联网。到1993 年底,一 些 基 于 此 原 理 的 搜 索 引 擎 开 始 纷 繁 涌 现 , 其 中 以Jumpstinsideion ...