发布时间 : 2010-08-25 10:57:31
来源 : 金站网
浏览次数 :
搜索引擎为了能够让自己的数据库足够的强大,足够的全面,不分昼夜的在网络上寻找新的,更可靠的信息,但是随着网络时代到来,网络信息爆炸式的整张,人工根本不可能完成这样的任务,因此,搜索引擎拥有者开发出来一套程序,用来不分昼夜的抓去信息,然后整理,分类信息,最后将这些信息索引到自己的数据库中。
这种不分昼夜抓取网站信息的程序的名字很多,比如:蜘蛛,爬虫,机器人,探测器。一般搜索引擎可以同时派出N多个爬虫程序,它们通过URL一个页面一个页面的抓去网站的标题,描述,图片,网站内容等,然后把抓去回来的信息放在专用的仓库中,等待索引。
但是网站的设计者,并不能保证自己设计的网站是天衣无缝的,都会有很多问题:比如说网页中出现死链接,网页内容过多等,都导致爬虫程序无法正确的抓取完整个页面的内容,或许爬虫只抓去了这个页面的头部,在抓去身子的时候发现自己存储信息的地方不够了,不得不离开。所以我们在设计网站的时候都应该注意这些问题,建议各位网站设计者能够把网页设计的容易让爬虫接受。