蜘蛛爬取网站信息不是很随便的,有规律且有选择!以运城社区网站为例,那么蜘蛛如何爬取运城社区网站内容呢?
首先,运城门户网站必须是百度白名单中的网站,百度爬虫信任运城社区以及它的页面:
第一步:蜘蛛经过选择进入运城社区网站首页;
第二步:抓取首页内容;
第三步:根据首页内容中的链接(内链)在抓取运城社区首页链接的页面;
第四步:从层数上说先抓第一层的文章,再抓第一层下面的第二层,然后第三层,例:版块指向子版块再指向内容页。
蜘蛛抓取数据后会保存在自己的数据库里,经筛分整理,客户端输入相应的关键词,搜索引擎放出运城社区网站页面的数据。
|

|