开启左侧

蜘蛛如何爬取运城社区网站内容?

[复制链接]
发表于 2016-10-12 20:41:49 | 显示全部楼层 |阅读模式

注册会员,玩转社区

您需要 登录 才可以下载或查看,没有帐号?立即注册   

x
蜘蛛爬取网站信息不是很随便的,有规律且有选择!以运城社区网站为例,那么蜘蛛如何爬取运城社区网站内容呢?

首先,运城门户网站必须是百度白名单中的网站,百度爬虫信任运城社区以及它的页面:
第一步:蜘蛛经过选择进入运城社区网站首页;
第二步:抓取首页内容;
第三步:根据首页内容中的链接(内链)在抓取运城社区首页链接的页面;
第四步:从层数上说先抓第一层的文章,再抓第一层下面的第二层,然后第三层,例:版块指向子版块再指向内容页。

蜘蛛抓取数据后会保存在自己的数据库里,经筛分整理,客户端输入相应的关键词,搜索引擎放出运城社区网站页面的数据。

相关帖子

高级模式
B Color Image Link Quote Code Smilies

本版积分规则

GMT+8, 2019-5-24 01:46 , Processed in 0.333188 second(s), 25 queries .

快速回复 返回顶部 返回列表