开启左侧

蜘蛛如何爬取运城社区网站内容?

[复制链接]
avatar 发表于 2016-10-12 20:41:49 | 显示全部楼层 |阅读模式
蜘蛛爬取网站信息不是很随便的,有规律且有选择!以运城社区网站为例,那么蜘蛛如何爬取运城社区网站内容呢?

首先,运城门户网站必须是百度白名单中的网站,百度爬虫信任运城社区以及它的页面:
第一步:蜘蛛经过选择进入运城社区网站首页;
第二步:抓取首页内容;
第三步:根据首页内容中的链接(内链)在抓取运城社区首页链接的页面;
第四步:从层数上说先抓第一层的文章,再抓第一层下面的第二层,然后第三层,例:版块指向子版块再指向内容页。

蜘蛛抓取数据后会保存在自己的数据库里,经筛分整理,客户端输入相应的关键词,搜索引擎放出运城社区网站页面的数据。

15310
comiis_nologin
您需要登录后才可以回帖 登录 | 立即注册 wechat_login1  qq_login wechat_login

本版积分规则

关闭

社区推荐 上一条 /1 下一条

快速回复 返回顶部 返回列表