蜂集设置采集分页列表方法
蜂集采集器可以采集任意结构的网页,包括分页列表。然而蜂集采集列表的方式和大多数的采集器并不一样,因此这里写一篇教程教大家如何去采集带有分页的列表页,希望本教程对你有帮助。
以网址为例,该网页下面有翻页导航,如下图:
想要将这个分类下面的所有的文章都采集过来,必须要采集每一个分页。蜂集采集器没有显示的翻页功能,但它的链接发现机制却能完美实现自动翻页的功能。
在规则编辑器的列表规则中可以写规则对页面上的链接进行匹配过滤,翻页的实现就是靠这些规则。
首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:
填写完了之后,我们将测试的链接填入到文章测试地址中进行测试抓取,结果如下图:
可以发现,我们已经完美匹配到了分页链接。
接下来还需要匹配文章列表。我们再次分析列表链接的特征,所有的列表中都包含“html”,因此在网址包含中再加上html即可。由于page和html是或的关系,也就是说整个页面的链接如果含有page或者html,那么就采集入库。所以网址包含需要填上page||html(“||”表示“或”)如图所示:
再次测试如下:
测试结果显示我们采集到了文章列表和翻页地址。
当采集器抓取到这个页面的时候,会应用同样的规则获取到分页地址,这样就能获取到后面的翻页链接,直到获取所有的翻页链接。
你可能还喜欢下面这些文章
自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。然后我们的文章中包含wordpress插件这个词,自动内链插件发现了这个词,则将”wordpress插件”替换成”<a。
蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如
在本章中,我们将学习在WordPress页面中添加链接。Or link to existing account- 通过从给定列表中选择页面,添加指向现有内容页面的链接。
请查看更详细的设置教程:wordpress如何设置固定链接。保存更新后,固定链接完成,可以点入网站的文章看看是否设置成功,是数字.html结尾的链接说明设计成功。
今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是
这是一篇帮助您快速入门“蜂集采集器”的文章,如果您刚开始接触采集器,建议一定要认真仔细读本文,这将会对您迅速上手采集器大有裨益。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:
wordpress去除index.php的方法:首先登录wordpress后台;1-2-2) wordpress nginx 静态链接重写规则这样就能把 wordpress 链接中的 index.php 去掉。
wordpress去除index.php的方法:首先登录wordpress后台;RewriteRule . /wordpress/index.php [L]这样就能把 wordpress 链接中的 index.php 去掉。