蜂集设置采集分页列表方法
蜂集采集器可以采集任意结构的网页,包括分页列表。然而蜂集采集列表的方式和大多数的采集器并不一样,因此这里写一篇教程教大家如何去采集带有分页的列表页,希望本教程对你有帮助。
以网址 http://www.xuexiezuowen.com/zuowen/gaozhong/gaoyi 为例,该网页下面有翻页导航,如下图:

想要将这个分类下面的所有的文章都采集过来,必须要采集每一个分页。蜂集采集器没有显示的翻页功能,但它的链接发现机制却能完美实现自动翻页的功能。
在规则编辑器的列表规则中可以写规则对页面上的链接进行匹配过滤,翻页的实现就是靠这些规则。
首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:

填写完了之后,我们将测试的链接填入到文章测试地址中进行测试抓取,结果如下图:

可以发现,我们已经完美匹配到了分页链接。
接下来还需要匹配文章列表。我们再次分析列表链接的特征,所有的列表中都包含“html”,因此在网址包含中再加上html即可。由于page和html是或的关系,也就是说整个页面的链接如果含有page或者html,那么就采集入库。所以网址包含需要填上page||html(“||”表示“或”)如图所示:

再次测试如下:

测试结果显示我们采集到了文章列表和翻页地址。
当采集器抓取到 http://www.xuexiezuowen.com/zuowen/gaozhong/gaoyi/page/2 这个页面的时候,会应用同样的规则获取到分页地址,这样就能获取到后面的翻页链接,直到获取所有的翻页链接。
你可能还喜欢下面这些文章

imwprobot(蜂集)是一款wordpress采集插件。 有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略图均可本地化6. 每个任务中的文章图片均可设置独立水印7. 采集到的内容均支持正则和css选择器替换可以采集哪些站1. 新闻资讯站2. 文章范文站3. BBS论坛4. 博客站点5. 资源站、下载站支持哪些采集规则1. 正则表达式2. XPath规则3. JQuery选择器(CSS选择器)代理支持1. HTTP代理 2. Socks5代理 哪些主机可以运行没有环境限制,虚拟主机都可以运行蜂集特色

插件可根据导入的关键词,自动从设定的数据源采集并组合数据。后台截图功能介绍多数据源采集支持任意多个数据源组合采集。采集的内容可顺序或者随机组合成一篇文章多种数据查找算法根据数据源特性,可选择第一篇或者随机选择。无需规则采集无需写规则,自动从数据源提取数据。

文章发布时候可自动将文章推送到多个搜索引擎,蜘蛛访问更勤。 当您安装插件时已经存在许多文章时,可使用推送历史文章批量推送到搜索引擎。 记录每种搜索引擎每天的推送数量,可以图表展示。

欢迎使用WordPress自动图片插件。 进入正文图选项,开启文章配图,如下: 这个设置稍微麻烦一点,如果您是WordPress资深用户且不希望配图消耗磁盘空间,建议尝试使用该高级特性。

请查看更详细的设置教程:wordpress如何设置固定链接。 保存更新后,固定链接完成,可以点入网站的文章看看是否设置成功,是数字.html结尾的链接说明设计成功。

本文介绍一下wordpress开启多站点以及开启多站点之后nginx的配置。 rewrite (.*) $1/index.php; rewrite (.*) /index.php;

在本章中,我们将研究WordPress中的Reading Settings。 您可以设置要在主页上显示的帖子数。 步骤(2) – 读取设置页面如下所示显示。 Blog pages show at most(博客页面最多显示) – 每页或网站要显示的帖子数。

Other Comment Settings(其他评论设置) – 此设置有以下选项 – Before a comment appears(在发表评论之前) – 此设置允许您如何控制帖子。
微信赞赏
支付宝赞赏