蜂集设置采集分页列表方法

更新于 2023年10月5日 说明书

蜂集采集器可以采集任意结构的网页,包括分页列表。然而蜂集采集列表的方式和大多数的采集器并不一样,因此这里写一篇教程教大家如何去采集带有分页的列表页,希望本教程对你有帮助。

以网址为例,该网页下面有翻页导航,如下图:

想要将这个分类下面的所有的文章都采集过来,必须要采集每一个分页。蜂集采集器没有显示的翻页功能,但它的链接发现机制却能完美实现自动翻页的功能。

在规则编辑器的列表规则中可以写规则对页面上的链接进行匹配过滤,翻页的实现就是靠这些规则。

首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:

填写完了之后,我们将测试的链接填入到文章测试地址中进行测试抓取,结果如下图:

可以发现,我们已经完美匹配到了分页链接。

接下来还需要匹配文章列表。我们再次分析列表链接的特征,所有的列表中都包含“html”,因此在网址包含中再加上html即可。由于page和html是或的关系,也就是说整个页面的链接如果含有page或者html,那么就采集入库。所以网址包含需要填上page||html(“||”表示“或”)如图所示:

再次测试如下:

测试结果显示我们采集到了文章列表和翻页地址。

当采集器抓取到这个页面的时候,会应用同样的规则获取到分页地址,这样就能获取到后面的翻页链接,直到获取所有的翻页链接。

你可能还喜欢下面这些文章

WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。

如何编写蜂集的采集模块如何编写蜂集的采集模块

测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到

WordPress 添加链接WordPress 添加链接

在本章中,我们将学习在WordPress页面中添加链接。以下是在WordPress中添加链接的简单步骤。在WordPress中创建的页面列表将显示如下所示的屏幕。在这里,我们将在关于我们页面中添加链接。

wordpress怎么设置固定链接wordpress怎么设置固定链接

请查看更详细的设置教程:wordpress如何设置固定链接。登录wordpress后台,点击后台设置栏目下的“固定链接”按钮。wordpress提供了6种链接形式供我们选择。

蜂集采集如何进行全站采集蜂集采集如何进行全站采集

比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接我们再用内部文章页面测试抓取,可以看到下面依然有新的链接第二步:设置正文规则如果你懂XPath或者正则,那么写一个抓取正文的规则是一件很容易的事情。

蜂集采集器快速入门蜂集采集器快速入门

如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。

wordpress去除index.php的方法wordpress去除index.php的方法

wordpress去除index.php的方法:首先登录wordpress后台。wordpress去掉index.php的方法主要有两个步骤:1-1)。/wordpress/index.php。

wordpress去除index.php的方法wordpress去除index.php的方法

wordpress去除index.php的方法:首先登录wordpress后台。wordpress设置固定链接登录wordpress后台,依次选择‘设置/固定链接,在出现的页面中,选择‘自定义结构’,然后根据你的情况,设置好链接。/wordp