蜂集设置采集分页列表方法

更新于 2025年4月19日说明书

蜂集设置采集分页列表方法

蜂集采集器可以采集任意结构的网页，包括分页列表。然而蜂集采集列表的方式和大多数的采集器并不一样，因此这里写一篇教程教大家如何去采集带有分页的列表页，希望本教程对你有帮助。

以网址为例，该网页下面有翻页导航，如下图：

想要将这个分类下面的所有的文章都采集过来，必须要采集每一个分页。蜂集采集器没有显示的翻页功能，但它的链接发现机制却能完美实现自动翻页的功能。

在规则编辑器的列表规则中可以写规则对页面上的链接进行匹配过滤，翻页的实现就是靠这些规则。

首先我们需要找到分页链接和其他链接不一样的地方，例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词，那么我们在列表规则中的链接包含框填上“page”，这样就可以采集到所有的翻页链接，如下图：

填写完了之后，我们将测试的链接填入到文章测试地址中进行测试抓取，结果如下图：

可以发现，我们已经完美匹配到了分页链接。

接下来还需要匹配文章列表。我们再次分析列表链接的特征，所有的列表中都包含“html”，因此在网址包含中再加上html即可。由于page和html是或的关系，也就是说整个页面的链接如果含有page或者html，那么就采集入库。所以网址包含需要填上page||html（“||”表示“或”）如图所示：

再次测试如下：

测试结果显示我们采集到了文章列表和翻页地址。

当采集器抓取到这个页面的时候，会应用同样的规则获取到分页地址，这样就能获取到后面的翻页链接，直到获取所有的翻页链接。

你可能还喜欢下面这些文章

本插件可以识别文章中的敏感信息，如果文章存在敏感信息，文章将会自动移动到安全的敏感隔离区，禁止任何形式的前台访问。

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面，独立设置，互不干扰。移动端首页(右)图：小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能，支持付费单章订阅、整本小说订阅模式。

什么是内链内链，顾名思义就是在同一网站域名下的内容页面之间的互相链接（自己网站的内容链接到自己网站的内部页面，也称之为站内链接）。自动内链工作原理简单来说，我们设定一些词表以及词表对应的链接，比如词是wordpress插件，链接是http

这款插件的核心功能就是一点：找出文章中的违禁词、敏感词等措辞不当的词语，替换成你设置的更合适的词或者直接替换“*”号。请注意，需要同时下载站长工具箱和违禁词屏蔽插件，安装插件时也需要两个插件同时安装。

2、自动生成的图片并非真实在磁盘中的图片，而是动态生成的，如果保存到磁盘会占用大量空间，这个空间没必要浪费，因此修改主题代码，直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

wprec利用相似度算法计算每篇文章之间的相似度，找到与当前文章最相似的一些文章，展现在文章底部作为相关文章。我们知道，相关推荐插件推荐的原理是根据当前文章的特征（文章的高权重标签），从文章库中召回相关文章，再根据相关性评分，最后选出To