如何编写蜂集的采集模块

更新于 2025年4月18日说明书

如何编写蜂集的采集模块

蜂集采集是一款全自动的wordpress采集插件，如果还没有下载，可以去蜂集采集下载页面去下载。想要采集，首先从添加采集模块开始，本文将介绍蜂集采集器如何添加采集模块！

安装蜂集采集器后，后台将会新增一个名为“蜂集”的菜单。依次进入 蜂集 -> 采集模块 中，点击“添加文章采集模块”按钮来创建一个新的采集模块。

一个完整的采集模块需要设定：基本信息、列表规则、内容规则。

设置基本信息

基本信息由规则名称和网页完整性检测两个填写项，如下图

规则名称为必填项，这里以采集腾讯新闻为例子。规则名称填写腾讯新闻采集，网页完整性检测是为了确保下载的网页是完整的，避免采集失败。一般情况下不用填写，如果您发现采集的时候很多网页都没采集到内容，那么你需要在网页完整性检测中填写</html>或者网页最后面一些标志性文本。 简单来说，一般不填，出现经常网页采集不完整填写

编辑列表规则

点击列表规则,进入列表规则编辑栏。列表规则的作用是收集一些内容页面的链接供我们后续采集。

以腾讯新闻为例子，我们用chrome打开腾讯新闻的首页 www.qq.com。

打开网页之后，再打开chrome的开发者工具（windows通过按F12或者ctrl+shift+i，MAC通过cmd+option+i打开）点击开发者工具左上角的小箭头，然后把鼠标放在你想要采集的链接上，你就能看到这片链接所处的区域和格式了。

我们发现列表页里面链接的特点，发现新闻链接都包含new.qq.com和html，我们可以在网址包含里面写上 new.qq.com&&html，意思是同时包含new.qq.com和html。如果我们只需要采集入口页面的地址，那么可以勾选终止列表获取，这样这个规则就不会对下一级的网页生效。网址区域大部分情况下可以不用填写，一般来说使用网址包含/不包含，标题包含/不包含足够覆盖大部分场景，如果场景必须要填写网址区域，那么此处的网址区域是一个正则表达式。

最终效果如下图，请根据图填写在你的采集规则中

接下来可以测试一下链接获取是不是正确。点击抓取测试，然后填上文章测试地址，这里填写https://www.qq.com，由于这个是我们的入口页面，因此层级为0（注意，层级从0开始，从0级页面上获取到的页面层级为1，从层级为1的页面获取到的地址层级为2，以此类推…）。

填写之后点击抓取测试，你应该可以看到下面获取到的链接和标题了，如下图。

编辑内容规则

我们最终都需要采集内容，因此内容规则关系到我们采集的内容。下图中，内容规则的左侧是采集的字段名称，默认涵盖了wordpress的文章基本信息字段，title为文章标题，content为文章内容，category为文章分类，tag为文章标签，author为文章作者。

采集标题: title

标题用h1匹配，系统已经给了你默认值，大多数情况可以不用更改，使用系统默认的即可。如下图

如果网页的标题不是h1，可以使用多种方式去匹配您需要的内容，蜂集支持使用正则，xpath，固定字符这三种方式。

采集正文：content

conten可以使用自动获取正文的方式，该方式可以智能分析网页中的正文，自动获取，蜂集采集器默认已经将该选项设置为是，如下图：

一般情况下，以文本为主的网站大多可以使用智能获取正文来抓取正文，如果只能获取抓取不到，您还可以使用正则，xpath来获取。

如果此时用正则或者xpath，那么请把智能获取正文选择为否，否则下面的规则不会生效

同样的方式，您还需要设置category, tag, author 这三个，这里就不再赘述。

测试采集

当所有的规则都编写完毕之后，我们需要验证一下采集器是不是可以根据该规则正确采集，进入测试抓取Tab，填写链接和页面层级，点击抓取测试，查看效果，如下图：

如果对采集器有使用上的疑惑，可以到蜂集采集交流群（群号在采集器的关于我们中可以找到）进行交流。

你可能还喜欢下面这些文章

Auditor：WordPress 文章内容安全审核插件

Auditor：WordPress 文章内容安全审核插件

本插件可以识别文章中的敏感信息，如果文章存在敏感信息，文章将会自动移动到安全的敏感隔离区，禁止任何形式的前台访问。

WordPress小说主题wpnovo，支持多语言、付费阅读、VIP会员功能的精美小说模板

WordPress小说主题wpnovo，支持多语言、付费阅读、VIP会员功能的精美小说模板

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面，独立设置，互不干扰。移动端首页(右)图：小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能，支持付费单章订阅、整本小说订阅模式。

WordPress自动内链插件 WPKAL ，网站全自动增加锚链接必备插件

WordPress自动内链插件 WPKAL ，网站全自动增加锚链接必备插件

什么是内链内链，顾名思义就是在同一网站域名下的内容页面之间的互相链接（自己网站的内容链接到自己网站的内部页面，也称之为站内链接）。自动内链工作原理简单来说，我们设定一些词表以及词表对应的链接，比如词是wordpress插件，链接是http

WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载

WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载

这款插件的核心功能就是一点：找出文章中的违禁词、敏感词等措辞不当的词语，替换成你设置的更合适的词或者直接替换“*”号。请注意，需要同时下载站长工具箱和违禁词屏蔽插件，安装插件时也需要两个插件同时安装。

WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载

WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载

2、自动生成的图片并非真实在磁盘中的图片，而是动态生成的，如果保存到磁盘会占用大量空间，这个空间没必要浪费，因此修改主题代码，直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

WordPress 相关文章插件 wprec

WordPress 相关文章插件 wprec

wprec利用相似度算法计算每篇文章之间的相似度，找到与当前文章最相似的一些文章，展现在文章底部作为相关文章。我们知道，相关推荐插件推荐的原理是根据当前文章的特征（文章的高权重标签），从文章库中召回相关文章，再根据相关性评分，最后选出To