蜂集采集如何进行全站采集

更新于 2025年4月19日说明书

蜂集采集如何进行全站采集

这篇文章教大家如何使用蜂集采集器制作一个全站采集模块。

全站采集是一个非常有用的采集方式，可以看作是模拟搜索引擎蜘蛛抓取，绝大多数网站都可以爬完整站。

工作方式

可以看下面的示意图。以首页为入口。

蜂集采集在首页可以发现【链接一】、【链接二】、【链接三】。

采集器将会把这三个链接放入抓取队列，意思就是这三个链接排队等候抓取。

接下来采集器从队列中取出【链接一】，这时候可以抓取到【文章一】，同时采集器又能从文章一中发现【链接四】，因此把【链接四】又放入采集队列。

采集器就是不断这样操作，最终可以抓取整个站点的链接。

如果对编程知识有点了解的朋友，应该知道这就是典型的广度优先搜索。通过广度优先搜索，可以很方便遍历整个站点，达到整站抓取的目的。

采集模块编写

一、写列表规则

想要抓取全站，就需要一个能够不断获取站内链接的列表页规则。

列表规则默认会获取当前页面上所有的链接，这点很重要！

再说一下，列表规则在不填写任何字段的情况下，会自动获取页面上所有的链接，无论是内部链接还是外部链接，都会获取。

我们需要做的就是通过规则把外部链接剔除掉！不然抓取的就是全网的页面了！（变成搜索引擎了）

以lz13为例，它所有的文章链接都以.html结尾，所以我们的网址包含规则里写上.html。

同时，我们还需要限制采集器只在采集这个网站的内部链接，因此网址还需要包含lz13.cn。

规则就是 .html&&lz13.cn

这里的&&表示且，意思就是一个链接需要同时满足这两个条件才会被匹配到。

抓取全站的重点就在于终止列表获取这个选项，不勾选表示所有的地址都会使用这个规则，这样就能源源不断获取新的链接，达到抓取全站的目的。

再说一遍，如果需要抓取全站，就不要勾选终止列表获取！

比如我们使用首页测试一下抓取，可以看到下面抓取了很多链接

我们再用内部文章页面测试抓取，可以看到下面依然有新的链接

二、设置正文规则

现在有更好写的JQuery规则，非常容易使用。

如果你懂XPath或者正则（jQuery可能比这两个都更容易使用），那么写一个抓取正文的规则是一件很容易的事情。这里以XPath为例。

如果你会XPath，那么可以看到下面的正文实际上是被PostContent这个class包住，那么XPath长这样 //*[@class=”PostContent”]（如果你用jQuery，那么JQuery表达式就是是 .PostContent）。

如果不会，可以直接从浏览器复制xpath，长得可能不太一样。具体方法可以参考：如何利用浏览器复制XPath

如果要查看jQuery表达式如何使用，可以参考蜂集采集器jQuery选择器采集教程

其他的字段同理可以这样获取，设置好抓取规则，添加任务，运行起来就可以抓取全站了！

小福利

为了让大家更好地理解如何做全站采集，这里把上面做的采集规则分享出来，大家可以去网盘下载。

地址 https://pan.baidu.com/s/1TjgMPCXGvJfC9aQqRZNSNw

密码 r7rg

如果链接过期，可以加群175991304，找群主获取即可！

你可能还喜欢下面这些文章

Auditor：WordPress 文章内容安全审核插件

本插件可以识别文章中的敏感信息，如果文章存在敏感信息，文章将会自动移动到安全的敏感隔离区，禁止任何形式的前台访问。

WordPress小说主题wpnovo，支持多语言、付费阅读、VIP会员功能的精美小说模板

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面，独立设置，互不干扰。移动端首页(右)图：小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能，支持付费单章订阅、整本小说订阅模式。

WordPress自动内链插件 WPKAL ，网站全自动增加锚链接必备插件

什么是内链内链，顾名思义就是在同一网站域名下的内容页面之间的互相链接（自己网站的内容链接到自己网站的内部页面，也称之为站内链接）。自动内链工作原理简单来说，我们设定一些词表以及词表对应的链接，比如词是wordpress插件，链接是http

WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载

这款插件的核心功能就是一点：找出文章中的违禁词、敏感词等措辞不当的词语，替换成你设置的更合适的词或者直接替换“*”号。请注意，需要同时下载站长工具箱和违禁词屏蔽插件，安装插件时也需要两个插件同时安装。

WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载

2、自动生成的图片并非真实在磁盘中的图片，而是动态生成的，如果保存到磁盘会占用大量空间，这个空间没必要浪费，因此修改主题代码，直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

WordPress 相关文章插件 wprec

wprec利用相似度算法计算每篇文章之间的相似度，找到与当前文章最相似的一些文章，展现在文章底部作为相关文章。我们知道，相关推荐插件推荐的原理是根据当前文章的特征（文章的高权重标签），从文章库中召回相关文章，再根据相关性评分，最后选出To

蜂集采集如何进行全站采集

工作方式

采集模块编写

产品中心

服务支持

关于我们