蜂集采集如何进行全站采集

更新于 2020年12月7日 说明书

今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~

话不多说,我们开始吧!

第一步:设置列表规则

想要抓取全站,就需要一个能够不断获取站内链接的列表页规则。一般来说,一个好的网站是利于蜘蛛抓取的,通过一个入口就可以找到站点内所有的文章链接,因此列表页的规则就是匹配文章地址。

列表规则默认会获取当前页面上所有的链接,我们需要做的就是通过一系列的规则把需要的网址提取出来,不需要的网址剔除掉。

以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是.html&&lz13.cn。这里的&&表示且,意思就是一个链接需要同时满足这两个条件才会被匹配到。

抓取全站的重点就在于终止列表获取这个选项,不勾选表示所有的地址都会使用这个规则,这样就能源源不断获取新的链接,达到抓取全站的目的。

比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接

我们再用内部文章页面测试抓取,可以看到下面依然有新的链接

第二步:设置正文规则

如果你懂XPath或者正则,那么写一个抓取正文的规则是一件很容易的事情。这里以XPath为例。

如果你会XPath,那么可以看到下面的正文实际上是被PostContent这个class包住,那么XPath长这样 //*[@class=”PostContent”]。如果不会,可以直接从浏览器复制xpath,长得可能不太一样。具体方法可以参考:如何利用浏览器复制XPath

其他的字段同理可以这样获取,设置好抓取规则,添加任务,运行起来就可以抓取全站了!

小福利

为了让大家更好地理解如何做全站采集,这里把上面做的采集规则分享出来,大家可以去网盘下载。

地址 https://pan.baidu.com/s/1TjgMPCXGvJfC9aQqRZNSNw

密码 r7rg

如果链接过期,可以加群175991304,找群主获取即可!

你可能还喜欢下面这些文章

蜂集采集器2.4版本发布蜂集采集器2.4版本发布

这次发布增加了一些非常有用的功能。 采集模块增加了翻译功能,目前支持中英互译,如下图: 增加一种新的发布模板变量格式 增加了发布模块和采集模块的宽度,以减少输入框的拥挤。

wordpress支持采集吗wordpress支持采集吗

wordpress支持采集吗? wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。 首先需要安装网站采集插件,前往imwprobot(蜂集)可以下载,注意需要安装两个插件哦~

蜂集采集器,一款全自动的wordpress采集插件蜂集采集器,一款全自动的wordpress采集插件

imwprobot(蜂集)是一款wordpress采集插件。 有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略图均可本地化6. 每个任务中的文章图片均可设置独立水印7. 采集到的内容均支持正则和css选择器替换可以采集哪些站1. 新闻资讯站2. 文章范文站3. BBS论坛4. 博客站点5. 资源站、下载站支持哪些采集规则1. 正则表达式2. XPath规则3. JQuery选择器(CSS选择器)代理支持1. HTTP代理 2. Socks5代理 哪些主机可以运行没有环境限制,虚拟主机都可以运行蜂集特色

蜂集采集器视频逐字稿蜂集采集器视频逐字稿

欢迎使用蜂集采集器,现在给大家分享蜂集采集器的使用教程。 接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。

imwpcache如何使用ssi技术在所有页面展示最新文章imwpcache如何使用ssi技术在所有页面展示最新文章

前段时间有个朋友说用了缓存插件之后蜘蛛抓取变少了。 当使用缓存之后,所有的页面都是静态的,发了新的文章之后不会在旧的页面的侧边栏展示。 为了解决这个问题,imwpcache使用ssi技术来展示最新文章。 第一步:缓存后台开始SSI

蜂集采集器如何开启进程模式蜂集采集器如何开启进程模式

从1.3.6.2之前,运行模式是用户访问或者蜘蛛访问会触发采集,不过对于没有用户访问的新站来说这并不友好,于是后续的版本的蜂集增加了进程模式! 当前的进程在windows和linux上均可使用,不过windows上没有测试,可能会存在一些问题,如果有问题的话请先停止进程并且将蜂集的采集模式改回用户触发,然后向作者反馈。

蜂集采集插件如何注册账户蜂集采集插件如何注册账户

蜂集采集器是一款wordpress下全自动采集插件,如果您还没有下载,可以去蜂集采集器页面下载该插件。 注册账户之后,您将会得到api key,api token, api secret这三个信息。

蜂集设置采集分页列表方法蜂集设置采集分页列表方法

蜂集采集器可以采集任意结构的网页,包括分页列表。 首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏