蜂集采集器快速入门

更新于 2021年1月24日 说明书

这是一篇帮助您快速入门“蜂集采集器”的文章,如果您刚开始接触采集器,建议一定要认真仔细读本文,这将会对您迅速上手采集器大有裨益。

一.注册

首先您需要安装wp扩展蜂集两个插件,安装完毕之后您需要在“蜂集”里注册账户才能开始使用。注册流程十分简单,如下图:

点击注册链接会到达如下界面:

如果这个页面上的红字(验证码)加载不出来,可能的原因是:您的主机关闭了allow_url_fopen,请开启之后重试。如果allow_url_fopen打开还是无效,那么请加群(175991304)寻求帮助!

二.如何开始采集

完成注册账户后,您就能在任务列表中看到一个系统自带的采集任务,如下:

内置这个采集任务是为了帮助您更好地理解采集流程。您现在看到的任务状态是“暂停中”,当点击“开始”的时候,任务会自动在后台运行。

现在您可以尝试把鼠标放在任务标题下方,点击“执行一次”。

浏览器稍后会弹出“触发成功”的提示框,表示这个采集任务已成功触发一次。如下图:

同时右侧的日志框会显示出采集的状态,根据日志内容您就可以判断采集是否成功。

此时返回wordpress文章界面,如果您看到了刚才采集到的文章,那么恭喜您获得了“第一次采集”成就勋章!

三.采集任务的构成部分

在蜂集插件中“采集任务”是由任务信息采集模块发布模块组成的可执行任务。

任务信息包含任务名称、第一次抓取的入口url、抓取之后的文章发布状态、任务状态等。

采集模块包含一系列的匹配规则,告诉采集器应该抓取哪些网页里面的哪些成分

发布模块则是告诉采集器如何去发布之前采集到的内容。

您可以在任务列表中的任务标题下找到编辑链接。点击编辑之后,界面如下:

任务名称可以按照您的心情任意填写。入口url指的是这个任务第一次执行采集的页面。每个任务都存在一个入口,采集器可以通过设置的入口和采集规则里面的列表规则来找到你想要采集的网页。

四.开始自己写一个采集任务

采集网页就和认识朋友一样。当您有一个朋友叫张三,那么您就可以通过张三去认识他的朋友李四,王五。当您认识李四王五的时候,又可以通过李四王五认识他们的朋友,通过这种关系,理论上您可以认识世界上所有人。

采集网页也是如此,通过入口url可以找到这个页面上其他的链接,通过访问这些链接,又可以找到这些链接所在页面的其他链接,最终整个网站的链接都可以被发现。

这就是蜂集采集器采集链接的原理。

现在您可以尝试写一个简单的采集任务。这个任务采集的网站可以是一个文章站,新文章等。任务非常简单,一起跟着教程来完成吧!

在添加任务之前,我们通常会写好采集模块和发布模块。点击添加文章采集模块,进入到模块编写界面。

首先填写规则名称,随便起一个名称就可以,只要您能识别出来这个采集模块是采集采集哪种网站即可。如下图:

填写之后点击“列表规则”,开始编写我们的列表规则。还记得上面我们说的,采集网页就和认识朋友一样吗?如果我们愿意,我们甚至可以通过一个人认识整个世界人,但实际上,我们一定不愿意这样做,我们只会认识我们想认识的人。

这里的列表规则的作用也和认识朋友一样,我们只想采集我们想要采集的内容。列表规则的作用是限制链接的匹配。通过网址包含,网址不包含,标题包含,标题不包含,标题最大长度,标题最小长度这些规则去过滤我们找到的链接。这就好比我们认识朋友也会通过年龄,性别,做什么工作等等一系列的规则去过滤我们所认识的人一样。

由于我们写的是一个最简单的采集模块,那么这里我们就不限制了,把所有的链接都采集过来,因此这一步可以什么都不用改。

接下来点击“内容规则”,我们就进入到内容规则的编写区域了。内容规则的作用是告诉采集器要采集网页上的哪些组成部分。采集器内置了标题,内容,分类,标签,作者,缩略图这几个常见的标签,他们和wordpress的文章组成部分是对应的。如果没有特殊需要,不用增加标签。

由于我们写的是一个最简单的采集模块,因此我们不会去做过多的改动。点击“content”标签,将只能获取正文选择“是”(和上图一样)

我们只需要改动这一项即可!

接下来点击测试抓取,测试抓取的目的是为了验证我们的规则采集到的内容是否符合我们的要求。由于我们写的是一个最简单的采集模块,因此我们期望的是能采集到内容就可以。

现在输入一个网站,这个网站可以是任意的文章站点,我随意找了一个网站,输入首页的网址,如下图:

可以看到,我们抓取到了很多链接。这些链接就是采集器自动发现的链接。我们拿一个文章的页面去测试,如下图:

可以看到,标题和正文都能采集到,同时又发现了一些链接(回想一下我们认识朋友的过程)。

点击提交,我们写的最简单的采集模块已经完成了!同时在采集模块中也可以发现多了一项,

到目前为止,我们完成了采集模块。接下来开始写一个发布模块。发布模块编写就更简单了。

点击蜂集菜单栏的发布模块,点击新建文章发布模块按钮,如下图:

点击添加文章发布模块之后,进入发布模块编辑器:

模块名称可以任意填写,并且这些模块可以和很多任务共用,这里我写了“一个通用的文章发布模块”。

接下来点击“规则”来编写我们的发布规则。还记得之前我们采集的时候,有一个title标签吗,发布规则就是将wordpress中的字段和标签对应起来!下图中,wordpress中的标题对应了采集的标签“title”,对应好之后,采集器就知道要把title发布到哪儿了。

每一个字段都有必须包含,不能包含和最小长度这几种限制。默认限制最小长度为1的目的为了防止发布空的标题和正文。

这部分都可以使用默认值,不需要改动,我们直接保存即可。现在发布模块中已经能看到我们刚才新建的发布模块。如下图:

现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:

填写完毕之后,点击提交即可。现在我们已经有了一个采集任务,如下图

现在的任务状态是暂停中。通常我们会在建立任务的时候选择暂停,因为任务采集的内容可能不符合我们的预期,因此需要对任务进行微调。为了避免刚建立完就运行,采集一堆不符合要求的内容,最好的方式是任务刚开始选择暂停,手动去触发。

还记得上面提到的手动触发采集吗?忘记的同学可以向上滚动网页查看。我们点击“执行一次”,在右侧的日志窗口可以看见刚才的执行状态。我点击了两次,看到下面的有两条日志,如下:

这个会提示发布条件不通过,后面的提示是:

post_title 应该满足 {"include":"","exclude":"","min_len":"1"}

还记得我们刚才说的标题的最小长度吗?只有标题最小长度为1的情况下才会发布为文章。现在采集的是首页,因此没有文章标题和内容,不会发布成文章。当然,现在采集的页面的主要目的是为了找到更多的文章链接。

我们可以多点击几次,知道采集到有内容的正文页,如下

这个时候,可以去wordpress的文章中查看我们刚才采集到的内容。这就是我们刚才采集到的内容:

到现在位置,您应该学会如何创建采集模块,发布模块和任务,也学会如何去执行任务了。

想要学会写更复杂的规则,建议您了解xpath和正则表达式。

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏