蜂集采集器视频逐字稿

更新于 2020年6月16日 未分类

欢迎使用蜂集采集器,现在给大家分享蜂集采集器的使用教程。

一个完整的采集需要采集模块、发布模块和任务组成。首先,我们添加一个采集模块。

蜂集在安装的时候自带一个通用网页采集模块,新手可以从修改通用网页采集模块开始。

基本信息这里有规则名称,默认不需要修改。

下一步是列表规则,列表规则是我们获取文章列表的规则,这里以lz13为例子,我们采集它里面的所有文章,

打开目标采集站,打开调试模式,windows按f12,mac按command+option+i,可以看到它里面的链接规律是以html结尾,那我我们就在网址包含里面写上.html,为了不采集器到外站的地址,我们还可以添加一个限制,让采集到的链接里面包含域名,通过两个and符号组合就可以达到目的。

接下来我们添加内容规则。

蜂集采集器内置了wordpress的主要字段,先从文章标题开始,打开目标采集站,打开文章页面,打开调试模式,可以看到它的标题是h2,但是需要确认一下这个页面是不是只有一个h2,打开源代码,搜索h2,可以发现这个页面有多个h2,搜索一下h1,发现只有一个h1,正好是我们所需要的标题,于是标题部分不需要修改。

现在匹配一下正文这部分,蜂集可以自动适配大部分的正文内容,如果不是特别难匹配的页面,这里可以选择智能获取。

接下来是分类页面,还是打开目标站点的调试模式,可以看到分类的规则是分类后面的字符,规则可以这样写。

都弄好了之后就可以找一个页面测试一下。

复制首页链接,看看抓取的链接是什么。

再复制一下正文链接,看看抓取的内容是否符合预期。可以看到,基本符合预期,那么就可以保存了。

接下来介绍一下发布模块,发布模块是将采集到的字段转换成wordpress的发布字段的步骤。蜂集采集器内置了一个默认的发布规则,发布普通文章可以不用修改,直接使用这个默认规则。

接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。

回到任务列表,点击手动执行,可以看到任务已经在执行了,如果我们不离开这个页面,任务将会一直执行下去。现在我们可以去看看采集到的文章,可以看到文章已经入库了。现在已经没问题了,我们可以点击开始,任务将会在后台执行。

进入文章,可以看到任务已经再后台自动运行了。

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏