蜂集采集器发布模块教程

更新于 2021年7月31日 说明书

发布模块是什么

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。

为什么要这么做?我举几个例子。

例子一:我们采集的时候可能会有title、content等字段。title字段采集标题,content字段采集内容。然而在wordpress中,标题和内容并不是title和content字段。因此需要有一个转换规则将title和content转换成标题和正文字段。

例子二:有时候我们希望正文是源网页中很多部分拼接起来,比如源站点中存在下载地址,而我们采集的时候想要将下载地址加入到正文中。这个时候采集的时候就需要content和download两个字段保存正文和下载地址,而发布的时候则需要将这两个字段合并到正文字段。

发布模块的拦截功能

发布模块另一个重要的作用在于根据条件拦截发布。举几个例子。

例子一:比如我们不希望采集到的空的文章,就可以使用最小长度来拦截这种文章被采集到。比如设置最小长度为10,那么源站中正文长度小于10的文章都不会被采集到。

例子二:我们不希望采集的内容包含某些词汇(可能是一些违禁词或者广告词),那么可以在不能包含中设置不能包含的词汇。这样源站点中包含我们设置的词汇的文章就不会被采集下来。

默认发布模块是什么?

很多时候,我们并不需要那么复杂的规则,只需要设置一些简单的分类和作者信息即可。这个场景下每个任务新建一个发布规则显得太复杂,因此任务中有一个默认发布模块。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

默认发布模块的分类可以是采集中的分类,也可以是任务中设置的分类。

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏