蜂集采集器视频逐字稿
一个完整的采集需要采集模块、发布模块和任务组成。首先,我们添加一个采集模块。
蜂集在安装的时候自带一个通用网页采集模块,新手可以从修改通用网页采集模块开始。
基本信息这里有规则名称,默认不需要修改。
下一步是列表规则,列表规则是我们获取文章列表的规则,这里以lz13为例子,我们采集它里面的所有文章,
打开目标采集站,打开调试模式,windows按f12,mac按command+option+i,可以看到它里面的链接规律是以html结尾,那我我们就在网址包含里面写上.html,为了不采集器到外站的地址,我们还可以添加一个限制,让采集到的链接里面包含域名,通过两个and符号组合就可以达到目的。
接下来我们添加内容规则。
蜂集采集器内置了wordpress的主要字段,先从文章标题开始,打开目标采集站,打开文章页面,打开调试模式,可以看到它的标题是h2,但是需要确认一下这个页面是不是只有一个h2,打开源代码,搜索h2,可以发现这个页面有多个h2,搜索一下h1,发现只有一个h1,正好是我们所需要的标题,于是标题部分不需要修改。
现在匹配一下正文这部分,蜂集可以自动适配大部分的正文内容,如果不是特别难匹配的页面,这里可以选择智能获取。
接下来是分类页面,还是打开目标站点的调试模式,可以看到分类的规则是分类后面的字符,规则可以这样写。
都弄好了之后就可以找一个页面测试一下。
复制首页链接,看看抓取的链接是什么。
再复制一下正文链接,看看抓取的内容是否符合预期。可以看到,基本符合预期,那么就可以保存了。
接下来介绍一下发布模块,发布模块是将采集到的字段转换成wordpress的发布字段的步骤。蜂集采集器内置了一个默认的发布规则,发布普通文章可以不用修改,直接使用这个默认规则。
接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。
回到任务列表,点击手动执行,可以看到任务已经在执行了,如果我们不离开这个页面,任务将会一直执行下去。现在我们可以去看看采集到的文章,可以看到文章已经入库了。现在已经没问题了,我们可以点击开始,任务将会在后台执行。
进入文章,可以看到任务已经再后台自动运行了。
你可能还喜欢下面这些文章

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

imwprobot(蜂集)是一款wordpress采集插件。有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略

wordpress支持采集吗?wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。首先需要安装网站采集插件,前

从1.3.6.2之前,运行模式是用户访问或者蜘蛛访问会触发采集,不过对于没有用户访问的新站来说这并不友好,于是后续的版本的蜂集增加了进程模式!当前的进程在windows和linux上均可使用,不过windows上没有测试,可能会存在一些问题,

今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是

让WordPress一个页面显示全部分类的文章cat=’ . $cat->php echo $cat->a href=”<$cats = get_categories(array(‘include’ =>

蜂集采集器是一款全自动的采集器,本文将介绍蜂集采集器添加自动任务。设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去