发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。
在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。
考虑到大量用户使用的linux面板可以很容易设置定时任务,因此在蜂集1.6.5版本增加了定时任务模式。
执行周期选择1分钟,url地址填写上面给出的定时任务访问接口即可。
从1.5.0版本开始,蜂集可以使用JQuery选择器采集网页内容啦!
元素:last$("p:last")最后一个 <
:animated
所有动画元素
通常情况下,采集到的内容不一定符合我们的要求,需要对数据进行一些加工才能使用。
使用蜂集的可以进行任意关键词替换。
内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。
蜂集采集器可以采集任意结构的网页,包括分页列表。
首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:
使用XPath采集网页中的内容是一件十分简单的事情,这里介绍两种xpath的写法——使用id提取网页中的内容和使用class提取网页中的内容。
如果你看过网页源代码,那么就会发现,网页中内容一般由带有id或者class的div包围,而XPath就可以将这些被div包围着的内容全部匹配出来。
这是一篇帮助您快速入门“蜂集采集器”的文章,如果您刚开始接触采集器,建议一定要认真仔细读本文,这将会对您迅速上手采集器大有裨益。
现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:
今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~
以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是.html&
从1.3.6.2之前,运行模式是用户访问或者蜘蛛访问会触发采集,不过对于没有用户访问的新站来说这并不友好,于是后续的版本的蜂集增加了进程模式!
当前的进程在windows和linux上均可使用,不过windows上没有测试,可能会存在一些问题,如果有问题的话请先停止进程并且将蜂集的采集模式改回用户触发,然后向作者反馈。
蜂集采集器现在内置了一个非常方便的匹配规则——XPath!
XPath的方便之处就在于可以用浏览器直接提取出来。
如何用浏览器提取XPath
到此,你就学会了使用浏览器提取xpath方法。
蜂集采集器是一款全自动的采集器,本文将介绍蜂集采集器添加自动任务。
设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态
蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。
当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图: