蜂集采集器,一款全自动的wordpress采集插件

更新于 2024年1月15日 原创WordPress插件

imwprobot(蜂集)是一款wordpress采集插件。它能在服务端自动运行而不需要额外电脑环境以及人工监督,是一款丰富站点内容的采集神器。

蜂集简介

imwprobot(蜂集)是imwpweb开发的一款功能强大的全自动的智能采集插件。蜂集就可以采集绝大部分网页内容内容,功能强大,使用简单。

有什么功能1. 全自动无人值守,定时采集
2. 自动同步目标站的更新
3. AI自动关键词、自动摘要生成
4. 直接发布到wordpress,无需额外的接口支持
5. 正文图片和缩略图均可本地化
6. 每个任务中的文章图片均可设置独立水印
7. 采集到的内容均支持正则和css选择器替换
8. 翻译采集到的内容
可以采集哪些站1. 新闻资讯站
2. 文章范文站
3. BBS论坛
4. 博客站点
5. 资源站、下载站
支持哪些采集规则1. 正则表达式
2. XPath规则
3. JQuery选择器(CSS选择器)
代理支持1. HTTP代理
2. Socks5代理
哪些主机可以运行没有环境限制,虚拟主机都可运行
蜂集特色

简介&用法

如果不想看过多的介绍,可以直接点击右侧导航栏的 “下载安装”直接定位到下载和安装区域或者滑动到最底部进行下载。

任务页

功能模块显示蜂集所有的功能,是蜂集的主要入口。

任务列表区显示所有的任务,包括运行中的和暂停中的任务。

任务编辑区展示的是对任务进行修改,删除,查看任务下面等待采集的文章等操作。

任务状态区展示的是任务的状态,任务通常有三个状态,暂停中,运行中以及等待调度运行。等待调度的时候会展示任务还有多久开始运行。

日志区展示的是当前的采集日志,可以快速查看当前的任务运行状态,方便观测任务进度。

1.采集模块

采集模块的职责是将网页内容整理成结构化的数据。一张网页上的数据是一片文本,里面的数据是不能直接发布到wordpress的,需要提取出标题,正文,分类,图片等等信息才能发布到我们的wordpress。没错,采集模块做的事情就是根据规则提取数据

采集模块基本信息页面

四步骤导航区展示的是编写规则需要经历的四个步骤:

  1. 填写基本信息,也就是给规则起个名字。
  2. 编写列表规则,也就是提取列表页面的文章url地址。
  3. 编写内容规则,也就是提取内容页的标题,内容,分类等数据。
  4. 测试抓取,可以测试编写的规则是否正确,如果正确则可以保存,一个规则就写好了。
采集模块列表规则页面
采集模块内容规则页面

采集模块支持一些预置的过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。

发布模块

发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的字段。

任务模块

任务模块是执行的最小单元。通过添加任务模块,一个新的采集任务就完成了!

下载安装

采集器依赖wp扩展(imwpf) 和 蜂集(imwprobot)。注意:必须先安装并且启用imwpf之后才能安装蜂集采集器!(重要的事情需要加粗飘红)

第一步:下载wp扩展,通过wp后台安装并且启用。

第二步: 下载蜂集采集器,通过wp后台安装并且启用。


购买授权

实验网站建议购买一年授权,长期发展建议购买永久授权!

随着功能增加,可能随时可能涨价,购买永久授权更安心!

使用教程

教程导航:http://www.imwpweb.com/tag/imwprobot-course

视频教程:https://www.bilibili.com/video/BV1kg4y1q7pZ

附录

imwpf框架介绍

你可能还喜欢下面这些文章

蜂集采集器快速入门蜂集采集器快速入门

这是一篇帮助您快速入门“蜂集采集器”的文章,如果您刚开始接触采集器,建议一定要认真仔细读本文,这将会对您迅速上手采集器大有裨益。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:

蜂集添加自动采集任务蜂集添加自动采集任务

蜂集采集器是一款全自动的采集器,本文将介绍蜂集采集器添加自动任务。设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去

wordpress支持采集吗wordpress支持采集吗

wordpress支持采集吗?wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。首先需要安装网站采集插件,前

如何编写蜂集的采集模块如何编写蜂集的采集模块

蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如

蜂集采集器发布模块是什么蜂集采集器发布模块是什么

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

如何获取蜂集充值卡如何获取蜂集充值卡

为避免滥用,蜂集采集器每采集一次将会消耗一个采集点,新注册用户将会赠送1000点初始余额。在您的网站上添加一个指向蜂集采集器的链接,您将获得半年的使用额度,发放规则为每个月发放一次,添加连接之后,可以在微信公众号后台恢复您的站点信息,后续半年

蜂集采集器用户触发以及定时任务工作模式介绍蜂集采集器用户触发以及定时任务工作模式介绍

考虑到大量用户使用的linux面板可以很容易设置定时任务,因此在蜂集1.6.5版本增加了定时任务模式。执行周期选择1分钟,url地址填写上面给出的定时任务访问接口即可。

蜂集采集器jQuery选择器采集教程蜂集采集器jQuery选择器采集教程

//www.imwpweb.com”>imwpweb</a></div></div></body></html>使用id选择器。