蜂集采集器,一款全自动的wordpress采集插件

更新于 2021年4月17日 原创插件

imwprobot(蜂集)是一款wordpress采集插件,它在服务端自动运行,不需要本地机器以及人工监督,是丰富站点内容必备的一款采集神器。

蜂集简介

imwprobot(蜂集)是imwpweb开发的一款功能强大的全自动的智能采集插件。蜂集就可以采集绝大部分网页内容内容,功能强大,使用简单。

采集特色1. 定时采集
2. 可同步源站更新
3. 全自动无人值守
4. AI自动关键词、自动摘要生成
发布特色1. 直接发布到wordpress
2. 正文图片和缩略图均可本地化
采集目标1. 绝大部分网页
2. 绝大部分网站程序
采集方式1. 正则表达式
2. XPath规则
3. JQuery选择器
代理支持1. HTTP代理
2. Socks5代理
蜂集特色

蜂集优势

  1. 直接在wordpress中运行,不需要额外的服务器,虚拟主机都可以运行!
  2. 定制好规则后,可以全自动工作,无需人工干预。
  3. 智能正文提取算法,能够自动识别大部分网页的正文内容。
  4. 智能提取标签和正文摘要。
  5. 强大的匹配器和过滤器,能够极大限度整理网页重的内容
  6. 自动修复网页中错乱的html,采集下来的内容一定是正确的html。
  7. 图片本地化,网页中的图片自动下载到本地。
  8. 采集到的文章直接发布到Wordpress,不需要额外的发布接口

如果不想看过多的介绍,可以直接点击右侧导航栏的 “下载&安装”直接定位到下载和安装区域或者滑动到最底部进行下载。

简介&用法

任务页

功能模块显示蜂集所有的功能,是蜂集的主要入口。

任务列表区显示所有的任务,包括运行中的和暂停中的任务。

任务编辑区展示的是对任务进行修改,删除,查看任务下面等待采集的文章等操作。

任务状态区展示的是任务的状态,任务通常有三个状态,暂停中,运行中以及等待调度运行。等待调度的时候会展示任务还有多久开始运行。

日志区展示的是当前的采集日志,可以快速查看当前的任务运行状态,方便观测任务进度。

1.采集模块

采集模块的职责是将网页内容整理成结构化的数据。一张网页上的数据是一片文本,里面的数据是不能直接发布到wordpress的,需要提取出标题,正文,分类,图片等等信息才能发布到我们的wordpress。没错,采集模块做的事情就是根据规则提取数据

采集模块基本信息页面

四步骤导航区展示的是编写规则需要经历的四个步骤:

  1. 填写基本信息,也就是给规则起个名字。
  2. 编写列表规则,也就是提取列表页面的文章url地址。
  3. 编写内容规则,也就是提取内容页的标题,内容,分类等数据。
  4. 测试抓取,可以测试编写的规则是否正确,如果正确则可以保存,一个规则就写好了。
采集模块列表规则页面
采集模块内容规则页面

采集模块支持一些预置的过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。

发布模块

发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的字段。

任务模块

任务模块是执行的最小单元。通过添加任务模块,一个新的采集任务就完成了!

下载&安装

采集器依赖wp扩展(imwpf) 和 蜂集(imwprobot)。注意:必须先安装并且启用imwpf之后才能安装蜂集采集器!(重要的事情需要加粗飘红)

第一步:下载wp扩展,通过wp后台安装并且启用。

第二步: 下载蜂集采集器,通过wp后台安装并且启用。

使用教程

教程导航:http://www.imwpweb.com/tag/imwprobot-course

视频教程:https://www.bilibili.com/video/BV1kg4y1q7pZ

附录

imwpf框架介绍

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏