蜂集采集器,一款全自动的wordpress采集插件

更新于 2021年10月23日 原创插件

imwprobot(蜂集)是一款wordpress采集插件。它能在服务端自动运行而不需要额外电脑环境以及人工监督,是一款丰富站点内容的采集神器。

蜂集简介

imwprobot(蜂集)是imwpweb开发的一款功能强大的全自动的智能采集插件。蜂集就可以采集绝大部分网页内容内容,功能强大,使用简单。

有什么功能1. 全自动无人值守,支持定时采集
2. 可自动同步目标站的更新
3. AI自动关键词、自动摘要生成
4. 直接发布到wordpress,不需要额外的接口支持
5. 正文图片和缩略图均可本地化
6. 每个任务中的文章图片均可设置独立水印
7. 采集到的内容均支持正则和css选择器替换
可以采集哪些站1. 新闻资讯站
2. 文章范文站
3. BBS论坛
4. 博客站点
5. 资源站、下载站
支持哪些采集规则1. 正则表达式
2. XPath规则
3. JQuery选择器(CSS选择器)
代理支持1. HTTP代理
2. Socks5代理
哪些主机可以运行没有环境限制,虚拟主机都可以运行
蜂集特色

简介&用法

如果不想看过多的介绍,可以直接点击右侧导航栏的 “下载&安装”直接定位到下载和安装区域或者滑动到最底部进行下载。

任务页

功能模块显示蜂集所有的功能,是蜂集的主要入口。

任务列表区显示所有的任务,包括运行中的和暂停中的任务。

任务编辑区展示的是对任务进行修改,删除,查看任务下面等待采集的文章等操作。

任务状态区展示的是任务的状态,任务通常有三个状态,暂停中,运行中以及等待调度运行。等待调度的时候会展示任务还有多久开始运行。

日志区展示的是当前的采集日志,可以快速查看当前的任务运行状态,方便观测任务进度。

1.采集模块

采集模块的职责是将网页内容整理成结构化的数据。一张网页上的数据是一片文本,里面的数据是不能直接发布到wordpress的,需要提取出标题,正文,分类,图片等等信息才能发布到我们的wordpress。没错,采集模块做的事情就是根据规则提取数据

采集模块基本信息页面

四步骤导航区展示的是编写规则需要经历的四个步骤:

  1. 填写基本信息,也就是给规则起个名字。
  2. 编写列表规则,也就是提取列表页面的文章url地址。
  3. 编写内容规则,也就是提取内容页的标题,内容,分类等数据。
  4. 测试抓取,可以测试编写的规则是否正确,如果正确则可以保存,一个规则就写好了。
采集模块列表规则页面
采集模块内容规则页面

采集模块支持一些预置的过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。

发布模块

发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的字段。

任务模块

任务模块是执行的最小单元。通过添加任务模块,一个新的采集任务就完成了!

下载&安装

采集器依赖wp扩展(imwpf) 和 蜂集(imwprobot)。注意:必须先安装并且启用imwpf之后才能安装蜂集采集器!(重要的事情需要加粗飘红)

第一步:下载wp扩展,通过wp后台安装并且启用。

第二步: 下载蜂集采集器,通过wp后台安装并且启用。

使用教程

教程导航:http://www.imwpweb.com/tag/imwprobot-course

视频教程:https://www.bilibili.com/video/BV1kg4y1q7pZ

附录

imwpf框架介绍

你可能还喜欢下面这些文章

蜂集采集器视频逐字稿

欢迎使用蜂集采集器,现在给大家分享蜂集采集器的使用教程。 蜂集采集器内置了wordpress的主要字段,先从文章标题开始,打开目标采集站,打开文章页面,打开调试模式,可以看到它的标题是h2,但是需要确认一下这个页面是不是只有一个h2,打开源代码,搜索h2,可以发现这个页面有多个h2,搜索一下h1,发现只有一个h1,正好是我们所需要的标题,于是标题部分不需要修改。 接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。

如何编写蜂集的采集模块

蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。 如果我们只需要采集入口页面的地址,那么可以勾选终止列表获取,这样这个规则就不会对下一级的网页生效。 当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:

如何获取蜂集充值卡

为避免滥用,蜂集采集器每采集一次将会消耗一个采集点,新注册用户将会赠送1000点初始余额。 蜂集提供时长和采集点两种计费方式,如果有剩余时长,则不消耗采集点。 在您的网站上添加一个指向蜂集采集器的链接,您将获得半年的使用额度,发放规则为每个月发放一次,添加连接之后,可以在微信公众号后台恢复您的站点信息,后续半年中每个月将可以免费获取额度30天的充值码一枚。

蜂集采集插件如何注册账户

蜂集采集器是一款wordpress下全自动采集插件,如果您还没有下载,可以去蜂集采集器页面下载该插件。 注册之后,账户信息只会显示一次,您必须保存下来,如果您遗忘了,请凭您注册时候的账号名和邮箱找管理员找回(请加群:175991304) 如果您已经拥有账户,可以直接在后台填写账户,不需要重复注册。 注册账户之后,您将会得到api key,api token, api secret这三个信息。

wordpress关注微信公众号查看隐藏内容插件:北冥

北冥插件是imwpweb开发的一款关注可复制、可查看隐藏内容的插件,一款吸粉神器! 而目前市面上很多其他的大型网站都有下载app浏览全文,登陆可复制之类的限制,可见现在流量私域化已经是一个必然的趋势。 想要流量私域化,成本最低的方式就是让用户关注你的公众号,手段就是通过关注可以查看隐藏内容,复制内容。 插件提供两种吸引关注的方式。 关注可复制关注可查看隐藏内容 先下载IMWPF工具箱插件 直接在wp后台的插件页面上传即可安装。

imwpclassic 1.2.0版本计划

从1.1迭代至到1.2版本除了必要的bug修复之外,还将会计划增加下面这些功能。 PC首页模块增加 – 完成 小说被用户收藏增加计数,让用户知道这些小说被收藏了多少次。 增加针对中文排版优化 – 完成 增加采集扰乱码功能 – 完成 增加分卷导航自动生成功能 小说分卷过多会导致页面不够简洁,增加分卷导航能够让用户快速找到自己想要阅读的分卷

wordpress智能自动摘要插件:wpae

目前wordpress的摘要大多数由主题提供。 wp默认的摘要需要手工填写,截取正文前面的字符也难以体现正文的主旨。 一直以来没有一款插件可以智能提取正文的关键内容作为摘要,于是自己动手做了一个,命名为wpae(wordpress auto excerpt)。 wpae利用AI技术提取文章的重点内容作为摘要,完美解决手写摘要困难以及截取文章前若干文字太粗糙的问题。

wordpress 支付宝、微信打赏赞赏插件:imwptip

在自媒体的时代,每个人都能发表自己的观点,有人喜欢你的文章,就有可能愿意打赏你的文章,那么你可能需要一款wordpress的打赏赞赏插件。 1.不需要对当前的主题做任何改动,后台启用插件,前台就可以显示打赏功能 插件已经提交到wordpress官方, 现在可以在wordpress后台搜索imwptip来安装插件了,或者可以进入插件地址进行下载:https://wordpress.org/plugins/imwptip/

wordpress多本小说主题 imwpnovels

功能更强的wordpress小说主题imwpnovels,让创建小说站点更简单! 小说阅读页面支持无限制的字体缩放,支持护眼模式,页面模式,在使用静态缓存下刷新无闪烁的特性,用户体验极佳。 主题内置有丰富的SEO功能,告别臃肿的SEO插件,你甚至可以控制所有页面的META信息,首页,分类,小说阅读页,小说列表页. wordpress多本小说主题imwpnovels说明书 wordpress多本小说主题imwpnovels更新记录

wprec: wordpress相似文章推荐插件

一个理想的相关文章推荐插件应该是什么样子的? 他应该推荐和当前文章相似的文章,用户看完当前文章后还想点击推荐的文章。 他的外观应该能自定义,完美融合所有的主题,让用户感觉推荐的内容就是文章的一部分。 除此之外,他还应该尽可能利于seo,推荐出来的文章尽可能与当前文章相似,且融合在文章内容中,补充当前的文章内容。 wprec就是一个能够提升用户体验,提升搜索引擎排名的相关文章推荐插件! 先下载imwpf插件安装 再下载wprec插件安装

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏