一款全自动的wordpress采集插件:imwprobot

创建于 2017年3月6日 更新于 2019年2月13日 原创插件

imwprobot是一款wordpress采集插件。这款插件使用智能网页结构分析算法,只需要添加一个网站首页或者一个列表页的url,就能够遍历该站点,自动获取该站的所有网页内容。

详细介绍

imwprobot是imwpweb开发的一款全自动的智能采集插件,和其他的采集工具不同的是,imwprobot本身已经完成了大部分工作,你需要的仅仅是找到一个或者多个采集站点,添加一个url就可以开始采集。

imwprobot可以在没有任何规则下识别绝大多数网站的标题和正文,可以说是市面上使用最简单的采集器之一。当然,你可以添加你的规则,让采集器根据你的指令采集你想要的东西。

功能列表

  1. 全自动工作流程
  2. 自动识别文章标题
  3. 自动识别正文内容
  4. 支持过滤文章中的链接,图片,列表,表格,表单等杂音
  5. 支持修复网页中错乱的html
  6. 支持图片本地化,突破防盗链
  7. 采集的文章可以指定发布分类,可以指定标签,可以指定发布作者
  8. 可以自定义采集文章的状态,可选的是草稿和已发布,满足不同人对采集的需求
  9. 支持自定义文章关键词替换

工作流程

1.添加一个url

填入任务名称,任务url,执行频率。执行频率是以秒为单位,添加之后,这个任务会一个小时(3600s)执行一次。帮助你及时,自动的更新网站。

添加完成之后,我们拉到下面,有测试采集和保存两个选项

可以对任务文章执行一些过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。

我们可以首先可以测试执行,看看能不能采集到我们想要的url列表

发现采集的里面含有一些我们不需要的内容,我们需要的仅仅是文章页面,那么可以对url进行过滤,上面对过滤选项有几个很灵活的配置,通过组合,一定能够选择出你所需要的内容,比如url包含,url不包含,标题包含,标题不包含,标题最小长度,标题最大长度。一般来说,标题长度太短,则不是文章标题,太长,我们就可能采集到了以摘要为链接的伪标题了。

这里可以看到url中都含有aritle,那么url包含中可以填入article,就能采集到我们想要的文章。保存之后,就可以不用管了~喝杯咖啡,去看看书,都行。当然,你还可以继续探索下去。

2.继续探索,手动执行任务

进入定时列表任务,我们可以手动执行任务。

点击手动执行之后,上面抓的文章才算进入了我们的待采集文章库!

任务都是自动执行的,可以不用去管了。如果很好奇到底能不能获取到文章,那么我们可以手动执行一次看看

哈,执行成功了,文章已经被采集下来了!没有对文章进行任何的规则设定,一切都是在服务端完成。

你需要申请一个API KEY

为了防止被滥用,你需要申请一个API KEY作为你的身份标志。

插件下载

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏