蜂集采集器如何对采集到的内容进行关键词替换
通常情况下,采集到的内容不一定符合我们的要求,需要对数据进行一些加工才能使用。使用蜂集的可以进行任意关键词替换。
具体的位置在采集模块的的内容规则中,如下图:

内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。下面举一些例子来介绍替换操作。支持正则替换和JQuery(CSS选择器)替换
一、文本替换
比如我要把内容里面所有的“问“替换为“有朋友很奇怪的问”,只需要在左侧填上“问“,在右侧填上“有朋友很奇怪地问”。

采集结果如下图:

原页面是这样:

可以发现,所有的“问“都已经替换成了“有朋友奇怪的问”。
二、空格替换
在采集标签或者分类的时候,有一些站点可能存在多个标签或分类。我们采集的时候需要通过替换操作将分类或者标签替换成wordpress可以识别的格式——用逗号隔开的字符串。
比如我们采集的到的内容分类有“新闻和娱乐新闻”,那么需要把这个字符串通过替换操作改成“新闻,娱乐新闻”。
举个例子
比如这个网页下面存在很多标签,

在没有替换之前,抓取的结果是这样的


这里的空格是可以替换的,在替换器的左侧输入一个空格,右侧输入半角逗号即可将空格替换成逗号。替换之后如图:

三、正则表达式替换
如果简单的文本替换不能满足你,那么可以试试正则表达式替换。比如采集过来这么一段文本:
以上就是小编给大家推荐的XXXX,喜欢的话就XXX!
这种文本就需要使用正则表达式替换了。我们用的最多的就是通配符替换,将
以上就是小编给大家推荐的.* 替换为 空白字符即可,如下图:

注:由于软件更新较频繁,截图可能与当前版本不一致。
你可能还喜欢下面这些文章

从1.3.6.2之前,运行模式是用户访问或者蜘蛛访问会触发采集,不过对于没有用户访问的新站来说这并不友好,于是后续的版本的蜂集增加了进程模式! 当前的进程在windows和linux上均可使用,不过windows上没有测试,可能会存在一些问题,如果有问题的话请先停止进程并且将蜂集的采集模式改回用户触发,然后向作者反馈。

插件可根据导入的关键词,自动从设定的数据源采集并组合数据。后台截图功能介绍多数据源采集支持任意多个数据源组合采集。采集的内容可顺序或者随机组合成一篇文章多种数据查找算法根据数据源特性,可选择第一篇或者随机选择。无需规则采集无需写规则,自动从数据源提取数据。

imwprobot(蜂集)是一款wordpress采集插件。 有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略图均可本地化6. 每个任务中的文章图片均可设置独立水印7. 采集到的内容均支持正则和css选择器替换可以采集哪些站1. 新闻资讯站2. 文章范文站3. BBS论坛4. 博客站点5. 资源站、下载站支持哪些采集规则1. 正则表达式2. XPath规则3. JQuery选择器(CSS选择器)代理支持1. HTTP代理 2. Socks5代理 哪些主机可以运行没有环境限制,虚拟主机都可以运行蜂集特色

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。 在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

欢迎使用蜂集采集器,现在给大家分享蜂集采集器的使用教程。 接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。

蜂集采集器是一款全自动的采集器,本文将介绍蜂集采集器添加自动任务。 设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态

字段类型含义必须例子post_titlestring文章标题是这是一个标题post_contentstring文章内容是这是文章内容post_categorystring文章分类不存在时会自动创建多个用逗号隔开是分类1,分类2post_tagsstring文章标签不存在会自动创建多个用逗号隔开否标签1,标签2post_namestring文章别名否biaoti 接口就支持seo_title这个字段,发布时会将内容发布到seo_title自定义字段。
微信赞赏
支付宝赞赏