蜂集采集器如何对采集到的内容进行关键词替换
通常情况下,采集到的内容不一定符合我们的要求,需要对数据进行一些加工才能使用。使用蜂集的可以进行任意关键词替换。
具体的位置在采集模块的的内容规则中,如下图:

内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。下面举一些例子来介绍替换操作。支持正则替换和JQuery(CSS选择器)替换
一、文本替换
比如我要把内容里面所有的“问“替换为“有朋友很奇怪的问”,只需要在左侧填上“问“,在右侧填上“有朋友很奇怪地问”。

采集结果如下图:

原页面是这样:

可以发现,所有的“问“都已经替换成了“有朋友奇怪的问”。
二、空格替换
在采集标签或者分类的时候,有一些站点可能存在多个标签或分类。我们采集的时候需要通过替换操作将分类或者标签替换成wordpress可以识别的格式——用逗号隔开的字符串。
比如我们采集的到的内容分类有“新闻和娱乐新闻”,那么需要把这个字符串通过替换操作改成“新闻,娱乐新闻”。
举个例子
比如这个网页下面存在很多标签,

在没有替换之前,抓取的结果是这样的


这里的空格是可以替换的,在替换器的左侧输入一个空格,右侧输入半角逗号即可将空格替换成逗号。替换之后如图:

三、正则表达式替换
如果简单的文本替换不能满足你,那么可以试试正则表达式替换。比如采集过来这么一段文本:
以上就是小编给大家推荐的XXXX,喜欢的话就XXX!
这种文本就需要使用正则表达式替换了。我们用的最多的就是通配符替换,将
以上就是小编给大家推荐的.* 替换为 空白字符即可,如下图:

注:由于软件更新较频繁,截图可能与当前版本不一致。
你可能还喜欢下面这些文章

从1.3.6.2之前,运行模式是用户访问或者蜘蛛访问会触发采集,不过对于没有用户访问的新站来说这并不友好,于是后续的版本的蜂集增加了进程模式!当前的进程在windows和linux上均可使用,不过windows上没有测试,可能会存在一些问题,

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

插件可根据导入的关键词,自动从设定的数据源采集并组合数据。后台截图功能介绍多数据源采集支持任意多个数据源组合采集。采集的内容可顺序或者随机组合成一篇文章多种数据查找算法根据数据源特性,可选择第一篇或者随机选择。无需规则采集无需写规则,自动从数

蜂集采集器是一款全自动的采集器,本文将介绍蜂集采集器添加自动任务。设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去

蜂集采集器可以采集任意结构的网页,包括分页列表。首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页

考虑到大量用户使用的linux面板可以很容易设置定时任务,因此在蜂集1.6.5版本增加了定时任务模式。执行周期选择1分钟,url地址填写上面给出的定时任务访问接口即可。

imwprobot(蜂集)是一款wordpress采集插件。有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略