蜂集采集器如何对采集到的内容进行关键词替换

更新于 2021年12月27日 说明书

通常情况下,采集到的内容不一定符合我们的要求,需要对数据进行一些加工才能使用。使用蜂集的可以进行任意关键词替换。

具体的位置在采集模块的的内容规则中,如下图:

内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。下面举一些例子来介绍替换操作。支持正则替换和JQuery(CSS选择器)替换

一、文本替换

比如我要把内容里面所有的“问“替换为“有朋友很奇怪的问”,只需要在左侧填上“问“,在右侧填上“有朋友很奇怪地问”。

采集结果如下图:

原页面是这样:

可以发现,所有的“问“都已经替换成了“有朋友奇怪的问”。

二、空格替换

在采集标签或者分类的时候,有一些站点可能存在多个标签或分类。我们采集的时候需要通过替换操作将分类或者标签替换成wordpress可以识别的格式——用逗号隔开的字符串。

比如我们采集的到的内容分类有“新闻和娱乐新闻”,那么需要把这个字符串通过替换操作改成“新闻,娱乐新闻”。

举个例子

比如这个网页下面存在很多标签,

在没有替换之前,抓取的结果是这样的

这里的空格是可以替换的,在替换器的左侧输入一个空格,右侧输入半角逗号即可将空格替换成逗号。替换之后如图:

三、正则表达式替换

如果简单的文本替换不能满足你,那么可以试试正则表达式替换。比如采集过来这么一段文本:

以上就是小编给大家推荐的XXXX,喜欢的话就XXX!

这种文本就需要使用正则表达式替换了。我们用的最多的就是通配符替换,将

以上就是小编给大家推荐的.* 替换为 空白字符即可,如下图:

注:由于软件更新较频繁,截图可能与当前版本不一致。

你可能还喜欢下面这些文章

蜂集采集器如何采集标签蜂集采集器如何采集标签

//www.imwpweb.com”>标签二</a>。//www.imwpweb.com”>标签三</a></div>tag是在a标签中,那么jquery选择器可以写成。

WordPress敏感词违禁词屏蔽插件wpwjc介绍与下载WordPress敏感词违禁词屏蔽插件wpwjc介绍与下载

违禁词屏蔽插件功能介绍1.扫描整站文章,找出文章中的违禁词,替换成你设置的安全词或者直接打码。内置一些违禁词,也可以自定义违禁词表。ajax=1][goods。id=38。

蜂集采集器快速入门蜂集采集器快速入门

这是一篇帮助您快速入门“蜂集采集器”的文章,如果您刚开始接触采集器,建议一定要认真仔细读本文,这将会对您迅速上手采集器大有裨益。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:

wordpress支持采集吗wordpress支持采集吗

wordpress支持采集吗?wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。首先需要安装网站采集插件,前

如何编写蜂集的采集模块如何编写蜂集的采集模块

蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如

蜂集采集器,一款全自动的wordpress采集插件蜂集采集器,一款全自动的wordpress采集插件

imwprobot(蜂集)是一款wordpress采集插件。有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略

蜂集采集器发布模块是什么蜂集采集器发布模块是什么

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件

自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。然后我们的文章中包含wordpress插件这个词,自动内链插件发现了这个词,则将”wordpress插件”替换成”<a。