蜂集采集器插件如何对采集的内容进行文本替换?

更新于 2025年4月19日 说明书

蜂集采集器插件如何对采集的内容进行文本替换?

通常情况下,采集到的内容不一定符合我们的要求。我们通常需要对采集到的内容进行文本替换。蜂集采集器提供了极其强大的文本替换来实现这一功能。

具体的位置在采集模块 -> 编辑任意采集规则 -> 内容规则,如下图:

内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。下面举一些例子来介绍替换操作。支持正则替换和JQuery(CSS选择器)替换

一、文本替换

比如我要把内容里面所有的“问“替换为“有朋友很奇怪的问”,只需要在左侧填上“问“,在右侧填上“有朋友很奇怪地问”。

采集结果如下图:

原页面是这样:

可以发现,所有的“问“都已经替换成了“有朋友奇怪的问”。

二、空格替换

在采集标签或者分类的时候,有一些站点可能存在多个标签或分类。我们采集的时候需要通过替换操作将分类或者标签替换成wordpress可以识别的格式——用逗号隔开的字符串。

比如我们采集的到的内容分类有“新闻和娱乐新闻”,那么需要把这个字符串通过替换操作改成“新闻,娱乐新闻”。

举个例子

比如这个网页下面存在很多标签,

在没有替换之前,抓取的结果是这样的

这里的空格是可以替换的,在替换器的左侧输入一个空格,右侧输入半角逗号即可将空格替换成逗号。替换之后如图:

三、正则表达式替换

如果简单的文本替换不能满足你,那么可以试试正则表达式替换。比如采集过来这么一段文本:

以上就是小编给大家推荐的XXXX,喜欢的话就XXX!

这种文本就需要使用正则表达式替换了。我们用的最多的就是通配符替换,将

以上就是小编给大家推荐的.* 替换为 空白字符即可,如下图:

注:由于软件更新较频繁,截图可能与当前版本不一致。

你可能还喜欢下面这些文章

Auditor:WordPress 文章内容安全审核插件Auditor:WordPress 文章内容安全审核插件

本插件可以识别文章中的敏感信息,如果文章存在敏感信息,文章将会自动移动到安全的敏感隔离区,禁止任何形式的前台访问。

WordPress小说主题wpnovo,支持多语言、付费阅读、VIP会员功能的精美小说模板WordPress小说主题wpnovo,支持多语言、付费阅读、VIP会员功能的精美小说模板

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面,独立设置,互不干扰。移动端首页(右)图:小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能,支持付费单章订阅、整本小说订阅模式。

WordPress自动内链插件 WPKAL ,网站全自动增加锚链接必备插件WordPress自动内链插件 WPKAL ,网站全自动增加锚链接必备插件

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http

WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载

这款插件的核心功能就是一点:找出文章中的违禁词、敏感词等措辞不当的词语,替换成你设置的更合适的词或者直接替换“*”号。请注意,需要同时下载站长工具箱和违禁词屏蔽插件,安装插件时也需要两个插件同时安装。

WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载

2、自动生成的图片并非真实在磁盘中的图片,而是动态生成的,如果保存到磁盘会占用大量空间,这个空间没必要浪费,因此修改主题代码,直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

WordPress 相关文章插件 wprecWordPress 相关文章插件 wprec

wprec利用相似度算法计算每篇文章之间的相似度,找到与当前文章最相似的一些文章,展现在文章底部作为相关文章。我们知道,相关推荐插件推荐的原理是根据当前文章的特征(文章的高权重标签),从文章库中召回相关文章,再根据相关性评分,最后选出To