蜂集采集器如何对采集到的内容进行关键词替换

更新于 2021年3月29日 说明书

通常情况下,采集到的内容不一定符合我们的要求,需要对数据进行一些加工才能使用。使用蜂集的可以进行任意关键词替换。

具体的位置在采集模块的的内容规则中,如下图:

内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。下面举一些例子来介绍替换操作。

一、普通文本替换

比如我要把内容里面所有的“问“替换为“有朋友很奇怪的问”,只需要在左侧填上“问“,在右侧填上“有朋友很奇怪地问”

采集结果如下图:

原页面是这样:

可以发现,所有的“问“都已经替换成了“有朋友奇怪的问”。

例子二、空格替换

在采集标签或者分类的时候,有一些站点可能存在多个标签或分类。我们采集的时候需要通过替换操作将分类或者标签替换成wordpress可以识别的格式——用逗号隔开的字符串。

比如我们采集的到的内容分类有“新闻和娱乐新闻”,那么需要把这个字符串通过替换操作改成“新闻,娱乐新闻”。

举个例子

比如这个网页下面存在很多标签,

在没有替换之前,抓取的结果是这样的

这里的空格是可以替换的,在替换器的左侧输入一个空格,右侧输入半角逗号即可将空格替换成逗号。如下图:

替换之后

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏