蜂集采集器视频逐字稿
一个完整的采集需要采集模块、发布模块和任务组成。首先,我们添加一个采集模块。
蜂集在安装的时候自带一个通用网页采集模块,新手可以从修改通用网页采集模块开始。
基本信息这里有规则名称,默认不需要修改。
下一步是列表规则,列表规则是我们获取文章列表的规则,这里以lz13为例子,我们采集它里面的所有文章,
打开目标采集站,打开调试模式,windows按f12,mac按command+option+i,可以看到它里面的链接规律是以html结尾,那我我们就在网址包含里面写上.html,为了不采集器到外站的地址,我们还可以添加一个限制,让采集到的链接里面包含域名,通过两个and符号组合就可以达到目的。
接下来我们添加内容规则。
蜂集采集器内置了wordpress的主要字段,先从文章标题开始,打开目标采集站,打开文章页面,打开调试模式,可以看到它的标题是h2,但是需要确认一下这个页面是不是只有一个h2,打开源代码,搜索h2,可以发现这个页面有多个h2,搜索一下h1,发现只有一个h1,正好是我们所需要的标题,于是标题部分不需要修改。
现在匹配一下正文这部分,蜂集可以自动适配大部分的正文内容,如果不是特别难匹配的页面,这里可以选择智能获取。
接下来是分类页面,还是打开目标站点的调试模式,可以看到分类的规则是分类后面的字符,规则可以这样写。
都弄好了之后就可以找一个页面测试一下。
复制首页链接,看看抓取的链接是什么。
再复制一下正文链接,看看抓取的内容是否符合预期。可以看到,基本符合预期,那么就可以保存了。
接下来介绍一下发布模块,发布模块是将采集到的字段转换成wordpress的发布字段的步骤。蜂集采集器内置了一个默认的发布规则,发布普通文章可以不用修改,直接使用这个默认规则。
接下来可以开始创建一个采集任务了,还是以lz13为例子,添加任务名称,添加入口地址,入口页面间隔可以不用改,正文抓取间隔可以不用改,选择采集模块,选择发布模块,选择草稿,任务选择暂停,后面我们测试好了再选择自动执行。
回到任务列表,点击手动执行,可以看到任务已经在执行了,如果我们不离开这个页面,任务将会一直执行下去。现在我们可以去看看采集到的文章,可以看到文章已经入库了。现在已经没问题了,我们可以点击开始,任务将会在后台执行。
进入文章,可以看到任务已经再后台自动运行了。
你可能还喜欢下面这些文章

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面,独立设置,互不干扰。移动端首页(右)图:小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能,支持付费单章订阅、整本小说订阅模式。

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http

这款插件的核心功能就是一点:找出文章中的违禁词、敏感词等措辞不当的词语,替换成你设置的更合适的词或者直接替换“*”号。请注意,需要同时下载站长工具箱和违禁词屏蔽插件,安装插件时也需要两个插件同时安装。

2、自动生成的图片并非真实在磁盘中的图片,而是动态生成的,如果保存到磁盘会占用大量空间,这个空间没必要浪费,因此修改主题代码,直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

wprec利用相似度算法计算每篇文章之间的相似度,找到与当前文章最相似的一些文章,展现在文章底部作为相关文章。我们知道,相关推荐插件推荐的原理是根据当前文章的特征(文章的高权重标签),从文章库中召回相关文章,再根据相关性评分,最后选出To