定时任务每次只会执行全部任务的一小部分,最终就可以自动更新所有的站点地图。比如我们生成的地图中有100页,分别是post-1,post-2,post-3。,那么每次定时任务会依次生成post-1,post-2,post-3。
这篇文章教你如何使用puretext这款百万文章不卡的主题。
分类展示模块小工具设置项如下:
左侧列表展示的是小工具中设置的左侧分类ID对应的分类。
标签展示模块用来在首页展示标签,设置项如下:
绝大多数情况下,在授权有效期内都可以更换域名。
第四步、您在B网站同步B域名的授权时间,此时授权转移完成
域名不使用了,授权也不能转移。
请在决定域名不再使用之前将授权转移。
要了解这种现象出现的原因,需要了解一下定时发文的工作模式。
定时发文依赖站长工具箱里面的定时任务库,而定时任务需要有访问才会被触发。
如果你的网站确实是一个新站,那么可以使用主机面板提供的定时任务来访问网站的首页或者 http://你的网站地址/wp-cron.php 页面。
自动配图支持自定义图片包,本文就教大家如何制作。
因此制作图片包实际上就是将这两类文件放入一个文件夹即可。
此时里面并没有图片,接下来我们需要在里面放入和meta.json文件中count字段指定数量的图片。
主题 Modules/Common/Post.php 467 行
isset($post->ID)) return '';
return get_wpac_thumbnail($post_id);
发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。
在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。
考虑到大量用户使用的linux面板可以很容易设置定时任务,因此在蜂集1.6.5版本增加了定时任务模式。
执行周期选择1分钟,url地址填写上面给出的定时任务访问接口即可。
从1.5.0版本开始,蜂集可以使用JQuery选择器采集网页内容啦!
元素:last$("p:last")最后一个 <
:animated
所有动画元素
通常情况下,采集到的内容不一定符合我们的要求,需要对数据进行一些加工才能使用。
使用蜂集的可以进行任意关键词替换。
内容替换操作可以将左边的词替换为右边的词,支持文本和正则表达式。
蜂集采集器可以采集任意结构的网页,包括分页列表。
首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页链接,如下图:
很多朋友在使用过程中可能会遇到各种各样的问题,这里收集常见的问题并且给出解决方法。
上面xxx一般是发布字段,后面的一串以大括号包住的内容则是条件,min_len表示该字段里面的内容最小长度,比如设置1表示采集到的长度大于1才会入库,否则就会提示发布条件不通过。
使用XPath采集网页中的内容是一件十分简单的事情,这里介绍两种xpath的写法——使用id提取网页中的内容和使用class提取网页中的内容。
如果你看过网页源代码,那么就会发现,网页中内容一般由带有id或者class的div包围,而XPath就可以将这些被div包围着的内容全部匹配出来。
这是一篇帮助您快速入门“蜂集采集器”的文章,如果您刚开始接触采集器,建议一定要认真仔细读本文,这将会对您迅速上手采集器大有裨益。
现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:
今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~
以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是.html&
创建分类和其他主题没有任何区别,进入 文章-分类目录,填好名称,添加新的分类目录即可!
第二步:添加二级分类作为小说分类。
在添加完小说的分类之后,就可以添加小说了。
从1.3.6.2之前,运行模式是用户访问或者蜘蛛访问会触发采集,不过对于没有用户访问的新站来说这并不友好,于是后续的版本的蜂集增加了进程模式!
当前的进程在windows和linux上均可使用,不过windows上没有测试,可能会存在一些问题,如果有问题的话请先停止进程并且将蜂集的采集模式改回用户触发,然后向作者反馈。
蜂集采集器现在内置了一个非常方便的匹配规则——XPath!
XPath的方便之处就在于可以用浏览器直接提取出来。
如何用浏览器提取XPath
到此,你就学会了使用浏览器提取xpath方法。
从1.2.10版本开始,wordpress扩展集增加了一个SEO工具箱,目前支持百度推送以及一些常用搜索引擎的收录快速查看。
接下来可以设置百度token,开启自动推送。
蜂集采集器是一款全自动的采集器,本文将介绍蜂集采集器添加自动任务。
设定作用任务名称为任务设置一个名字入口URL采集插件抓取的第一个网页,也就是采集入口采集模块这个任务都会使用这里绑定的采集模块去采集发布模块这个任务都会使用这里绑定的发布模块去发布文章发布状态设置这个任务下的文章发布时候的发布状态