蜂集采集如何进行全站采集

更新于 2020年12月7日 说明书

今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~

话不多说,我们开始吧!

第一步:设置列表规则

想要抓取全站,就需要一个能够不断获取站内链接的列表页规则。一般来说,一个好的网站是利于蜘蛛抓取的,通过一个入口就可以找到站点内所有的文章链接,因此列表页的规则就是匹配文章地址。

列表规则默认会获取当前页面上所有的链接,我们需要做的就是通过一系列的规则把需要的网址提取出来,不需要的网址剔除掉。

以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是.html&&lz13.cn。这里的&&表示且,意思就是一个链接需要同时满足这两个条件才会被匹配到。

抓取全站的重点就在于终止列表获取这个选项,不勾选表示所有的地址都会使用这个规则,这样就能源源不断获取新的链接,达到抓取全站的目的。

比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接

我们再用内部文章页面测试抓取,可以看到下面依然有新的链接

第二步:设置正文规则

如果你懂XPath或者正则,那么写一个抓取正文的规则是一件很容易的事情。这里以XPath为例。

如果你会XPath,那么可以看到下面的正文实际上是被PostContent这个class包住,那么XPath长这样 //*[@class=”PostContent”]。如果不会,可以直接从浏览器***xpath,长得可能不太一样。具体方法可以参考:如何利用浏览器***XPath

其他的字段同理可以这样获取,设置好抓取规则,添加任务,运行起来就可以抓取全站了!

小福利

为了让大家更好地理解如何做全站采集,这里把上面做的采集规则分享出来,大家可以去网盘下载。

地址 https://pan.baidu.com/s/1TjgMPCXGvJfC9aQqRZNSNw

密码 r7rg

如果链接过期,可以加群175991304,找群主获取即可!

你可能还喜欢下面这些文章

蜂集设置采集分页列表方法蜂集设置采集分页列表方法

蜂集采集器可以采集任意结构的网页,包括分页列表。首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页

如何编写蜂集的采集模块如何编写蜂集的采集模块

蜂集采集是一款全自动的wordpress采集插件,如果还没有下载,可以去蜂集采集下载页面去下载。当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如

WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件

自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。然后我们的文章中包含wordpress插件这个词,自动内链插件发现了这个词,则将”wordpress插件”替换成”<a。

wordpress去除index.php的方法wordpress去除index.php的方法

wordpress去除index.php的方法:首先登录wordpress后台;1-2-2) wordpress nginx 静态链接重写规则这样就能把 wordpress 链接中的 index.php 去掉。

WordPress 添加链接WordPress 添加链接

在本章中,我们将学习在WordPress页面中添加链接。Or link to existing account- 通过从给定列表中选择页面,添加指向现有内容页面的链接。

wordpress怎么设置固定链接wordpress怎么设置固定链接

请查看更详细的设置教程:wordpress如何设置固定链接。保存更新后,固定链接完成,可以点入网站的文章看看是否设置成功,是数字.html结尾的链接说明设计成功。

wordpress去除index.php的方法wordpress去除index.php的方法

wordpress去除index.php的方法:首先登录wordpress后台;RewriteRule . /wordpress/index.php [L]这样就能把 wordpress 链接中的 index.php 去掉。

如何修正 WordPress 密码设置链接错误如何修正 WordPress 密码设置链接错误

当用户注册或者忘记密码获取新密码时WordPress会自动向用户邮箱中发送一个验证链接地址,用户通过打开这个链接设置密码,不过经常发现这个链接直接打开后,并不是设置密码的正确链接。login=” . rawurlencode( $user-&