恶意蜘蛛列表以及屏蔽的方法

更新于 2023年5月28日 wordpress教程

恶意蜘蛛定义

我把恶意蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站性能带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。

通过分析网站日志,搜集资料,我得出了下面的一些恶意蜘蛛。下面给出列表并说明这些蜘蛛的用途。

恶意蜘蛛列表

  1. SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
  2. DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽
  3. AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
  4. MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。
  5. MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。
  6. MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
  7. BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

屏蔽方法

有多种屏蔽方法可以选择,可以直接编辑robots.txt文件,也可以使用WordPress插件

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /

添加robots.txt文件可能有些不太方便,这里推荐我们开发的站长工具插件。该插件自带许多有用的功能,其中就包含屏蔽垃圾蜘蛛。

可以直接在点击下载使用

使用方法:直接进入后台-站长工具箱-内置小工具-robots设置,填写垃圾蜘蛛的内容即可!

对于不尊许robots规则的蜘蛛,目前能够屏蔽的方法就是根据useragent或者ip来禁止了。

你可能还喜欢下面这些文章

wordpress蜘蛛统计插件wpsa,最好的蜘蛛分析系统wordpress蜘蛛统计插件wpsa,最好的蜘蛛分析系统

插件功能最全的蜘蛛类型最全的蜘蛛统计系统,支持百度、google、搜狗、bing、toutiao、等蜘蛛统计蜘蛛分组报表支持蜘蛛之间的统计报表,同时也支持蜘蛛内部不同类型的报表,还支持按照端类型报表。

WordPress敏感词违禁词屏蔽插件wpwjc介绍与下载WordPress敏感词违禁词屏蔽插件wpwjc介绍与下载

这款插件的核心功能就是一点:找出文章中的违禁词、敏感词等措辞不当的词语,替换成你设置的更合适的词或者直接替换“*”号。请注意,需要同时下载站长工具箱违禁词屏蔽插件,安装插件时也需要两个插件同时安装。

蜂集采集如何进行全站采集蜂集采集如何进行全站采集

比如我们使用首页测试一下抓取,可以看到下面抓取了很多链接我们再用内部文章页面测试抓取,可以看到下面依然有新的链接第二步:设置正文规则如果你懂XPath或者正则,那么写一个抓取正文的规则是一件很容易的事情。

WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件WordPress自动内链插件wpkal,网站全自动增加锚链接必备插件

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http。

WordPress备案助手,支持不关站备案插件WordPress备案助手,支持不关站备案插件

直接访问将会展示新的首页插件介绍安装之后,如果选择首次备案(上图设置),那么直接访问首页会被禁止,返回空的404页面。如果选择备案审查,那么需要设置一个首页页面,设置后直接访问将会展示自定义的首页页面。

WordPress定时发文插件发布时间不准怎么办?WordPress定时发文插件发布时间不准怎么办?

定时发文依赖站长工具箱里面的定时任务库,而定时任务需要有访问才会被触发。解决方案方法一、使用计划任务如果你的网站确实是一个新站,那么可以使用主机面板提供的定时任务来访问网站的首页或者。