建议收藏,这份 robots.txt 可以屏蔽垃圾蜘蛛流量
曾经有段时间,我的网站每天都在消耗巨大的流量,然而一查日志,发现都是一些垃圾蜘蛛。
这些垃圾蜘蛛除了消耗服务器资源不对给我们带来任何好处,最好直接屏蔽。
我写了一份 robots.txt
来屏蔽常见的垃圾指数,分享给大家,建议收藏。
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /
这份 robots.txt 规则能屏蔽哪些爬虫?
User-agent | 所属公司/项目 | 主要用途 | 被禁止的原因 |
---|---|---|---|
AhrefsBot | Ahrefs | 用于收集网页数据以进行SEO分析和反向链接检查。 | 可能消耗大量服务器资源,影响网站性能。 |
MJ12bot | Majestic-12 | 爬取网页以建立链接索引,支持Majestic搜索引擎的链接分析功能。 | 高频爬取可能导致服务器负载过高。 |
DotBot | DotNetDotCom.org | 为SEO工具提供数据支持,收集网页信息。 | 爬取行为可能过于频繁,影响正常访问。 |
SemrushBot | Semrush | 收集数据以支持SEO竞争分析、关键词研究等营销工具。 | 大量爬取可能导致资源占用过高。 |
ZoominfoBot | ZoomInfo | 收集企业联系信息和公开数据,用于商业数据库。 | 可能抓取非***息或导致隐私问题。 |
BLEXBot | Content ad | 爬取网页内容以生成广告或内容推荐。 | 可能抓取敏感内容或消耗过多带宽。 |
aiHitBot | aiHit | 为aiHit公司收集企业数据,用于商业数据库。 | 爬取频率高或目标数据可能涉及隐私。 |
Mail.RU_Bot | Mail.RU (俄罗斯邮件服务) | 为Mail.ru搜索引擎索引内容。 | 可能因爬取策略激进被网站屏蔽。 |
XoviBot | Xovi (SEO工具) | 支持Xovi的SEO分析工具,爬取网页数据。 | 高频请求可能干扰正常服务。 |
完整规则如下(建议直接复制使用):
如何应用这份规则?
-
登录服务器,找到网站根目录。 -
创建或修改 robots.txt
,粘贴上述规则。
你还建议屏蔽哪些呢?欢迎给我留言!
你可能还喜欢下面这些文章

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面,独立设置,互不干扰。移动端首页(右)图:小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能,支持付费单章订阅、整本小说订阅模式。

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http

这款插件的核心功能就是一点:找出文章中的违禁词、敏感词等措辞不当的词语,替换成你设置的更合适的词或者直接替换“*”号。请注意,需要同时下载站长工具箱和违禁词屏蔽插件,安装插件时也需要两个插件同时安装。

2、自动生成的图片并非真实在磁盘中的图片,而是动态生成的,如果保存到磁盘会占用大量空间,这个空间没必要浪费,因此修改主题代码,直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

wprec利用相似度算法计算每篇文章之间的相似度,找到与当前文章最相似的一些文章,展现在文章底部作为相关文章。我们知道,相关推荐插件推荐的原理是根据当前文章的特征(文章的高权重标签),从文章库中召回相关文章,再根据相关性评分,最后选出To