蜂集采集器jQuery选择器采集教程

更新于 2025年6月13日 WordPress 教程

蜂集采集器jQuery选择器采集教程

蜂集采集器是WordPress上非常强大的内容采集器,能采集器普通咨讯站,资源站,下载站,产品站​等。

​很多人不太了解规则应该怎么写。其实这款采集器可以使用非常简单jQuery选择器。这篇教程教大家如何使用jQuery表达式采集网页内容。

在教程开始之前,我们需要先简单学习一下jQuery表达式。

jQuery表达式

这里我们主要介绍四种:
1. id选择器: #id1 根据id属性为id1的节点
2. class选择器: .class-name 选择class属性为class-name的所有节点
3. 节点选择器: element 选择名为element的所有节点
4. 层级选择器: #id1 .class-name 选择id属性为id1下面的所有class为class-name的节点

以下面的html为例子

<!doctype html>
<html lang="en">
<head>
<meta charset="utf-8">
<title>demo</title>
</head>
<body>
<div class="container">
<div id="notMe"><p>id="notMe"</p></div>
<div id="myDiv">
<a href="https://www.imwpweb.com">imwpweb</a>
</div>
</div>
</body>
</html>

使用id选择器 “#myDiv”选择的节点则是

<div id="myDiv"><a href="https://www.imwpweb.com">imwpweb</a></div>

使用class选择器 “.container” 选择的节点则是

<div class="container">
<div id="notMe">
<p>id="notMe"</p>
</div>
<div id="myDiv">
<a href="https://www.imwpweb.com">imwpweb</a>
</div>
</div>

使用层级选择器”#myDiv a”

<a href="https://www.imwpweb.com">imwpweb</a>

jQuery选择器就是这么简单!

总结一下:网页中的标签中有id,那么用”#”后面接着id这个属性值。如果有class,那么用 “.”后面接着class这个属性值。

列表采集规则

了解jQuery选择器,那么蜂集采集器的采集规则就不难写了。

首先学习列表规则。所谓列表规则就是从目标网页中获取文章列表的规则。只有采集到了文章列表,我们才能进一步采集文章内容。

下图就是一个列表规则,表达式是 “.list a”

根据我们上面学习的jQuery表达式,”.list a”的含义就是选择 class为list容器下面的a元素,也就是list下面所有的链接,这个链接就是我们的文章列表。

比如我们有下面这样的列表

<ul class="list">
    <li><a href="1.html">列表项目一</a></li>
    <li><a href="2.html">列表项目二</a></li>
    <li><a href="3.html">列表项目三</a></li>
</ul>

那么上面 .list a 这个规则采集到的就是 1.html 2.html 3.html 这几个文章地址。有了文章地址,我们才能继续采集文章。记住,蜂集采集器的工作模式是:从入口发现文章列表,再采集文章列表发布成文章。

如果不会查看网页源代码,可以前往:如何查看网页源代码教程中学习。

内容规则

内容规则指的是我们采集的文章所需要的规则,包含:标题,正文,分类等。我们需要为每个字段设置相应的规则!

在标题采集中,我们的jQuery选择器是h1,表示采集的是目标网站的<h1>标签中的内容。一般标题都是h1。

同样,正文,分类我们都可以此类推。填写相应的jQuery选择器即可采集。如果不会查看网页源代码,可以前往:如何查看网页源代码教程中学习。

新版新增Attr属性采集

最新版采集器新增Attr属性,用来采集链接更方便了。

比如我们想采集图片的地址,之前只能用正则表达式匹配,jQuery表达式无法做到。现在增加attr属性提取规则,可以很方便提取html标签属性。

比如我们有个网页中缩略图部分

<div class="thumb">
    <img src="thumb.png" />
</div>

想要采集到thumb.png,那么规则可以这样写

这个意思就是选择.thumb下img标签中的src属性值。是不是非常简单呢?

jQuery选择器参考手册

选择器实例选取
*$(“*”)所有元素
#id$(“#lastname”)id=”lastname” 的元素
.class$(“.intro”)所有 class=”intro” 的元素
element$(“p”)所有 <p> 元素
.class.class$(“.intro.demo”)所有 class=”intro” 且 class=”demo” 的元素
:first$(“p:first”)第一个 <p> 元素
:last$(“p:last”)最后一个 <p> 元素
:even$(“tr:even”)所有偶数 <tr> 元素
:odd$(“tr:odd”)所有奇数 <tr> 元素
:eq(index)$(“ul li:eq(3)”)列表中的第四个元素(index 从 0 开始)
:gt(no)$(“ul li:gt(3)”)列出 index 大于 3 的元素
:lt(no)$(“ul li:lt(3)”)列出 index 小于 3 的元素
:not(selector)$(“input:not(:empty)”)所有不为空的 input 元素
:header$(“:header”)所有标题元素 <h1> – <h6>
:animated 所有动画元素
:contains(text)$(“:contains(‘imwpweb’)”)包含指定字符串的所有元素
:empty$(“:empty”)无子(元素)节点的所有元素
:hidden$(“p:hidden”)所有隐藏的 <p> 元素
:visible$(“table:visible”)所有可见的表格
s1,s2,s3$(“th,td,.intro”)所有带有匹配选择的元素
[attribute]$(“[href]”)所有带有 href 属性的元素
[attribute=value]$(“[href=’#’]”)所有 href 属性的值等于 “#” 的元素
[attribute!=value]$(“[href!=’#’]”)所有 href 属性的值不等于 “#” 的元素
[attribute$=value]$(“[href$=’.jpg’]”)所有 href 属性的值包含以 “.jpg” 结尾的元素
:input$(“:input”)所有 <input> 元素
:text$(“:text”)所有 type=”text” 的 <input> 元素
:password$(“:password”)所有 type=”password” 的 <input> 元素
:radio$(“:radio”)所有 type=”radio” 的 <input> 元素
:checkbox$(“:checkbox”)所有 type=”checkbox” 的 <input> 元素
:submit$(“:submit”)所有 type=”submit” 的 <input> 元素
:reset$(“:reset”)所有 type=”reset” 的 <input> 元素
:button$(“:button”)所有 type=”button” 的 <input> 元素
:image$(“:image”)所有 type=”image” 的 <input> 元素
:file$(“:file”)所有 type=”file” 的 <input> 元素
:enabled$(“:enabled”)所有激活的 input 元素
:disabled$(“:disabled”)所有禁用的 input 元素
:selected$(“:selected”)所有被选取的 input 元素
:checked$(“:checked”)所有被选中的 input 元素

你可能还喜欢下面这些文章

Auditor:WordPress 文章内容安全审核插件Auditor:WordPress 文章内容安全审核插件

本插件可以识别文章中的敏感信息,如果文章存在敏感信息,文章将会自动移动到安全的敏感隔离区,禁止任何形式的前台访问。

WordPress小说主题wpnovo,支持多语言、付费阅读、VIP会员功能的精美小说模板WordPress小说主题wpnovo,支持多语言、付费阅读、VIP会员功能的精美小说模板

//demo.imwpweb.com/wpnovo/多设备支持主题支持PC和移动端界面,独立设置,互不干扰。移动端首页(右)图:小说页面PC端和移动端的展示付费订阅主题支持付费订阅功能,支持付费单章订阅、整本小说订阅模式。

WordPress自动内链插件 WPKAL ,网站全自动增加锚链接必备插件WordPress自动内链插件 WPKAL ,网站全自动增加锚链接必备插件

什么是内链内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。自动内链工作原理简单来说,我们设定一些词表以及词表对应的链接,比如词是wordpress插件,链接是http

WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载WordPress 敏感词违禁词屏蔽插件 WPWJC 介绍与下载

这款插件的核心功能就是一点:找出文章中的违禁词、敏感词等措辞不当的词语,替换成你设置的更合适的词或者直接替换“*”号。请注意,需要同时下载站长工具箱和违禁词屏蔽插件,安装插件时也需要两个插件同时安装。

WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载WordPress 文章自动配图、缩略图插件 WPAC 介绍与下载

2、自动生成的图片并非真实在磁盘中的图片,而是动态生成的,如果保存到磁盘会占用大量空间,这个空间没必要浪费,因此修改主题代码,直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

WordPress 相关文章插件 wprecWordPress 相关文章插件 wprec

wprec利用相似度算法计算每篇文章之间的相似度,找到与当前文章最相似的一些文章,展现在文章底部作为相关文章。我们知道,相关推荐插件推荐的原理是根据当前文章的特征(文章的高权重标签),从文章库中召回相关文章,再根据相关性评分,最后选出To