如何使用XPath采集网页

更新于 2021年3月29日 说明书

使用XPath采集网页中的内容是一件十分简单的事情,这里介绍两种xpath的写法——使用id提取网页中的内容和使用class提取网页中的内容。

如果你看过网页源代码,那么就会发现,网页中内容一般由带有id或者class的div包围,而XPath就可以将这些被div包围着的内容全部匹配出来。因此我们可以编写特定的XPath规则来采集我们想要的内容。

如何查看HTML源代码

打开chrome浏览器,然后打开你想采集的网址,进入浏览器的开发者模式(windows为F12,macos为command+option+i)。源代码一般是如下:

根据div的class匹配

以这个页面 http://www.imwpweb.com/5437.html 为例子,点击开发者工具中的小箭头,如下图:

然后鼠标放到网页中寻找需要采集的区域,在右侧中对应的源代码会被高量显示,如下图所示:

因此我们左侧选中的区域的class就是content,写成xpath如下:

//*[@class="content"]

意思就是匹配根结点下面任意class名称为content内容。

如果您选中的区域的class是其他的,那么只需要把content替换成其他的就可以。

根据div的id匹配

同理,如果网页中有一个id为content的div。比如下面的相关推荐区域就是id,

那么规则应该写成:

//*[@id="relate"]

看到这里,大家明白了吗?

你可能还喜欢下面这些文章

如何查看网页源代码如何查看网页源代码

使用快捷键除了通过开发者工具查看源代码,还可以使用快捷键来快速打开网页的源代码。使用在线工具如果你不想下载安装浏览器开发者工具,或者需要在手机上查看网页源代码,还可以使用在线工具来查看。

蜂集采集器jQuery选择器采集教程蜂集采集器jQuery选择器采集教程

//www.imwpweb.com”>imwpweb</a></div></div></body></html>使用id选择器。

蜂集采集器如何采集标签蜂集采集器如何采集标签

//www.imwpweb.com”>标签二</a>。//www.imwpweb.com”>标签三</a></div>tag是在a标签中,那么jquery选择器可以写成。

蜂集采集器,一款全自动的wordpress采集插件蜂集采集器,一款全自动的wordpress采集插件

imwprobot(蜂集)是一款wordpress采集插件。有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略

蜂集采集器发布模块是什么蜂集采集器发布模块是什么

发布模块是用来将自定义的采集的字段转化为符合wordpress要求的文章字段的模块,转换之后可直接发布为文章。在没有新增自定义的采集字段的时候都可以使用默认发布模块,默认发布模块只保证标题,正文有值即可发布。

wordpress自动别名插件,支持生成拼音链接或MD5链接wordpress自动别名插件,支持生成拼音链接或MD5链接

发布文章、页面、分类、标签时自动根据算法生成别名使用文章ID的16位MD5值作为postname,生成的链接就是类似这样的:这种就没什么好说的了,通过拼音生成的链接就是文章标题的全拼,比如这样:

如何用浏览器获取XPath规则,蜂集XPath使用指南如何用浏览器获取XPath规则,蜂集XPath使用指南

蜂集采集器现在内置了一个非常方便的匹配规则——XPath!XPath的方便之处就在于可以用浏览器直接提取出来。如何用浏览器提取XPath到此,你就学会了使用浏览器提取xpath方法。

当HTML 中有多个class属性会出现什么问题当HTML 中有多个class属性会出现什么问题

当一个元素有多个class属性时会发生什么?div id=”test” class=”one two three” class=”four”>div id=”post-<