如何使用XPath采集网页

更新于 2021年3月29日 说明书

使用XPath采集网页中的内容是一件十分简单的事情,这里介绍两种xpath的写法——使用id提取网页中的内容和使用class提取网页中的内容。

如果你看过网页源代码,那么就会发现,网页中内容一般由带有id或者class的div包围,而XPath就可以将这些被div包围着的内容全部匹配出来。因此我们可以编写特定的XPath规则来采集我们想要的内容。

如何查看HTML源代码

打开chrome浏览器,然后打开你想采集的网址,进入浏览器的开发者模式(windows为F12,macos为command+option+i)。源代码一般是如下:

根据div的class匹配

以这个页面 http://www.imwpweb.com/5437.html 为例子,点击开发者工具中的小箭头,如下图:

然后鼠标放到网页中寻找需要采集的区域,在右侧中对应的源代码会被高量显示,如下图所示:

因此我们左侧选中的区域的class就是content,写成xpath如下:

//*[@class="content"]

意思就是匹配根结点下面任意class名称为content内容。

如果您选中的区域的class是其他的,那么只需要把content替换成其他的就可以。

根据div的id匹配

同理,如果网页中有一个id为content的div。比如下面的相关推荐区域就是id,

那么规则应该写成:

//*[@id="relate"]

看到这里,大家明白了吗?

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏