三分钟学会使用XPath采集网页

更新于 2021年1月30日 说明书

使用XPath采集网页中的内容是一件十分简单的事情,三分钟就能学会!

如果你看过网页源代码,那么就会发现,网页中内容一般由带有id或者class的div包围,而XPath就可以将这些被div包围着的内容全部匹配出来。因此我们可以编写特定的XPath规则来采集我们想要的内容。

如何查看HTML源代码

打开chrome浏览器,然后打开你想采集的网址,进入浏览器的开发者模式(windows为F12,macos为command+option+i)

根据div的class匹配

如果网页中有一个class为content的div,那么这个规则应该写成:

//*[@class="content"]

意思就是匹配根结点下面任意class名称为content内容

根据div的id匹配

如果网页中有一个id为content的div,那么规则应该写成:

//*[@id="content"]
好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏