如何用浏览器获取XPath规则,蜂集XPath使用指南

更新于 2021年3月29日 说明书

蜂集采集器现在内置了一个非常方便的匹配规则——XPath!XPath的方便之处就在于可以用浏览器直接提取出来。

如何用浏览器提取XPath

使用chrome浏览器打开你想采集的网址。进入浏览器的开发者模式(windows系统按F12,MAC系统按cmd+option+i)。点击页面节点选择按钮(方框半包住箭头的按钮),然后到右侧的源代码栏,点击右键,就可以看到copy full xpath

为了避免div层级变化,可以用copy XPath来代替copy full XPath。

测试XPath

把提取到的XPath复制到规则中

点击测试抓取

由于有些占站点做了防盗链,直接采集时候可能图片不会展示,不过采集下来的时候,图片会自动本地化,此时图片可以展示。

到此,你就学会了使用浏览器提取xpath方法。

你可能还喜欢下面这些文章

如何获取网站的Cookie如何获取网站的Cookie

方法第一步:使用chrome浏览器,打开目标网站。将会打开浏览器的开发者模式,切换到网络tab,再刷新网页。将会打开如下页面:选中首页,在请求标头中Cookie后面的一串字符串就是网站的cookie。

WordPress文章自动配图、缩略图插件:wpacWordPress文章自动配图、缩略图插件:wpac

2、自动生成的图片并非真实在磁盘中的图片,而是动态生成的,如果保存到磁盘会占用大量空间,这个空间没必要浪费,因此修改主题代码,直接将缩略图的地址改为wpac自动生成的缩略图地址是一个非常好的方案。

蜂集采集器,一款全自动的wordpress采集插件蜂集采集器,一款全自动的wordpress采集插件

imwprobot(蜂集)是一款wordpress采集插件。蜂集简介imwprobot(蜂集)是imwpweb开发的一款功能强大的全自动的智能采集插件。发布模块发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的

wordpress多本小说主题 imwpnovelswordpress多本小说主题 imwpnovels

//demo.imwpweb.com/imwpnovels/资料wordpress多本小说主题imwpnovels说明书wordpress多本小说主题imwpnovels更新记录imwp系列小说主题Q&A发布接口文档。

如何使用XPath采集网页如何使用XPath采集网页

为例子,点击开发者工具中的小箭头,如下图:然后鼠标放到网页中寻找需要采集的区域,在右侧中对应的源代码会被高量显示,如下图所示:因此我们左侧选中的区域的class就是content,写成xpath如下:意思就是匹配根结点下面任意class名称为

如何编写蜂集的采集模块如何编写蜂集的采集模块

测试采集当所有的规则都编写完毕之后,我们需要验证一下采集器是不是可以根据该规则正确采集,进入测试抓取Tab,填写链接和页面层级,点击抓取测试,查看效果,如下图:如果对采集器有使用上的疑惑,可以到蜂集采集交流群(群号在采集器的关于我们中可以找到

wordpress支持采集吗wordpress支持采集吗

wordpress本身并没有采集功能,不过可以通过插件来实现采集功能,目前wordpress上比较好的采集插件是imwprobot(蜂集采集),可以实现全自动采集,虚拟主机也可以运行。

蜂集采集器快速入门蜂集采集器快速入门

如下图:现在我们可以建立一个简单的采集任务,我们现在可以采集一个新闻网站。现在可以添加任务,采集模块和发布模块选择我们刚才建立的模块,如下图:填写完毕之后,点击提交即可。