如何用浏览器获取XPath规则,蜂集XPath使用指南

更新于 2021年3月29日 说明书

蜂集采集器现在内置了一个非常方便的匹配规则——XPath!XPath的方便之处就在于可以用浏览器直接提取出来。

如何用浏览器提取XPath

使用chrome浏览器打开你想采集的网址。进入浏览器的开发者模式(windows系统按F12,MAC系统按cmd+option+i)。点击页面节点选择按钮(方框半包住箭头的按钮),然后到右侧的源代码栏,点击右键,就可以看到copy full xpath

为了避免div层级变化,可以用copy XPath来代替copy full XPath。

测试XPath

把提取到的XPath***到规则中

点击测试抓取

由于有些占站点做了防盗链,直接采集时候可能图片不会展示,不过采集下来的时候,图片会自动本地化,此时图片可以展示。

到此,你就学会了使用浏览器提取xpath方法。

你可能还喜欢下面这些文章

如何获取网站的Cookie如何获取网站的Cookie

第一步:使用chrome浏览器,打开目标网站。比如: www.imwpweb.com第二步:点击鼠标右键-检查。将会打开浏览器的开发者模式,切换到网络tab,再刷新网页。

如何查看网页源代码如何查看网页源代码

使用快捷键除了通过开发者工具查看源代码,还可以使用快捷键来快速打开网页的源代码。使用在线工具如果你不想下载安装浏览器开发者工具,或者需要在手机上查看网页源代码,还可以使用在线工具来查看。

蜂集采集如何进行全站采集蜂集采集如何进行全站采集

今天给大家带来一个超级简单的抓取全站的教程,文末有小福利哦~以lz13为例,它所有的文章链接都以.html结尾,所以我们的网址包含规则里写上.html,为了不让蜘蛛乱爬,我们限制蜘蛛在这个站点内爬行,因此网址还需要包含lz13.cn,规则就是

wordpress多本小说主题 imwpnovelswordpress多本小说主题 imwpnovels

功能更强的wordpress小说主题imwpnovels,让创建小说站点更简单!小说阅读页面支持无限制的字体缩放,支持护眼模式,页面模式,在使用静态缓存下刷新无闪烁的特性,用户体验极佳。

蜂集设置采集分页列表方法蜂集设置采集分页列表方法

蜂集采集器可以采集任意结构的网页,包括分页列表。首先我们需要找到分页链接和其他链接不一样的地方,例子中的分页的链接都有“page”这个单词而其他的链接都没有这个单词,那么我们在列表规则中的链接包含框填上“page”,这样就可以采集到所有的翻页

自动配图不显示最奇葩的原因自动配图不显示最奇葩的原因

于是用postman请求了一下这个图片,发现这个图片居然有大小,不是0kb。生成图片的程序原文件带有bom,于是生成的图片也带有bom,带有bom的图片并不能识别为一张图片,于是打开失败。

WordPress文章自动配图、缩略图插件:wpacWordPress文章自动配图、缩略图插件:wpac

现在写点文章不配图总觉得文章质量不太高。于是萌生了写一款文章自动配图的插件的想法。文章页自动加一张图比较简单,从候选集中选择一张图片拼接在正文中即可。又比如在图片中添加文章标题,摘要或者自定义的文字。

蜂集采集器,一款全自动的wordpress采集插件蜂集采集器,一款全自动的wordpress采集插件

imwprobot(蜂集)是一款wordpress采集插件。有什么功能1. 全自动无人值守,支持定时采集2. 可自动同步目标站的更新3. AI自动关键词、自动摘要生成4. 直接发布到wordpress,不需要额外的接口支持5. 正文图片和缩略