蜂集如何添加采集模块

更新于 2020年5月23日 说明书

进入 蜂集 -> 采集模块 中,点击“添加文章采集模块”按钮来创建采集模块

采集模块共有四个区域,有基本信息,列表规则,内容规则,测试抓取。

首先看看基本信息要怎么填写

规则名称为必填项,这里以采集腾讯新闻为例子

使用蜂集采集的朋友请跟着例子手动把采集规则填写上去,注意不要复制

网页完整性检测是为了确保下载的网页是完整的,避免采集失败。一般情况下不用填写,如果您发现采集的时候很多网页都没采集到内容,那么你需要在网页完整性检测中填写</html>或者网页最后面一些标志性文本。

接下来填写列表规则,点击tab栏上面的列表规则。列表规则的作用是抓取网页的链接,我们用chrome打开腾讯新闻的首页 www.qq.com(不熟悉请跟着步骤操作哦!)

打开网页之后,请打开chrome的开发者工具(windows通过按F12或者ctrl+shift+i,MAC通过cmd+option+i打开)点击开发者工具左上角的小箭头,然后把鼠标放在你想要采集的链接上,你就能看到这片链接所处的区域和格式了。

我们发现列表页里面链接的特点,发现新闻链接都包含new.qq.com和html,我们可以在网址包含里面写上 new.qq.com&&html,意思是同时包含new.qq.com和html。如果我们只需要采集入口页面的地址,那么可以勾选终止列表获取,这样这个规则就不会对下一级的网页生效。

最终效果如下图,请根据图填写在你的采集规则中

接下来可以测试一下链接获取是不是正确。点击抓取测试,然后天上文章测试地址,这里填写https://www.qq.com,由于这个是我们的入口页面,因此层级为0(注意,层级从0开始,从0级页面上获取到的页面层级为1,从层级为1的页面获取到的地址层级为2,以此类推…)。

填写之后点击抓取测试,你应该可以看到下面获取到的链接和标题了,如下图。

链接规则写好了,接下来我们要配置一下我们需要采集的内容。

内容规则的左侧是采集的字段名称,默认涵盖了wordpress的文章基本信息字段,title为文章标题,content为文章内容,category为文章分类,tag为文章标签,author为文章作者。

标题用h1匹配,系统已经给了你默认值,大多数情况可以不用更改,使用系统默认的即可。如下图:

conten可以使用自动获取正文的方式,该方式可以智能分析网页中的正文,自动获取,蜂集采集器默认已经将该选项设置为是,如下图:

其他的选项以此类推。

接下来再进行一下采集测试,这次使用正文页采集。

一切都十分流畅!正文内容已经被自动获取下来了!

好看 (0) 很好看 (0) 非常好看 (0)
赞赏

微信赞赏支付宝赞赏