蜂集(imwprobot)如何采集腾讯房产新闻的文章

蜂集的采集插件比较简单,便于设置,

对于懂简单的html代码基本就可以设置搞定

先来看网址采集

规则类型这里选择:jQuery 选择器(CSS选择)

表达式只填写一个a

然后把https://cq.house.qq.com/  网址放到测试抓取里,抓取后看文章地址有什么特别的地方,我看到的是/omn/20   本来只需要omn这三个字母就可以,为了更好的截取判断。所以多取了两位

图片[1]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客看到这个红色指向的地方,如果是列表有分页,这个地方就不要打勾,然后在网址包含这里“||”两个竖杠来来隔开   这个竖杠表示或的意思。就是网址里面有两个任何一个都可以

&&   这个表示和 ,两个都要有的才会获取。我一般用到的是竖杠,&& 这种还很少用到。

 

图片[2]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客写好以后再测试一次,就只抓取到了文章列表。

图片[3]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客

现在我们来抓取标题,我比较喜好jQuery 选择器,所以这里也是,一般标题都是H1,如果无法采集看代码是什么。这里我喜欢把去除所有html勾选。就是避免发布以后标题里面有html代码

图片[4]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客这内容这个div.content-article

原始长度是这个:body > div.qq_conent.clearfix > div.LEFT > div.content.clearfix > div.content-article

我只截取了最后一个。没有想同的即可。

图片[5]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客

这个地方内容清理还不太智能,等待升级。其实喜欢类似火车头采集器的内容清理,自定义或选择都可以。自主性很大。

这个自动标签的确很牛逼,开发者用的是API链接他自己的一个语言库,专门为采集器写一个语言库,这个的确很厉害。

还要说下这个过滤可以看到我这里有个过滤。#Status ,

他过滤的是这句话

图片[6]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客

 


图片[7]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客

这个测试文章可以看到内容和关键词/内容摘要都比较可以图片[8]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客这里的关键词 智能化就我接触到的词库来说。已经算前排了,不生涩,自然,图片[9]-蜂集(imwprobot)如何采集腾讯房产新闻的文章-栗子博客

目前这个插件感觉用的人还不是很多。老板撸代码 ,插件升级的特别快,估计是白天黑夜都在肝,不过有点不好。不知道更新了撒,经常登录发现提醒更新,如果老板能把更新的时候文字提醒更新了什么内容,我就不会盲目的着急,怕更新了又要修改什么东东。

 

 

 

© 版权声明
THE END
点赞0
抢沙发
头像
提交
头像

昵称

取消
昵称
一言一语