蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法

imwprobot(蜂集)是一款wordpress采集插件。它能在服务端自动运行而不需要额外电脑环境以及人工监督,是一款丰富站点内容的采集神器。

栗子博客这边简单理清思路,简单写个教程

WP采集器也用过不少。用过 Auto Post Pro 、火车采集器、小蜜蜂等等好几个采集器,目前Wordpress还是使用蜂集采集器,

现在看看这个采集器简单过程

这个不是autopost pro 也不是火车采集器,蜂集采集器有3个模块

图片[1]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客

1、采集模块、

2、发布模块

3、任务模块

因为没有接触过所以折腾很久。现在理清了思路,现在开始采集模块,

我用的是JQuery选择器(CSS选择器)点击看大图,这里面可以看到 列表获取地址:

div.artlist.clearfix dl dt a

只选择这一段就可以,每个中间只有一个空格

 

图片[2]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客

这里填写div.artlist.clearfix dl dt a  这里填写CSS选择器 可以有很多种

1、只填写 a,这样在下面高级选项再来判断

2、填写 dl dt a   也可以获取列表地址

3、dt a 同样可以获取地址

这样获取的地址部分不太适合。

图片[3]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客这就是v获取到的列表,图片[4]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客

列表获取没有什么问题。那么我们就来写文章

栗子博客提醒:CSS选择器需要懂简单的代码。所以这里可以看到

 

 

图片[5]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客

标题的写法:

1、h1 这种最简单

2、h1.title

3、#article > h1

4、div#article h1

5、head > title

6、title

5\6 这两个都要过滤 _Mysql_脚本之家

1~4都不用过滤,标题的写法多变,这只是CSS选择器的写法,栗子博客一般只写最简单的h1,除非是其他原因才会写到

这几种都可以获取到标题,另外就是建议勾选去除所有Html标签。这样采集的时候就不会有任何代码。有些采集标题会有代码所以勾选就可以了

图片[6]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客这是内容写法内容写法就比较局限,不过也有很多写法,大同小异

这篇文章的代码

#content

这样就可以获得内容。不过我们还是要过滤很多东西

图片[7]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客这是采集到的文章效果。可以这这里预览,列表和文章都是把代码写好。这里填写地址,然后预览,经过栗子博客建议,写了个源码模式,可以看到更多想要过滤的东西。图片[8]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客这篇文章我们要过滤感兴趣的文章。这里我就直接贴代码:

 

图片[9]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客过滤的代码 要选择CSS选择器,div.art_xg

这里是很多内容中需要清理的东西

比如a标签,各种标签,这里写的时候需要多次调试采集,满意了再提交图片[10]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客这是写了div.art_xg后的采集测试效果。和上面的比就去掉了兴趣推荐文章。图片[11]-蜂集(imwprobot)如何采集? WordPress 采集器蜂集使用方法-栗子博客

 

 

这就是栗子博客带来的蜂集采集器(imwprobot)采集模块简单操作写法。

© 版权声明
THE END
点赞0
抢沙发
头像
提交
头像

昵称

取消
昵称
一言一语