imwprobot(蜂集)是一款wordpress采集插件。它能在服务端自动运行而不需要额外电脑环境以及人工监督,是一款丰富站点内容的采集神器。
栗子博客这边简单理清思路,简单写个教程
WP采集器也用过不少。用过 Auto Post Pro 、火车采集器、小蜜蜂等等好几个采集器,目前Wordpress还是使用蜂集采集器,
现在看看这个采集器简单过程
这个不是autopost pro 也不是火车采集器,蜂集采集器有3个模块
1、采集模块、
2、发布模块
3、任务模块
因为没有接触过所以折腾很久。现在理清了思路,现在开始采集模块,
我用的是JQuery选择器(CSS选择器)点击看大图,这里面可以看到 列表获取地址:
div.artlist.clearfix dl dt a
只选择这一段就可以,每个中间只有一个空格
这里填写div.artlist.clearfix dl dt a 这里填写CSS选择器 可以有很多种
1、只填写 a,这样在下面高级选项再来判断
2、填写 dl dt a 也可以获取列表地址
3、dt a 同样可以获取地址
这样获取的地址部分不太适合。
列表获取没有什么问题。那么我们就来写文章
栗子博客提醒:CSS选择器需要懂简单的代码。所以这里可以看到
标题的写法:
1、h1 这种最简单
2、h1.title
3、#article > h1
4、div#article h1
5、head > title
6、title
5\6 这两个都要过滤 _Mysql_脚本之家
1~4都不用过滤,标题的写法多变,这只是CSS选择器的写法,栗子博客一般只写最简单的h1,除非是其他原因才会写到
这几种都可以获取到标题,另外就是建议勾选去除所有Html标签。这样采集的时候就不会有任何代码。有些采集标题会有代码所以勾选就可以了
这篇文章的代码
#content
这样就可以获得内容。不过我们还是要过滤很多东西
这是采集到的文章效果。可以这这里预览,列表和文章都是把代码写好。这里填写地址,然后预览,经过栗子博客建议,写了个源码模式,可以看到更多想要过滤的东西。这篇文章我们要过滤感兴趣的文章。这里我就直接贴代码:
这里是很多内容中需要清理的东西
比如a标签,各种标签,这里写的时候需要多次调试采集,满意了再提交这是写了div.art_xg后的采集测试效果。和上面的比就去掉了兴趣推荐文章。
这就是栗子博客带来的蜂集采集器(imwprobot)采集模块简单操作写法。