蓝天采集器设置采集任务设置

采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

蓝天采集器设置采集任务设置

起始页网址

添加需要采集的目标列表页

点击“+”号可批量添加网址,勾选“设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址

蓝天采集器设置采集任务设置

内容页网址

编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”

蓝天采集器设置采集任务设置

多级网址获取:适用于小说、影视等连载形式的内容

只要内容页网址不是直接从起始页抓取的,都可以通过多级来获取

蓝天采集器设置采集任务设置

蓝天采集器设置采集任务设置

关联页网址获取:适用于数据分散在多个页面中

如需要抓取的字段不在内容页,而在其他页面中,则可以使用功能将其他页面也作为内容源

蓝天采集器设置采集任务设置

蓝天采集器设置采集任务设置

获取内容

“添加默认”可以自动设置几个常见字段能满足大部分文章类型的站点采集

如果目标数据格式比较复杂,可点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种配方

蓝天采集器设置采集任务设置

“数据处理”可将采集到的字段值进行过滤或替换内容,每个字段都可单独处理或使用通用处理

蓝天采集器设置采集任务设置

如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容

蓝天采集器设置采集任务设置

测试规则

采集器配置完成后需点击保存按钮,刷新后可在“内容页网址”选项卡和“获取内容”选项卡中看到测试按钮

测试列表页中抓取网址

蓝天采集器设置采集任务设置

测试页面中抓取数据

蓝天采集器设置采集任务设置

测试抓取分页

蓝天采集器设置采集任务设置

 

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

栗子博客 程序 蓝天采集器设置采集任务设置 https://www.lizi.tw/program/20503.html

建筑工地上施工员,闲暇时弄个博客打发时间,

常见问题
  • 1、杰齐1.7仅适用于PHP5.2 2、需Zend支持 3、尽量使用宝塔面板 4、尽量使用Windows 系统,关关对Linux支持不太友好。
查看详情

相关文章

评论
暂无评论
蓝天采集器设置采集任务设置-海报

分享本文封面