名称: | ZBLOGPHP采集插件 | |||
应用ID: | MySpider | 最低要求: | Z-BlogPHP 1.5 Zero Build 151626 | |
版 本: | 8.1.2 | 发布日期: | 2015-10-13 | |
PHP最低版本要求: | 5.2 | 更新日期: | 2024-05-07 |
功能介绍:
1、支持正则采集与css选择器采集两种形式,css选择器内核为phpquery,效率最高的css选择器。
2、支持伪造Cookie,伪造Referer,伪造UserAgent,防止目标站点禁止采集。
3、支持http代理模式,支持Basic认证,防止频繁采集导致目标站点封锁IP。
4、支持采集文章内容使用多段规则,程序自动将采集到的结果组合成为新的文章内容。
5、支持排除规则,可选从文章中去除不想要的部分。
6、支持下载远程图片到本地,如果开启云存储则自动保存到云空间。
7、支持列表多页采集。
8、支持采集文章摘要、内容、标题、别名。
9、采集后的文章支持自动入库或者手动选择入库,采集内容在入库之前可以进行查看、编辑与修改。
10、经反复多次验证,稳定可靠,插件提供规则测试功能,可以在使用之前就预先测试规则是否可用。
11、支持关键词过滤功能。
12、插件内置多套采集规则,带有规则分享功能,用户之间可以互相分享规则。
13、支持分析标题文字内容为Tag标签,可选择开关。
本插件规则在线测试工具: ZBLOGPHP采集插件规则测试
ChangeLog:
2024.05.07 修复验证授权失效的BUG。
2020.08.01 兼容ZBLOGPHP 1.7
2020.05.05 兼容php7.4
2018.06.09 修正插件在php7.2下的表现,并向下兼容。
2018.05.14 修正分词服务的错误提示。
2018.05.13 增加支持图片lazyload懒加载技术的页面。
2018.05.08 修正部分规则字段长度限制,已有用户可能需要先彻底卸载插件,重新启用。
2018.04.09 修复一处bug。
2018.04.01 修复若干错误,修正奶盘SEO的接口地址问题,增加对于不支持webservice服务器的兼容。
2018.01.24
1、修正了在采集https页面时的问题。
2、优化页面代码处理顺序,最后入库时才会清理掉注释代码,方便采集规则书写。
3、优化远程文件抓取部分的代码。
2017.09.12 代码优化
2017.09.09 应对多用户的ZBLOG升级,实测几万用户无压力。:)
2017.07.10 修复一处在PHP7下的bug。
2017.05.20
修改了两个图片:)
2017.03.07
增加一处系统触发关联
2017.02.17
修复一处1.5.1版本兼容的bug。
2016.12.04
修复入库界面分页条的问题。
2016.12.02
修复一处内置正则可能导致抓取图片异常的问题。
2016.11.14
修复一处bug。
2016.11.03
更新支持ZBLOGPHP1.5版本,受接口限制,不再兼容1.4,目前zblogphp1.5尚不稳定,请用户斟酌升级。
2016.09.28
兼容云存储
2016.09.16
修复在万网虚拟主机等低配主机上无法运行的问题
2016.08.20
1、清除单条采集数据与批量清除数据不再同步删除已发布文章,如果需要删除已发布文章,请先出库后再清除。
2、抓取到的页面处理顺序调整,增强兼容性。
2016.08.19
1、删除抓取远程图片的状态码判断部分,增强兼容性。
2、兼容水印插件(Watermark2),采集图片可以自动加水印。
2016.07.19
1、完善插件组件依赖,当服务器不支持stream_socket_client函数时仍然可以正常工作。
2、当服务器不支持SoapClient组件时,增加提示奶盘伪原创功能无法使用。
2015.03.03 支持可选采集到的新内容是否覆盖旧内容,老用户注意备份规则后,完全卸载插件。重新安装,再次导入规则。
2015.11.25 支持分析标题文字内容为Tag标签,可选择开关。
支持奶盘伪原创接口(奶盘需要额外收费),可选开关。
2015.11.20 强化多页采集规则,支持设置多页逻辑化规则。
2015.11.17 增加内置版本监测和自动更新功能。
2015.11.09 修正转码时部分目标主机可能会转码出错的问题。
修正下载远程图片可能出错的问题。
修正一处变量名干扰。
2015.11.05 插件首发