织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了处理。

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

表现:

常规的文章列表文章URL应该是 才对,而该站处理成了,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.wbsmb.com/www.dede58.com/URL.html,这样的话就无法正确采集内容了。

解决方法:
在网址获取选项里点选“手动填写链接地址规则”,

右侧脚本规则填写【a class=”item” href=”[参数]” title=”(*)” target=”_blank”>】这里的参数就是原始目前的不带协议头的网址。

实际连接:填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】

结果:

以上操作后点获取网址测试正确,从采集,入库等都OK了。

PS:

这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在火车头上总算是解决了。

1. 本站实行充值兑换金币,1元=1金币,每日签到可领取1个金币,[我要充值]
2. 部分资源免费,登录后0元购买免费下载,收费资源价格也很低廉,1至100元不等,VIP会员全站无限下载,[去开通]
3. 本站正式上线, 推荐到QQ或者微信群免费获得VIP会员资格,详情[点我查看]
4. 如果您找不到合适的资源,请联系我们,告知您的需求,我们会在24小时内整理发布。
专注网站维护优化及织梦源码分享 » 织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

网迅云,安全稳定的云服务器,域名注册,香港空间的提供商!

虚拟主机 云服务器