Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

ss7.0正式版采集器BUG (采集有问题的在后跟贴,疯鼠修改)

[复制链接]
疯鼠 发表于 2009-4-20 16:01:35 | 显示全部楼层
贴上来的采集器都作了测试。
造成个别文章采集失败,引起的跳过,主要原因有二。
一是由于php无法读取对方网站导致的。
二是php在从对方服务器上取得图片,并保存在本地处理时间过长也有关系,再者有些事,内容已经读取,但图片读取不过来(到读取图片的时候网络突然比较繁忙,导致图片打不开)。

这块不是程序做造成的,产生原因:
1、网络繁忙导致php执行超时
2、目标内容(包括:网址、图片)未响应,404错误或其它错误。
   产生这种原因多种,网络堵塞、防盗机制、自己服务器这样或那样突然一下繁忙等

解决方法:
在所有采集过后,可以再执行一次采集,这样采过的内容会跳过,由于网络繁忙导致失败的内容会重新采回来。

ss6 -> ss7 的采集机制上没有太多调整,因此不会存在6行,而7不稳定的因素的产生

未来版本中针对采集机制上会做更多的优化。
计划任务采集、断点续采、以及内容和图片分开来采等。

欢迎大家针对采集提出更好的意见和建议,可单独M我。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-15 20:10 , Processed in 0.027511 second(s), 2 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表