Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[不是BUG] 采集经常出现未开始就提示采集完成,无法使用

[复制链接]
7u5 发表于 2009-5-25 15:51:45 | 显示全部楼层 |阅读模式
处理索引列表页面 http://www.某某某.com/files/article/html/31/31728/index.html 开始
处理索引列表页面内容结束

采集完成,点击此处查看采集结果

===================================
就和上面的提示一样,很多情况还没开始采集就提示采集完成,根本没法用,我[ list ]、[url]、[message]都测试正常。

该网站用其他CMS采集功能可以正常采集。
紫琼 发表于 2009-5-25 17:43:45 | 显示全部楼层
关于采集器:
造成个别文章采集失败,引起的跳过,主要原因有二。
一是由于php无法读取对方网站导致的。
二是php在从对方服务器上取得图片,并保存在本地处理时间过长也有关系,再者有些事,内容已经读取,但图片读取不过来(到读取图片的时候网络突然比较繁忙,导致图片打不开)。

这块不是程序做造成的,产生原因:
1、网络繁忙导致php执行超时
2、目标内容(包括:网址、图片)未响应,404错误或其它错误。
   产生这种原因多种,网络堵塞、防盗机制、自己服务器这样或那样突然一下繁忙等

解决方法:
在所有采集过后,可以再执行一次采集,这样采过的内容会跳过,由于网络繁忙导致失败的内容会重新采回来。

ss6 -> ss7 的采集机制上没有太多调整,因此不会存在6行,而7不稳定的因素的产生

未来版本中针对采集机制上会做更多的优化。
计划任务采集、断点续采、以及内容和图片分开来采等。
回复

使用道具 举报

 楼主| 7u5 发表于 2009-5-26 09:52:35 | 显示全部楼层
并非网络原因。

我用的办公特殊专线,带宽都独享的。
我读取的内容都是纯文本。

我使用读吧、杰奇和火车之类的采集器,完全可以正常采集。(我自己试过多次)

但是使用ss7的采集器,就是还没开始就停止了,但是另外一个网站的采集,就很正常。

同样是采集300页左右的内容,同样是单次采集为1次。
回复

使用道具 举报

 楼主| 7u5 发表于 2009-5-26 09:54:07 | 显示全部楼层
确实采集器的bug,为什么说不是问题?
回复

使用道具 举报

 楼主| 7u5 发表于 2009-5-26 09:55:16 | 显示全部楼层
本帖最后由 7u5 于 2009-5-26 10:03 编辑

1个采集器,按照规则正常填写,时灵时不灵,这采集器是开发出来给人使用的麽?
不灵的时候占了80%,请自己亲身测试下。
下图是用你在另外一个帖子https://discuz.dismall.com/thread-1300088-1-1.html
所导入的规则测试结果

{robot_新浪-国内-各地新闻.txt (2.73 KB)
下载次数:14}

回复

使用道具 举报

紫琼 发表于 2009-5-26 10:11:03 | 显示全部楼层
采集器的问题 SupeSite 7.0 刚发布的时候我就反馈给开发人员排查了,但是确实没发现有什么问题,而且 SupeSite 7 这块儿跟 SupeSite 6 是完全一样的,很多人都说 SupeSite 6 的时候可以采集到了 SupeSite7 就没法采集了,这是很不合理的,毕竟这块儿没做修改啊。
回复

使用道具 举报

 楼主| 7u5 发表于 2009-5-26 10:12:41 | 显示全部楼层
https://discuz.dismall.com/thread-1248263-2-5.html
这里讲了很多问题

同样的网络条件下,其他CMS或者系统的其他采集器可以正常工作,为什么ss7不行?
回复

使用道具 举报

紫琼 发表于 2009-5-26 10:14:48 | 显示全部楼层
7# 7u5
你可以本地装个 SupeSite6 试试,如果  SupeSite6 也不可以,SupeSite 7 肯定也不行,因为这块没做修改,至于 SupeSite 8 会不会改进,目前还不清楚,这次开需求会我再跟开发人员确认下吧~
回复

使用道具 举报

 楼主| 7u5 发表于 2009-5-26 10:15:52 | 显示全部楼层
本帖最后由 7u5 于 2009-5-26 11:13 编辑

我把使用的4个规则导出来。
幻剑那个可以,其他3个都出现还没开始采集就结束的情况。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| 7u5 发表于 2009-5-26 11:25:42 | 显示全部楼层
本帖最后由 7u5 于 2009-5-26 12:35 编辑

采集功能不能使用,怎么就是没问题呢?
这么重要的功能块,大家都常用的,网站建了以后最主要就是用采集。

有没有问题,看很多反馈意见也知道。我同时使用过多款采集器,好坏如何,一比较就知道啊。

不会是网络问题、不会是规则填写问题,更不是网站防盗问题。


再加3个规则,一共7个。
hongxiu、feiku、yys8、sina无法使用。

sohu、21cn和hjsm正常,但经常出现采集失败。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-15 17:17 , Processed in 0.028632 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表