Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
12
返回列表 发新帖

[不是BUG] 采集经常出现未开始就提示采集完成,无法使用

[复制链接]
 楼主| 7u5 发表于 2009-5-26 11:29:13 | 显示全部楼层
下午有空我会再写几个规则进行测试,测试完传上来。

采集功能必须开发好啊。这太过影响CMS的维护成本了。

每天采几百篇文章,缺了这个怎么行
回复

使用道具 举报

princelam 发表于 2009-5-31 15:08:52 | 显示全部楼层
我也是太依赖采集功能 但是SS7的采集到现在一次也没成功过
全部网站都是连接不成功和读取错误
回复

使用道具 举报

commonuser 发表于 2009-6-18 15:33:02 | 显示全部楼层
调试了一下。我也遇到了这样的问题。
发现是编码转换的错误。
文件名:admin_robots.php
函数:function geturlfile($url, $encode=1)

发现:
在编辑采集器的时候。$encode参数是0。所以实际上是不转换页面编码的。所以调试的时候都能正常通过

但是实际抓取时。因为supesite是utf8版本的。所以采集时会把编码转换为utf8。有些网站页面写的是GB2312。但实际上在用iconv函数转换时会出错。页面转换后少了一大半,造成list处理错误(但supesite又没提示……)。

编辑采集器,如果你的采集器“采集页面编码”部分是GB2312,试试改成GBK应该就好了

这是我采集的网站遇到的问题。 你可以试试

评分

1

查看全部评分

回复

使用道具 举报

yg998 发表于 2009-6-18 21:10:01 | 显示全部楼层
LZ~ 遇到这种问题应该那个采集是当初复制的另一个吧,你主要检查下标题剔除和内容剔除规则,就可以解决啦。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-15 17:21 , Processed in 0.027552 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表