Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] ss7.0 采集机器人用不了。求助!!!

[复制链接]
anewbier 发表于 2009-11-10 02:51:52 | 显示全部楼层 |阅读模式
本帖最后由 anewbier 于 2009-11-10 03:22 编辑

ss采集机器人怎么用不了啊 设置都成功了~结果也提示成功
编辑采集器一步步测试通过,而且每个步骤都能取出需要的内容。一运行,采集过程都能显示出来,而且最后显示采集完成。但是一看结果什么都没有,采集时间是空,次数是0。 可能是哪里的问题?高手啊,帮帮阿?谢谢!!!!!!!
我用的是ss7.0, utf8在linux下运行!php 版本是5.2.9; mysql是5.1.33. apache 2.2.11.
另外,supsite/data/robot/robot_1_message.txt 文件存在,但是是空的; robot_1.cache.php 也产生了,文件robot_1_message.txt和robot_1.cache.php的用户和group分别是 nobody  和 nogroup, data 目录权限是777. cache权限也是777.
高手阿,千万指点一二!!!谢谢!!

会不会人家的网站设置了防机器人采集呢?如果是这样的话,我们有什么办法知道人家网站有这种设置呢?
gz1988 发表于 2009-11-10 04:35:51 | 显示全部楼层
会不会人家的网站设置了防机器人采集呢?
回复

使用道具 举报

 楼主| anewbier 发表于 2009-11-10 05:37:30 | 显示全部楼层
估计是那个网站有防机器人措施,我在这个坛子里下载别人的采集器,可以用,说明我的系统设置没有问题的。我针对新浪做了个机器人,可以采集。可以肯定人家是有防机器人采集的措施的
回复

使用道具 举报

 楼主| anewbier 发表于 2009-11-10 08:08:43 | 显示全部楼层
我判断的不对,我用别的软件可以下载他整个网站。如果他有房机器人措施的话,那么用软件也不能下载他整个网站。所以我觉得还是那里设置的问题
回复

使用道具 举报

lidq.jingwu 发表于 2009-11-10 09:27:56 | 显示全部楼层
4# anewbier


    将你的采集器发来,我试一下。
回复

使用道具 举报

 楼主| anewbier 发表于 2009-11-10 22:57:35 | 显示全部楼层
我测试了半天,每步都能获取我需要的数据,一点开始采集,显示采集没有错误提示,采集结束就啥也没有。不知道是不是ss设置的问题还是那步出错了。请问ss采集有没有运行日志文件,能查出到底那里的问题吗?
回复

使用道具 举报

 楼主| anewbier 发表于 2009-11-11 01:09:22 | 显示全部楼层
本帖最后由 anewbier 于 2009-11-11 01:19 编辑

lidq.jingwu, 我照着这个帖子https://discuz.dismall.com/thread-1316401-1-1.html把geturlfile函数替换了就行了。谢谢!!!不过我还没测试这个替换会不会影响其他已经能工作的采集机器,到时候我来汇报一下。

刚发现,采集的文章出现乱码了
回复

使用道具 举报

 楼主| anewbier 发表于 2009-11-11 10:13:45 | 显示全部楼层
lidq.jingwu, 我发现了出乱码的原因了。就是这句话:在admin_robots.php文件中,在function geturlfile定义里有这一句话:
$text = str_replace('·', '', $text);
这句话里面的 '·' 中的那个点就是乱码根本原因! 这个点不知道是什么编码,你如果把源程序放在linux下打开看的话,就能发现它是个特怪异的符号;但是如果按照你在帖子https://discuz.dismall.com/thread-1316401-1-1.html 提供的geturlfile 函数的话,里面的$text = str_replace('·', '', $text) 中的 '·' 中的那个点不是乱码,是正常的点。但是如果用这个新的函数,采集到的文章就会出现乱码;这个时候如果保持新改动但是用旧的$text = str_replace('·', '', $text);就没乱码了!

怎么样,版主应该奖励我几十个金币吧!
我用的是utf8版本!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 17:39 , Processed in 0.028137 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表