Discuz!官方免费开源建站系统

 找回密码
 立即注册
搜索

[疑问] 采集问题:文章标题识别规则测试时提示无法读取网址

[复制链接]
zyxfcq 发表于 2008-8-30 20:50:38 | 显示全部楼层 |阅读模式
我用的SS是6.0版本,在添加采集机器人时出现这样的情况
采集页面编码保持为空不行,必须设定utf-8;列表区域识别规则测试正常,文章链接URL识别规则测试正常,但在继续设置“内容页面采集设置”的时候,文章标题识别规则测试就不正常了,提示信息为
无法读取 http://www.meilizy.com/Show_cont ... d=474&menu_id=1
而我试着在地址栏里直接输入上面提示的网址,又是可以正常打开的,这是什么问题呢?请熟悉采集的朋友帮忙解答一下.

[ 本帖最后由 zyxfcq 于 2008-8-30 20:52 编辑 ]
回复

使用道具 举报

 楼主| zyxfcq 发表于 2008-8-31 18:20:24 | 显示全部楼层
自己顶,诚请悉采集的朋友帮忙
回复

使用道具 举报

d 发表于 2008-8-31 20:43:37 | 显示全部楼层
换个时间段再试试,可能是你服务器和目标站服务器的通讯问题。

如果不行,重写规则吧。
回复

使用道具 举报

 楼主| zyxfcq 发表于 2008-8-31 20:59:50 | 显示全部楼层
谢谢。
服务器和目标站服务器的通讯问题,这个肯定不是!
重写规则?是重写文章列表页面的采集规则,还是重写文章内容页面的采集规则?
我上面已经说得很清楚了
列表区域识别规则测试----正常
文章链接URL识别规则----正常
文章标题识别规则测试----无法读取网址
??
回复

使用道具 举报

 楼主| zyxfcq 发表于 2008-8-31 23:28:00 | 显示全部楼层
帮我做的机器人一并上传了,请大家帮我看看是什么问题?

[ 本帖最后由 zyxfcq 于 2008-8-31 23:51 编辑 ]

robot_旅游资讯.rar

1.4 KB, 下载次数: 295

回复

使用道具 举报

 楼主| zyxfcq 发表于 2008-9-1 00:22:06 | 显示全部楼层
怪了,同一配置的机器人,用在虚拟主机网站,文章列表页面的采集规则可以识别到网页源码(识别后有内容,区域源码),但用在本机服务器上就不行了(没识别出任何内容,请检查识别规则)
回复

使用道具 举报

sisen30000 发表于 2008-9-1 00:33:53 | 显示全部楼层
很正常,我也老遇到,呵呵。只能说SS的采集功能还不太稳定。不过像前面朋友说的跟你采集器的网络环境与被采集源也有关系。。。
回复

使用道具 举报

 楼主| zyxfcq 发表于 2008-9-1 00:44:56 | 显示全部楼层
源代码中有一个点号,
<td width="25%">·&nbsp;<a href="Default.aspx">
我试了好多规则,都只能采集到
<td width="25%">
开始规则可以任意,但结束规则只能在<td width="25%">
超过点号 ·  后面的任何源码作结束规则不行
我这是在本机上测试有这种情况,但在虚拟主机上测试,就能过这个点号。只是在虚拟主机的测试也只限于文章列表页面采集设置规则正常,文章内容页面设置规则就是无法读取了。
再说明一下:如果编码设置改为gkb,倒是可以跳过点号 ·  ,但却出现乱码,而且文章内容页面设置规则仍然是无法读取。

[ 本帖最后由 zyxfcq 于 2008-9-1 00:59 编辑 ]
回复

使用道具 举报

 楼主| zyxfcq 发表于 2008-9-6 23:55:46 | 显示全部楼层
看来SS的采集程序确实有点问题,我用火车头采集是成功的,但用SS自带的采集程序就不行了,有能解决跨越"点号"的BUG呢?
回复

使用道具 举报

ebainet 发表于 2009-3-1 21:52:30 | 显示全部楼层
的确是这个情况
文章标题无法读取
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2025-9-13 12:40 , Processed in 0.114421 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表