采集问题：文章标题识别规则测试时提示无法读取网址

zyxfcq · 发表于 2008-8-30 20:50:38

我用的SS是6.0版本,在添加采集机器人时出现这样的情况
采集页面编码保持为空不行,必须设定utf-8；列表区域识别规则测试正常，文章链接URL识别规则测试正常，但在继续设置“内容页面采集设置”的时候，文章标题识别规则测试就不正常了，提示信息为
无法读取 http://www.meilizy.com/Show_cont ... d=474&menu_id=1
而我试着在地址栏里直接输入上面提示的网址，又是可以正常打开的，这是什么问题呢?请熟悉采集的朋友帮忙解答一下.

[ 本帖最后由 zyxfcq 于 2008-8-30 20:52 编辑 ]

zyxfcq · 发表于 2008-8-31 18:20:24

自己顶,诚请悉采集的朋友帮忙

d · 发表于 2008-8-31 20:43:37

换个时间段再试试，可能是你服务器和目标站服务器的通讯问题。

如果不行，重写规则吧。

zyxfcq · 发表于 2008-8-31 20:59:50

谢谢。
服务器和目标站服务器的通讯问题,这个肯定不是!
重写规则?是重写文章列表页面的采集规则，还是重写文章内容页面的采集规则？
我上面已经说得很清楚了
列表区域识别规则测试----正常
文章链接URL识别规则----正常
文章标题识别规则测试----无法读取网址
？？

zyxfcq · 发表于 2008-8-31 23:28:00

帮我做的机器人一并上传了,请大家帮我看看是什么问题?

[ 本帖最后由 zyxfcq 于 2008-8-31 23:51 编辑 ]

zyxfcq · 发表于 2008-9-1 00:22:06

怪了,同一配置的机器人，用在虚拟主机网站，文章列表页面的采集规则可以识别到网页源码（识别后有内容,区域源码），但用在本机服务器上就不行了（没识别出任何内容,请检查识别规则）

sisen30000 · 发表于 2008-9-1 00:33:53

很正常，我也老遇到，呵呵。只能说SS的采集功能还不太稳定。不过像前面朋友说的跟你采集器的网络环境与被采集源也有关系。。。

zyxfcq · 发表于 2008-9-1 00:44:56

源代码中有一个点号,
<td width="25%">· <a href="Default.aspx">
我试了好多规则,都只能采集到
<td width="25%">
开始规则可以任意,但结束规则只能在<td width="25%">
超过点号 · 后面的任何源码作结束规则不行
我这是在本机上测试有这种情况，但在虚拟主机上测试，就能过这个点号。只是在虚拟主机的测试也只限于文章列表页面采集设置规则正常，文章内容页面设置规则就是无法读取了。
再说明一下：如果编码设置改为gkb，倒是可以跳过点号 · ，但却出现乱码，而且文章内容页面设置规则仍然是无法读取。

[ 本帖最后由 zyxfcq 于 2008-9-1 00:59 编辑 ]

zyxfcq · 发表于 2008-9-6 23:55:46

看来SS的采集程序确实有点问题,我用火车头采集是成功的,但用SS自带的采集程序就不行了,有能解决跨越"点号"的BUG呢?

ebainet · 发表于 2009-3-1 21:52:30

的确是这个情况
文章标题无法读取

		自动登录	找回密码
密码			立即注册

[疑问] 采集问题：文章标题识别规则测试时提示无法读取网址