Discuz!官方免费开源建站系统

 找回密码
 立即注册
搜索

[疑问] 请问新浪网这样的页面如何采集?

[复制链接]
chanmax 发表于 2009-8-17 14:37:33 | 显示全部楼层 |阅读模式
http://dailynews.sina.com/gb/usa/ustopnews.html

调试了很久都不得要领。。。
回复

使用道具 举报

五元超市 发表于 2009-8-17 14:46:05 | 显示全部楼层
好像不行吧。
回复

使用道具 举报

lidq.jingwu 发表于 2009-8-17 14:46:25 | 显示全部楼层
你给的链接,打不开。
回复

使用道具 举报

tjz2000 发表于 2009-8-17 15:11:48 | 显示全部楼层
你给的链接打不开,不知道什么样,不过在这里有sina网的采集器
https://discuz.dismall.com/viewth ... page%3D1&page=1
回复

使用道具 举报

 楼主| chanmax 发表于 2009-8-18 08:32:31 | 显示全部楼层
噢,那是北美新浪,也许大陆打不开。
页面是类似这样的:http://news.sina.com.cn/world/ (这是大陆的新浪,结构和1楼那个北美新浪差不多)
要采集中间那一列的新闻,该如何设置?我的列表和文章标题死活识别不出来。。。

感谢了
回复

使用道具 举报

lidq.jingwu 发表于 2009-8-18 09:39:29 | 显示全部楼层
我看了原代码也不是很难,你要采集的如果是中间一列的全部内容,可能采集不到,因为中间一列也分很多小块。
回复

使用道具 举报

 楼主| chanmax 发表于 2009-8-18 11:11:41 | 显示全部楼层
采集的识别规则我已经基本搞定了,列表、标题、内容,测试的时候都能正常显示出来了。不过奇怪的是,我让他采集的时候他却显示“标题经处理后为空,跳过”。我看过了标题的识别规则,没错啊,可以正确识别出来,机器人处理的那个页面也是正常的,有标题有内容。

这是怎么回事??
回复

使用道具 举报

lidq.jingwu 发表于 2009-8-18 11:16:28 | 显示全部楼层
这是由于个别的网页源码变动或不规则,导致识别不到。
回复

使用道具 举报

 楼主| chanmax 发表于 2009-8-18 11:19:29 | 显示全部楼层
那不至于连测试的那个页面的标题都识别不到吧。。。测试的时候他识别的很正常。。唉
回复

使用道具 举报

 楼主| chanmax 发表于 2009-8-18 11:20:54 | 显示全部楼层
而且我一个一个看过了,每个内容页面的标题都是<h1>[subject]</h1>啊。。。很典型的设置
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2025-11-21 17:26 , Processed in 0.235168 second(s), 14 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表