请问新浪网这样的页面如何采集？

chanmax · 发表于 2009-8-17 14:37:33

五元超市 · 发表于 2009-8-17 14:46:05

好像不行吧。

lidq.jingwu · 发表于 2009-8-17 14:46:25

你给的链接，打不开。

tjz2000 · 发表于 2009-8-17 15:11:48

你给的链接打不开，不知道什么样，不过在这里有sina网的采集器
https://discuz.dismall.com/viewth ... page%3D1&page=1

chanmax · 发表于 2009-8-18 08:32:31

噢，那是北美新浪，也许大陆打不开。
页面是类似这样的：http://news.sina.com.cn/world/ （这是大陆的新浪，结构和1楼那个北美新浪差不多）
要采集中间那一列的新闻，该如何设置？我的列表和文章标题死活识别不出来。。。

感谢了

lidq.jingwu · 发表于 2009-8-18 09:39:29

我看了原代码也不是很难，你要采集的如果是中间一列的全部内容，可能采集不到，因为中间一列也分很多小块。

chanmax · 发表于 2009-8-18 11:11:41

采集的识别规则我已经基本搞定了，列表、标题、内容，测试的时候都能正常显示出来了。不过奇怪的是，我让他采集的时候他却显示“标题经处理后为空，跳过”。我看过了标题的识别规则，没错啊，可以正确识别出来，机器人处理的那个页面也是正常的，有标题有内容。

这是怎么回事？？

lidq.jingwu · 发表于 2009-8-18 11:16:28

这是由于个别的网页源码变动或不规则，导致识别不到。

chanmax · 发表于 2009-8-18 11:19:29

那不至于连测试的那个页面的标题都识别不到吧。。。测试的时候他识别的很正常。。唉

chanmax · 发表于 2009-8-18 11:20:54

而且我一个一个看过了，每个内容页面的标题都是<h1>[subject]</h1>啊。。。很典型的设置

		自动登录	找回密码
密码			立即注册

[疑问] 请问新浪网这样的页面如何采集？