本帖最后由 antsns 于 2009-4-1 22:08 编辑
第二步: 我们现在返回到我们网站后台添加新机器人,把网址复制到红线的位置上,按添加.http://news.zhnews.net/zhnews/index.html
注意:单次采总个数的意思是:比如你采集的标题数有10条,你设1的话,系统会一条一条采,直到采完10条为止,如果设2的话,就二条二条采集,采5次完成,不过单次数越大,网络负载就越大.
上面提到的采集页面编码,这里不说了
列表区域识别规则
我的识别规则是<h4><a href="/zhnews/001/">时政时事</a></h4>*<ul> </ul>
解释:首先我们要理解识别规则是怎么一回事,不是每个页面都一样的,所以我们需要对HTML有简单的认识,相信新用户们都应该看得明HTML.
我们在代码里找到列表标题的起端和终端的规则是<ul></ul>,但是在一个网页里头可能很多地方会有<ul>这个代码,所以为了准确到位,我在前面加上红色这段
<h4><a href="/zhnews/001/">时政时事</a></h4>*<ul> [ l i s t ]</ul> 用 * 来代替任意字符、换行、回车. 我们现在点击,测试 如果出现识别后有内容,区域源码,是你想要的标题那这个规则就是正确的了.
文章链接URL识别规则
<li>[03-31] <a href="/zhnews/2009/0331/article_13147.html" target="_blank"> 珠海边检提醒: 茂盛围口岸暂不对旅客开放</a> </li>
在上面这段代码里我们找出URL的识别规则 <a href="[ u r l ]" target="_blank">*</a> 按测试后发现只有后面的地址,这时我们可以查看网站完成地址,对比后就知少
http://news.zhnews.net 这段地址,在文章链接URL补充前缀 加上这段地址就可以了. |