本帖最后由 qdcaishen 于 2009-6-15 10:07 编辑
采集的时候有两种分页方法:页码导航和上下页导航
页码导航没问题
关键是上下页导航,被采集的页面上下页导航时循环的(既从最后一页的下一页又是第一页),用ss采集器采的话,就会无限的循环下去。
怎么样才能判断终止?
我觉得
采集到相同的网页地址,就可以判断终止,但是再哪里修改判断?
谁能给个答复,请高手回答 - //文章内容分页链接识别规则
- $pageurlarr = array();
- $_POST['messagepageurlrule'] = !empty($_POST['messagepageurlrule']) ? sstripslashes(trim($_POST['messagepageurlrule'])) : '';
- if(!empty($_POST['messagepageurlrule'])) {
- $urlarr = pregmessage($messagepagearr[0], $_POST['messagepageurlrule'], 'page', -1); //解析上步过虑后的结果
- $pageurlarr = sarray_unique($urlarr); //去重
- }
- if($_POST['debugprocess'] == 'messagepageurlrule') {
- $infoarr = array(
- 'code' => $pageurlarr,
- 'url' => $newurlarr[0],
- 'rule' => $_POST['messagepageurlrule'],
- 'source' => $messagepagearr[0]
- );
- printruledebug($infoarr);
- } //$pageurlarr 链接数组
-
-
复制代码 |