Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] 采集分页文章,第一页总是重复采集一次

[复制链接]
常想一二1 发表于 2009-8-26 10:24:02 | 显示全部楼层 |阅读模式
本帖最后由 常想一二1 于 2009-8-26 11:24 编辑

问题一:采集文章时,第一页总是多采集一份,导致文章分页的第一页和第二页内容相同,请问该如何解决?
问题二:列表页面采集设置 设为手工输入时,采集个数就不起作用了,比如我设置采集总个数为10,单次采集个数也为10,系统采集的时候会将该列表全部采集,而不是采集前十条或者后十条,请问这是怎么回事?????
tomsina 发表于 2009-9-14 15:44:39 | 显示全部楼层
分页规则把第一页过滤掉
回复

使用道具 举报

serverhz 发表于 2009-9-14 15:52:18 | 显示全部楼层
你可以过滤下的。。指定采集就行了。 你仔细看下下,可以设置的。
回复

使用道具 举报

天涯冰岛 发表于 2010-1-4 17:16:58 | 显示全部楼层
https://discuz.dismall.com/viewth ... C%AF%2B%B7%D6%D2%B3
这位仁兄解决的不错,看下吧~~~
分页区一定要把第一页排除,不然你的规则会把第一页再采集一次的!!

切记这个!

下面这个应该是第二页的分页区吧

<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D.html" target="_self">1</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_2.html" target="_self" class="s2">2</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_3.html" target="_self">3</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_4.html" target="_self">4</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_5.html" target="_self">5</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_6.html" target="_self">6</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_3.html" target="_self" class="s1">下一页</a>
<div class="clear"></div>

假定第一页的分页区是下面这样

<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D.html" target="_self" class="s2">1</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_2.html" target="_self">2</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_3.html" target="_self">3</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_4.html" target="_self">4</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_5.html" target="_self">5</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_6.html" target="_self">6</a>
<a href="http://tech.163.com/mobile/08/0407/13/48UA8I6D00112K8D_2.html" target="_self" class="s1">下一页</a>
<div class="clear"></div>

分页区域你应该这样写:

class="s2">1</a>[分页区代码]下一页</a>

链接这样匹配

<a href="" target="_self">*</a>

正好也把最后面的下一页的链接也排除!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-18 08:18 , Processed in 0.030228 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表