Discuz!官方免费开源建站系统

 找回密码
 立即注册
搜索

[采集] 采集文章内容分页链接URL补充前缀问题

[复制链接]
古剑 发表于 2007-6-25 14:01:25 | 显示全部楼层 |阅读模式
采集带分页的文章遇到一个麻烦:

比如采集这个页:http://et.21cn.com/star/zhuixing/neidi/2007/06/21/3307015.shtml


代码如下:
<TD class="link14pp" align="center"><table width="95%" border="0" cellspacing="0" cellpadding="0" align="center"><tr><td style="font-size: 14px"><div align="center"><font color="#3888C9"><font color=#FF0000>[1]</font> <a target=_self href=3307015_1.shtml>[2]</a> <a target=_self href=3307015_2.shtml>[3]</a> <a target=_self href=3307015_3.shtml>[4]</a> <font color=#3888C9><a target=_self href=3307015_1.shtml>[下一页]</font></a> </font></div></td></tr></table></TD>

有2个问题:

1、因为是相对链接,文章内容分页链接URL补充前缀 需要填入:http://et.21cn.com/star/zhuixing/neidi/2007/06/21/

而列表页面的文章不是同一天的,其他日期的就采集不到分页。

2、就算能采集到分页,每次总是把<a target=_self href=3307015_1.shtml>[下一页]这个页重复采集了一次。

请问以上问题如何解决?

附上采集规则:

# SupeSite Dump
# Version: SupeSite 5.5.2
# Time: 2007-06-25 14:00:25
# From: 黄石门户 (http://www.huangshi.com)
#
# This file was BASE64 encoded
#
# SupeSite: http://www.supesite.com
# Please visit our website for latest news about SupeSite
# --------------------------------------------------------

YTozNzp7czo3OiJyb2JvdGlkIjtzOjM6IjEyNSI7czo0OiJuYW
1lIjtzOjU1OiIyMWNuX8P30MdfxNq12CjQ6NKq0N64xM7E1cLE
2sjdt9bSs8G0vdNVUkyyubPkx7DXusjVxtopIjtzOjM6InVpZC
I7czoxOiI0IjtzOjg6ImRhdGVsaW5lIjtzOjEwOiIxMTgyNDA5
ODIzIjtzOjg6Imxhc3R0aW1lIjtzOjEwOiIxMTgyNDA5ODM4Ij
tzOjg6InJvYm90bnVtIjtzOjI6IjgzIjtzOjExOiJsaXN0dXJs
dHlwZSI7czo0OiJhdXRvIjtzOjc6Imxpc3R1cmwiO3M6NTU6Im
h0dHA6Ly9ldC4yMWNuLmNvbS9zdGFyL3podWl4aW5nL25laWRp
L2xpc3RbcGFnZV0uc2h0bWwiO3M6MTM6Imxpc3RwYWdlc3Rhcn
QiO3M6MToiMSI7czoxMToibGlzdHBhZ2VlbmQiO3M6MToiMiI7
czo2OiJhbGxudW0iO3M6MjoiMzMiO3M6NjoicGVybnVtIjtzOj
E6IjEiO3M6Nzoic2F2ZXBpYyI7czoxOiIwIjtzOjY6ImVuY29k
ZSI7czowOiIiO3M6MTM6InBpY3VybGxpbmtwcmUiO3M6MDoiIj
tzOjk6InNhdmVmbGFzaCI7czoxOiIwIjtzOjE0OiJzdWJqZWN0
dXJscnVsZSI7czo5OToiOjogPHNwYW4gY2xhc3M9InVubmFtZW
QxIj48Zm9udCBjb2xvcj0iIzAwMDAwMCI+xNq12NDHzsU8L2Zv
bnQ+PC9zcGFuPio6OltsaXN0XSA8IS0tyc/Su9KztcS0+sLrLS
0+IjtzOjE4OiJzdWJqZWN0dXJsbGlua3J1bGUiO3M6NDc6Ijxh
IGhyZWY9Ilt1cmxdIiB0YXJnZXQ9Il9ibGFuayIgY2xhc3M9Ij
E0cDE2aCI+IjtzOjE3OiJzdWJqZWN0dXJsbGlua3ByZSI7czox
ODoiaHR0cDovL2V0LjIxY24uY29tIjtzOjExOiJzdWJqZWN0cn
VsZSI7czoyNDoiPHRpdGxlPltzdWJqZWN0XTwvdGl0bGU+Ijtz
OjEzOiJzdWJqZWN0ZmlsdGVyIjtzOjExNzoiLSAyMUNOLkNPTS
AtINPpwNbGtbXAfC0gMjFDTi5DT00gLSDT6cDWINL9t6LQx7jf
s7EhfC0gMjFDTi5DT00gLSDT6cDWINL9t6K/7LjQIXwtIDIxQ0
4uQ09NIC0g0+nA1iDS/beiv+y40HwtIDIxQ04uQ09NIjtzOjE0
OiJzdWJqZWN0cmVwbGFjZSI7czowOiIiO3M6MTY6InN1YmplY3
RyZXBsYWNldG8iO3M6MDoiIjtzOjEwOiJzdWJqZWN0a2V5Ijtz
OjA6IiI7czoxODoic3ViamVjdGFsbG93cmVwZWF0IjtzOjE6Ij
AiO3M6MTI6ImRhdGVsaW5lcnVsZSI7czowOiIiO3M6ODoiZnJv
bXJ1bGUiO3M6MDoiIjtzOjEwOiJhdXRob3JydWxlIjtzOjA6Ii
I7czoxMToibWVzc2FnZXJ1bGUiO3M6Mjk6IjwhLS3V/c7ELS0+
W21lc3NhZ2VdPC9wPjwvVEQ+IjtzOjEzOiJtZXNzYWdlZmlsdG
VyIjtzOjQ3MzoiJmd0OyZndDsmZ3Q7yKuyv76rssrNvMasfCZn
dDsmZ3Q7Jmd0O7S0vai49sjLzby8r3w8QSB0aXRsZT0iIiBocm
VmPSouMjFjbi5jb20qPnwmZ3Q7Jmd0OyZndDvN+NPRzPnNvHzP
4LnYway90zp8PEEgaHJlZj0qPio8L0E+fDIxQ07T6cDW0bY6fD
IxQ07T6cDW0+nRtnwmZ3Q7Jmd0OyZndDvQtNXmxrW1wMir0MLJ
z8/fzPTVvcTjtcTR28fytdfP33y147v3sum/tNfu0MLPytfuyM
jAsbjbzKjQws7FJmd0OyZndDsmZ3Q7Jmd0O3w8U1RST05HKjwv
U1RST05HPnw8QSo+fDxzY3JpcHQqPjwvc2NyaXB0Pnw8L0E+fD
xUQUJMRSBjZWxsU3BhY2luZz0wIGNlbGxQYWRkaW5nPTEwIHdp
ZHRoPSI5NSUiIGJvcmRlcj0wPio8QSo+Ks28xqzGtbXAKiZndD
sgPEEqPio8L0E+fDxUQUJMRSBib3JkZXJDb2xvcj0jYzBjMGMw
IGNlbGxQYWRkaW5nPTAgd2lkdGg9NTUwIGFsaWduPWNlbnRlci
Bib3JkZXI9MT4qzbzGrMa1tcAqJmd0OyA8QSo+KjwvQT4iO3M6
MTU6Im1lc3NhZ2VwYWdldHlwZSI7czo0OiJwYWdlIjtzOjE1Oi
JtZXNzYWdlcGFnZXJ1bGUiO3M6NDg6Ijxmb250IGNvbG9yPSNG
RjAwMDA+WzFdPC9mb250PltwYWdlYXJlYV1bz8LSu9KzXSI7cz
oxODoibWVzc2FnZXBhZ2V1cmxydWxlIjtzOjI4OiI8YSB0YXJn
ZXQ9X3NlbGYgaHJlZj1bcGFnZV0+IjtzOjIxOiJtZXNzYWdlcG
FnZXVybGxpbmtwcmUiO3M6NTA6Imh0dHA6Ly9ldC4yMWNuLmNv
bS9zdGFyL3podWl4aW5nL25laWRpLzIwMDcvMDYvMTkvIjtzOj
E0OiJtZXNzYWdlcmVwbGFjZSI7czowOiIiO3M6MTY6Im1lc3Nh
Z2VyZXBsYWNldG8iO3M6MDoiIjtzOjc6InZlcnNpb24iO3M6NT
oiNS41LjIiO30=
回复

使用道具 举报

网点 发表于 2007-6-25 16:54:22 | 显示全部楼层
如果前面的分页地址比较有规律现在的采集器还比较容易对付,
但是如果是不规律的有可能出现找不到对应地址的。
回复

使用道具 举报

 楼主| 古剑 发表于 2007-6-26 15:07:18 | 显示全部楼层
文章内容分页链接URL补充前缀 需要填入:http://et.21cn.com/star/zhuixing/neidi/2007/06/21/  可以采集得到,但列表页面的文章不是同一天的,其他日期的就采集不到分页。
回复

使用道具 举报

 楼主| 古剑 发表于 2007-6-27 01:43:56 | 显示全部楼层
顶到解决为止!
回复

使用道具 举报

xgabug 发表于 2007-9-1 23:52:00 | 显示全部楼层
怎么没顶了....??????????????
回复

使用道具 举报

d1ok 发表于 2007-9-3 04:05:44 | 显示全部楼层

我也遇到这问题

我也遇到这问题,还没想出来怎么办,顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶
回复

使用道具 举报

xgabug 发表于 2007-9-3 13:19:14 | 显示全部楼层
那就继续顶吧...
回复

使用道具 举报

dingzi 发表于 2007-9-3 14:30:55 | 显示全部楼层
1、因为是相对链接,文章内容分页链接URL补充前缀 需要填入:http://et.21cn.com/star/zhuixing/neidi/2007/06/21/

这个,目前就这样了,没法解决,只能是采一天换一天,还没法搞到这种动态目录页。


2、就算能采集到分页,每次总是把<a target=_self href=3307015_1.shtml>[下一页]这个页重复采集了一次。

这个就是需要自己想办法了,简称:笨

你以[下一页]为结束,这样,URL采用<a target=_self href=[url]>[  
由于下一页标志采用了前面的[,可以免勉下一页的网址被采到。
回复

使用道具 举报

zhangwe130 发表于 2007-11-14 17:02:36 | 显示全部楼层
同样问题!!!技术高手出手解决!!!
回复

使用道具 举报

quily 发表于 2008-1-27 11:16:44 | 显示全部楼层
恩,的确我也遇到了这个问题,我曾想有分析本页url的方式达到,可是不行,采集功能要加强啊,这点动易的就做到很好
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2025-11-9 01:28 , Processed in 0.098733 second(s), 14 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表