Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

采集分页的BUG

[复制链接]
cctv1233 发表于 2007-7-6 05:00:19 | 显示全部楼层 |阅读模式
有分页采集时第一页大都会重复采集。如果从规则上过滤掉第一页的话,则第二页会采不到,后面的可以正常采下来!
比如下面这段分页的采集!
采集这篇文章
http://www.enet.com.cn/article/2007/0705/A20070705709679.shtml


  1. <select name=dldhop onchange="javascript:window.location.href=document.all.dldhop.value" class="size14" style="width:250px">
  2. 第 1 页
  3. <option value="./A20070705709679.shtml"  selected >第1页</option>
  4. 第 2 页
  5. <option value="./A20070705709679_2.shtml" >第2页</option>
  6. 第 3 页
  7. <option value="./A20070705709679_3.shtml" >第3页</option>
  8. 第 4 页
  9. <option value="./A20070705709679_4.shtml" >第4页</option>
  10. </select>
复制代码


文章内容分页链接识别规则 设成<option value="./
 楼主| cctv1233 发表于 2007-7-6 05:09:23 | 显示全部楼层
还有哦,
文章内容分页链接URL补充前缀 建议象DEDECMS一样设成程序自动匹配!不然的话前缀是动态的就不好采分页了!
还是上面那个网站!分页链接URL补充前缀是http://www.enet.com.cn/article/2007/0705 最后的0705是随日期变化的,所以文章内容分页链接URL补充前缀就不好填了,只能采一天改一天! 。这个技术上应该是没问题的吧?DEDE都做得到。SS应该也可以吧。
回复

使用道具 举报

 楼主| cctv1233 发表于 2007-7-6 05:23:14 | 显示全部楼层
还有,写了分页规则,如果碰到没有分页的就会显示处理分页链接失败!真失败!
回复

使用道具 举报

茄子 发表于 2007-7-6 09:45:47 | 显示全部楼层
不能分页应该是采集规则错误吧
可以将您要采集的页面和采集规则发出来看看
回复

使用道具 举报

magic535 发表于 2007-7-6 09:47:47 | 显示全部楼层
不能分页应该是采集规则错误吧
回复

使用道具 举报

8qzone 发表于 2007-7-6 09:48:36 | 显示全部楼层
是啊 我也遇到这样的问题
回复

使用道具 举报

 楼主| cctv1233 发表于 2007-7-6 20:10:04 | 显示全部楼层
原帖由 茄子 于 2007-7-6 09:45 发表
不能分页应该是采集规则错误吧
可以将您要采集的页面和采集规则发出来看看

不是不能分页,而是分页很不完美!

采集页面

http://www.enet.com.cn/emobile/l ... e&articleType=6

  1. # SupeSite Dump
  2. # Version: SupeSite 5.5
  3. # Time: 2007-07-06 20:08:25
  4. # From: 紫龙娱乐网 ([url]http://spaces.zl06.net.ru[/url])
  5. #
  6. # This file was BASE64 encoded
  7. #
  8. # SupeSite: [url]http://www.supesite.com[/url]
  9. # Please visit our website for latest news about SupeSite
  10. # --------------------------------------------------------


  11. YTozNzp7czo3OiJyb2JvdGlkIjtzOjI6IjcxIjtzOjQ6Im5hbW
  12. UiO3M6MTI6ImVuZXTK1rv618rRtiI7czozOiJ1aWQiO3M6Mjoi
  13. MjUiO3M6ODoiZGF0ZWxpbmUiO3M6MTA6IjExODM3MjMwNzMiO3
  14. M6ODoibGFzdHRpbWUiO3M6MTA6IjExODM3MjM0NjMiO3M6ODoi
  15. cm9ib3RudW0iO3M6MjoiMTkiO3M6MTE6Imxpc3R1cmx0eXBlIj
  16. tzOjQ6ImF1dG8iO3M6NzoibGlzdHVybCI7czo4NjoiaHR0cDov
  17. L3d3dy5lbmV0LmNvbS5jbi9lbW9iaWxlL2xpc3QvaW5kZXguan
  18. NwP3BhZ2U9W3BhZ2VdJnNpdGVpZD1lbW9iaWxlJmFydGljbGVU
  19. eXBlPTYiO3M6MTM6Imxpc3RwYWdlc3RhcnQiO3M6MToiMSI7cz
  20. oxMToibGlzdHBhZ2VlbmQiO3M6MToiMyI7czo2OiJhbGxudW0i
  21. O3M6MzoiMTAwIjtzOjY6InBlcm51bSI7czoxOiIxIjtzOjc6In
  22. NhdmVwaWMiO3M6MToiMSI7czo2OiJlbmNvZGUiO3M6MDoiIjtz
  23. OjEzOiJwaWN1cmxsaW5rcHJlIjtzOjA6IiI7czo5OiJzYXZlZm
  24. xhc2giO3M6MToiMCI7czoxNDoic3ViamVjdHVybHJ1bGUiO3M6
  25. MTIxOiI8c3BhbiBjbGFzcz0ib3JhbmdlMSI+yKuyvzwvc3Bhbj
  26. 48L3A+W2xpc3RdPHRhYmxlIHdpZHRoPSIxMDAlIiBib3JkZXI9
  27. IjAiIGNlbGxzcGFjaW5nPSIwIiBjZWxscGFkZGluZz0iMCIgYW
  28. xpZ249ImNlbnRlciI+IjtzOjE4OiJzdWJqZWN0dXJsbGlua3J1
  29. bGUiO3M6MTU6IjxhIGhyZWY9Ilt1cmxdIiI7czoxNzoic3Viam
  30. VjdHVybGxpbmtwcmUiO3M6MjI6Imh0dHA6Ly93d3cuZW5ldC5j
  31. b20uY24iO3M6MTE6InN1YmplY3RydWxlIjtzOjE4OiI8aDE+W3
  32. N1YmplY3RdPC9oMT4iO3M6MTM6InN1YmplY3RmaWx0ZXIiO3M6
  33. MDoiIjtzOjE0OiJzdWJqZWN0cmVwbGFjZSI7czowOiIiO3M6MT
  34. Y6InN1YmplY3RyZXBsYWNldG8iO3M6MDoiIjtzOjEwOiJzdWJq
  35. ZWN0a2V5IjtzOjA6IiI7czoxODoic3ViamVjdGFsbG93cmVwZW
  36. F0IjtzOjE6IjAiO3M6MTI6ImRhdGVsaW5lcnVsZSI7czowOiIi
  37. O3M6ODoiZnJvbXJ1bGUiO3M6MDoiIjtzOjEwOiJhdXRob3JydW
  38. xlIjtzOjA6IiI7czoxMToibWVzc2FnZXJ1bGUiO3M6Mzk6Ijxk
  39. aXYgY2xhc3M9ImNvbnRlbnR0eHQiPlttZXNzYWdlXTwvZGl2Pi
  40. I7czoxMzoibWVzc2FnZWZpbHRlciI7czoyMzQ6IjxhKj58PC9h
  41. Pnw8QSo+fDwvQT58PGltZyBzcmM9J2h0dHA6Ly9pbWFnZXMuZW
  42. 5ldC5jb20uY24vZW5kLmdpZicgd2lkdGg9JzExJyBoZWlnaHQ9
  43. JzExJyBib3JkZXI9JzAnIHRhcmdldD0nX2JsYW5rJyBhbGlnbj
  44. 0nYWJzbWlkZGxlJy8+fDxwIGFsaWduPSdyaWdodCc+PHNwYW4g
  45. c3R5bGU9J2ZvbnQtZmFtaWx5OsvOzOU7Zm9udC1zaXplOjEyJz
  46. 6hvtTwyM6x4LytICqhvzwvc3Bhbj48L3A+fGJvcmRlcj0iMSIg
  47. ICI7czoxNToibWVzc2FnZXBhZ2V0eXBlIjtzOjQ6Im5leHQiO3
  48. M6MTU6Im1lc3NhZ2VwYWdlcnVsZSI7czoxNDQ6IjxzZWxlY3Qg
  49. bmFtZT1kbGRob3Agb25jaGFuZ2U9ImphdmFzY3JpcHQ6d2luZG
  50. 93LmxvY2F0aW9uLmhyZWY9ZG9jdW1lbnQuYWxsLmRsZGhvcC52
  51. YWx1ZSIgY2xhc3M9InNpemUxNCIgc3R5bGU9IndpZHRoOjI1MH
  52. B4Ij5bcGFnZWFyZWFdPC9zZWxlY3Q+KiI7czoxODoibWVzc2Fn
  53. ZXBhZ2V1cmxydWxlIjtzOjI2OiI8b3B0aW9uIHZhbHVlPSIuL1
  54. twYWdlXSIgPiI7czoyMToibWVzc2FnZXBhZ2V1cmxsaW5rcHJl
  55. IjtzOjQxOiJodHRwOi8vd3d3LmVuZXQuY29tLmNuL2FydGljbG
  56. UvMjAwNy8wNzA2LyI7czoxNDoibWVzc2FnZXJlcGxhY2UiO3M6
  57. MDoiIjtzOjE2OiJtZXNzYWdlcmVwbGFjZXRvIjtzOjA6IiI7cz
  58. o3OiJ2ZXJzaW9uIjtzOjM6IjUuNSI7fQ==
复制代码
回复

使用道具 举报

 楼主| cctv1233 发表于 2007-7-7 01:20:57 | 显示全部楼层
这个搜狐的也是一样的情况!
http://yule.sohu.com/gangtaimingxing.shtml
  1. # SupeSite Dump
  2. # Version: SupeSite 5.5
  3. # Time: 2007-07-07 01:15:41
  4. # From: 紫龙娱乐网 ([url]http://spaces.zl06.net.ru[/url])
  5. #
  6. # This file was BASE64 encoded
  7. #
  8. # SupeSite: [url]http://www.supesite.com[/url]
  9. # Please visit our website for latest news about SupeSite
  10. # --------------------------------------------------------


  11. YTozNzp7czo3OiJyb2JvdGlkIjtzOjI6IjY4IjtzOjQ6Im5hbW
  12. UiO3M6MTM6InNvaHUtuNvMqMP30MciO3M6MzoidWlkIjtzOjI6
  13. IjI1IjtzOjg6ImRhdGVsaW5lIjtzOjEwOiIxMTgzNzQyMTI0Ij
  14. tzOjg6Imxhc3R0aW1lIjtzOjEwOiIxMTgzNzQxMTM3IjtzOjg6
  15. InJvYm90bnVtIjtzOjE6IjciO3M6MTE6Imxpc3R1cmx0eXBlIj
  16. tzOjY6Im1hbnVhbCI7czo3OiJsaXN0dXJsIjtzOjQyOiJodHRw
  17. Oi8veXVsZS5zb2h1LmNvbS9nYW5ndGFpbWluZ3hpbmcuc2h0bW
  18. wiO3M6MTM6Imxpc3RwYWdlc3RhcnQiO3M6MToiMCI7czoxMToi
  19. bGlzdHBhZ2VlbmQiO3M6MToiMCI7czo2OiJhbGxudW0iO3M6ND
  20. oiMTAwMCI7czo2OiJwZXJudW0iO3M6MToiMiI7czo3OiJzYXZl
  21. cGljIjtzOjE6IjAiO3M6NjoiZW5jb2RlIjtzOjA6IiI7czoxMz
  22. oicGljdXJsbGlua3ByZSI7czowOiIiO3M6OToic2F2ZWZsYXNo
  23. IjtzOjE6IjAiO3M6MTQ6InN1YmplY3R1cmxydWxlIjtzOjkwOi
  24. IoJ3BhZ2VuYXYnKS52YWx1ZSk7cmV0dXJuIGZhbHNlOyI+R288
  25. L2E+W2xpc3RdPHRkIG5vd3JhcD48YSBocmVmPScvZ2FuZ3RhaW
  26. 1pbmd4aW5nLnNodG1sJz4iO3M6MTg6InN1YmplY3R1cmxsaW5r
  27. cnVsZSI7czoyMToiPGxpPqGkPGEgaHJlZj0nW3VybF0nIjtzOj
  28. E3OiJzdWJqZWN0dXJsbGlua3ByZSI7czowOiIiO3M6MTE6InN1
  29. YmplY3RydWxlIjtzOjE4OiI8aDE+W3N1YmplY3RdPC9oMT4iO3
  30. M6MTM6InN1YmplY3RmaWx0ZXIiO3M6MDoiIjtzOjE0OiJzdWJq
  31. ZWN0cmVwbGFjZSI7czowOiIiO3M6MTY6InN1YmplY3RyZXBsYW
  32. NldG8iO3M6MDoiIjtzOjEwOiJzdWJqZWN0a2V5IjtzOjA6IiI7
  33. czoxODoic3ViamVjdGFsbG93cmVwZWF0IjtzOjE6IjAiO3M6MT
  34. I6ImRhdGVsaW5lcnVsZSI7czowOiIiO3M6ODoiZnJvbXJ1bGUi
  35. O3M6NDI6IjxkaXYgY2xhc3M9ImxlZnQgdGV4dCI+KsC01LSjul
  36. tmcm9tXTwvZGl2PiI7czoxMDoiYXV0aG9ycnVsZSI7czowOiIi
  37. O3M6MTE6Im1lc3NhZ2VydWxlIjtzOjgzOiI8ZGl2IGlkPSJzb2
  38. h1X2NvbnRlbnQiIGNsYXNzPSJhcnRpY2xlIj5bbWVzc2FnZV08
  39. ZGl2IGNsYXNzPSJlZGl0VXNyIiBhbGlnbj0icmlnaHQiPiI7cz
  40. oxMzoibWVzc2FnZWZpbHRlciI7czo3MjI6IjxkaXYgc3R5bGU9
  41. Im1hcmdpbi1ib3R0b206MTBweCI+KjwvZGl2Pnw8dHI+PHRkIG
  42. FsaWduPSJjZW50ZXIiPlu147v3zbzGrL34yOvPwtK70rNdPC90
  43. ZD48L3RyPnw8dGFibGUgYm9yZGVyPTAgY2VsbHNwYWNpbmc9MC
  44. BjZWxscGFkZGluZz0wICBhbGlnbj0ibGVmdCI+KjwvaWZyYW1l
  45. PjwvdGQ+PC90cj48L3RhYmxlPio8L3RkPjwvdHI+PC90YWJsZT
  46. 58PGlmcmFtZSo8L2lmcmFtZT58PFNQQU4gY2xhc3M9YXJ0aWNs
  47. ZUxpbms+KDxBKkE+KTwvU1BBTj58PGEqPnw8L2E+fDxBKj58PC
  48. 9BPnw8c3R5bGU+Kjwvc3R5bGU+fDxkaXYgaWQ9ImNtczRfenV0
  49. dV9uYXYxIj4qPC9kaXY+fDxUQUJMRSBzdHlsZT0iTUFSR0lOOi
  50. A1cHgiIGNlbGxTcGFjaW5nPTEgY2VsbFBhZGRpbmc9OCB3aWR0
  51. aD01MjAgYWxpZ249Y2VudGVyKjwvVEFCTEU+fDxUQUJMRSBjZW
  52. xsUGFkZGluZz0yIHdpZHRoPSIxMDAlIiBiZ0NvbG9yPSNmZmFk
  53. ODYgYm9yZGVyPTA+KjwvVEFCTEU+PC9URD48L1RSPjwvVEJPRF
  54. k+PC9UQUJMRT48L1REPjwvVFI+PC9UQk9EWT48L1RBQkxFPnw8
  55. dGFibGUgYm9yZGVyPTAgd2lkdGg9MTAwJSBjZWxscGFkZGluZz
  56. 0wIGNlbGxzcGFjaW5nPTA+KjwvdGFibGU+fDxTVFJPTkc+oaHL
  57. 0br80+nA1rbAvNK45bz+o6yw5sioy/nT0KOsKteq1NgqPC9TVF
  58. JPTkc+fMvRuvzT6cDWtsC80rjlvP6jrLDmyKjX98a3o6wq16rU
  59. 2Hw8Rk9OVCBjb2xvcj0jZmYwMDAwPsrTxrWjuio8L0ZPTlQ+Ij
  60. tzOjE1OiJtZXNzYWdlcGFnZXR5cGUiO3M6NDoicGFnZSI7czox
  61. NToibWVzc2FnZXBhZ2VydWxlIjtzOjQ4OiI8ZGl2IHN0eWxlPS
  62. JtYXJnaW4tYm90dG9tOjEwcHgiPltwYWdlYXJlYV08L2Rpdj4i
  63. O3M6MTg6Im1lc3NhZ2VwYWdldXJscnVsZSI7czoyNDoiPG9wdG
  64. lvbiB2YWx1ZT0iW3BhZ2VdIiA+IjtzOjIxOiJtZXNzYWdlcGFn
  65. ZXVybGxpbmtwcmUiO3M6MDoiIjtzOjE0OiJtZXNzYWdlcmVwbG
  66. FjZSI7czowOiIiO3M6MTY6Im1lc3NhZ2VyZXBsYWNldG8iO3M6
  67. MDoiIjtzOjc6InZlcnNpb24iO3M6MzoiNS41Ijt9
复制代码

茄子用上面的规则采看看是不是第二分页采不到?

再把文章内容分页链接识别规则 改成
  1. option value=""
复制代码
看看!是不是第一页重复采集了!
好多网站都是这样的哦!汗,不知道是不是真的偶的规则有问题了@!
回复

使用道具 举报

茄子 发表于 2007-7-9 16:07:25 | 显示全部楼层
针对分页是无序日期数字的情况,还不能完美支持采集
这个我们之后改进下看看
回复

使用道具 举报

 楼主| cctv1233 发表于 2007-7-9 17:20:26 | 显示全部楼层
还有那个分页第一页重复采集或者第二页丢失的问题呢?希望茄子也可以解决下!
就是8楼那个采集规则!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 18:42 , Processed in 0.046361 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表