Discuz!官方免费开源建站系统

 找回密码
 立即注册
搜索

[采集] 请高手帮助编写这种新闻的分页代码

[复制链接]
ysliwei 发表于 2009-7-23 23:06:39 | 显示全部楼层 |阅读模式
本帖最后由 ysliwei 于 2009-7-23 23:46 编辑

比如这条新闻http://news.xinhuanet.com/world/2009-07/23/content_11758196.htm
分页模式:上下页导航
分页区域:<td><a href=[pagearea]<img src="http://imgs.xinhuanet.com/icon/newscenter/news_xy.gif"  border="0">
分页链接:"
回复

使用道具 举报

littlehz 发表于 2009-7-23 23:40:29 | 显示全部楼层
这条新闻不就是两页么?
回复

使用道具 举报

 楼主| ysliwei 发表于 2009-7-23 23:46:39 | 显示全部楼层
晕,不好意思,我想说的是多页的,比如这个http://news.xinhuanet.com/world/2009-07/23/content_11758196.htm
主帖我也改了
回复

使用道具 举报

 楼主| ysliwei 发表于 2009-7-23 23:49:50 | 显示全部楼层
我是指三页或三页以上的,第二页上有上一页,也有下一页,规则没法写
回复

使用道具 举报

 楼主| ysliwei 发表于 2009-7-23 23:52:12 | 显示全部楼层
特别是这样的:http://news.xinhuanet.com/world/2009-07/23/content_11756178_1.htm,也没有分页列表,不知道咋办
回复

使用道具 举报

littlehz 发表于 2009-7-24 00:14:06 | 显示全部楼层
文章内容分页模式 选择 上下页导航 ,文章内容分页区域识别规则 为 <center><table border="0" align="center"><tr><td>[pagearea]</table></center>
文章内容分页链接识别规则 </td><td><a href="" class="nextpage">
测试无问题
回复

使用道具 举报

 楼主| ysliwei 发表于 2009-7-24 08:32:08 | 显示全部楼层
本帖最后由 ysliwei 于 2009-7-24 08:34 编辑
  1. # SupeSite Dump
  2. # Version: SupeSite 7.0
  3. # Time: 2009-07-24 08:25:47
  4. # From: 颍上社区 (http://club.ahys.gov.cn/bbs_zw)
  5. #
  6. # This file was BASE64 encoded
  7. #
  8. # SupeSite: http://www.supesite.com
  9. # Please visit our website for latest news about SupeSite
  10. # --------------------------------------------------------


  11. YTo1MTp7czo3OiJyb2JvdGlkIjtzOjE6IjEiO3M6NDoibmFtZS
  12. I7czo4OiK5+rzK0MLOxSI7czozOiJ1aWQiO3M6MToiMyI7czo4
  13. OiJkYXRlbGluZSI7czoxMDoiMTI0ODM2MzczNiI7czo4OiJsYX
  14. N0dGltZSI7czoxMDoiMTI0ODM2MzgzMyI7czoxMToiaW1wb3J0
  15. Y2F0aWQiO3M6MToiMyI7czo4OiJyb2JvdG51bSI7czoyOiIxMS
  16. I7czoxMToibGlzdHVybHR5cGUiO3M6MzoibmV3IjtzOjc6Imxp
  17. c3R1cmwiO3M6OTI6ImE6Mjp7czo2OiJtYW51YWwiO2E6MTp7aT
  18. owO3M6Mzc6Imh0dHA6Ly93d3cueGluaHVhbmV0LmNvbS93b3Js
  19. ZC90dC5odG0iO31zOjQ6ImF1dG8iO3M6MDoiIjt9IjtzOjEzOi
  20. JsaXN0cGFnZXN0YXJ0IjtzOjE6IjAiO3M6MTE6Imxpc3RwYWdl
  21. ZW5kIjtzOjE6IjAiO3M6MTI6InJldmVyc2VvcmRlciI7czoxOi
  22. IwIjtzOjY6ImFsbG51bSI7czoxOiIxIjtzOjY6InBlcm51bSI7
  23. czoxOiIxIjtzOjc6InNhdmVwaWMiO3M6MToiMSI7czo2OiJlbm
  24. NvZGUiO3M6NjoiR0IyMzEyIjtzOjEzOiJwaWN1cmxsaW5rcHJl
  25. IjtzOjA6IiI7czo5OiJzYXZlZmxhc2giO3M6MToiMSI7czoxND
  26. oic3ViamVjdHVybHJ1bGUiO3M6MDoiIjtzOjE4OiJzdWJqZWN0
  27. dXJsbGlua3J1bGUiO3M6NDU6Ijx0ZCB3aWR0aD0iNDMwIj48YS
  28. BocmVmPVt1cmxdIHRhcmdldD0iX2JsYW5rIiI7czoxNzoic3Vi
  29. amVjdHVybGxpbmtwcmUiO3M6MDoiIjtzOjExOiJzdWJqZWN0cn
  30. VsZSI7czozMjoiPGRpdiBpZD0iVGl0bGUiPiBbc3ViamVjdF08
  31. L2Rpdj4iO3M6MTM6InN1YmplY3RmaWx0ZXIiO3M6MDoiIjtzOj
  32. E0OiJzdWJqZWN0cmVwbGFjZSI7czowOiIiO3M6MTY6InN1Ympl
  33. Y3RyZXBsYWNldG8iO3M6MDoiIjtzOjEwOiJzdWJqZWN0a2V5Ij
  34. tzOjA6IiI7czoxODoic3ViamVjdGFsbG93cmVwZWF0IjtzOjE6
  35. IjAiO3M6MTI6ImRhdGVsaW5lcnVsZSI7czowOiIiO3M6ODoiZn
  36. JvbXJ1bGUiO3M6NDA6IsC01LSjujxmb250IGNvbG9yPSIwMDAw
  37. NjYiPltmcm9tXTwvZm9udD4iO3M6MTA6ImF1dGhvcnJ1bGUiO3
  38. M6MDoiIjtzOjExOiJtZXNzYWdlcnVsZSI7czo1ODoiPGRpdiBp
  39. ZD0iQ29udGVudCI+IDxmb250IGlkPSJab29tIj4gW21lc3NhZ2
  40. VdPC9mb250PjwvZGl2PiI7czoxMzoibWVzc2FnZWZpbHRlciI7
  41. czoxMDg6Ijx0YWJsZSBhbGlnbj0ibGVmdCIgYm9yZGVyPTAgY2
  42. VsbFBhZGRpbmc9Mz48dHI+PHRkPjwhLS2547jmxNrI3b+qyrwt
  43. LT4qPCEtLbnjuObE2sjdveHK+C0tPjwvdGQ+PC90cj48L3RhYm
  44. xlPiI7czoxNToibWVzc2FnZXBhZ2V0eXBlIjtzOjQ6Im5leHQi
  45. O3M6MTU6Im1lc3NhZ2VwYWdlcnVsZSI7czo5OToiPHRkPjxhIG
  46. hyZWY9W3BhZ2VhcmVhXTxpbWcgc3JjPSJodHRwOi8vaW1ncy54
  47. aW5odWFuZXQuY29tL2ljb24vbmV3c2NlbnRlci9uZXdzX3h5Lm
  48. dpZiIgIGJvcmRlcj0iMCI+IjtzOjE4OiJtZXNzYWdlcGFnZXVy
  49. bHJ1bGUiO3M6MjU6IiJbcGFnZV0iIGNsYXNzPSJuZXh0cGFnZS
  50. IiO3M6MjE6Im1lc3NhZ2VwYWdldXJsbGlua3ByZSI7czowOiIi
  51. O3M6MTQ6Im1lc3NhZ2VyZXBsYWNlIjtzOjA6IiI7czoxNjoibW
  52. Vzc2FnZXJlcGxhY2V0byI7czowOiIiO3M6ODoiYXV0b3R5cGUi
  53. O3M6MToiMSI7czoxMToid2lsZGNhcmRsZW4iO3M6MToiMCI7cz
  54. oyMDoic3ViamVjdHVybGxpbmtjYW5jZWwiO3M6MTI6Imh0dHA6
  55. Ly93d3cuKiI7czoyMDoic3ViamVjdHVybGxpbmtmaWx0ZXIiO3
  56. M6MDoiIjtzOjE2OiJzdWJqZWN0dXJsbGlua3BmIjtzOjA6IiI7
  57. czoxNjoic3ViamVjdGtleWNhbmNlbCI7czowOiIiO3M6MTA6Im
  58. 1lc3NhZ2VrZXkiO3M6MDoiIjtzOjE2OiJtZXNzYWdla2V5Y2Fu
  59. Y2VsIjtzOjA6IiI7czoxMzoibWVzc2FnZWZvcm1hdCI7czoxOi
  60. IwIjtzOjIwOiJtZXNzYWdlcGFnZXVybGxpbmtwZiI7czowOiIi
  61. O3M6NzoidWlkcnVsZSI7czo0OiIyMTkxIjtzOjE1OiJkZWZhdW
  62. x0ZGF0ZWxpbmUiO3M6MToiMCI7czo3OiJ2ZXJzaW9uIjtzOjM6
  63. IjcuMCI7fQ==
复制代码
以上是我的采集器的完整代码,但超过三页的情况下只能采到前两页。
我分析原因,是因为第一页中的“下一页”和第二页的“下一页”无法区分。楼上给出的代码在第一页时无效。

附第一页分页链接区代码:
  1. <center><table border="0" align="center"><tr><td><a href="http://news.xinhuanet.com/world/2009-07/23/content_11756178_1.htm" class="nextpage"><img src="http://imgs.xinhuanet.com/icon/newscenter/news_xy.gif"  border="0"></a></td></tr></table></center>
复制代码
附:第二页分页链接区代码:
  1. <center><table border="0" align="center"><tr><td><a href="http://news.xinhuanet.com/world/2009-07/23/content_11756178.htm" class="prevpage"><img src="http://imgs.xinhuanet.com/icon/newscenter/news_sy.gif"  border="0"></a></td><td><a href="http://news.xinhuanet.com/world/2009-07/23/content_11756178_2.htm" class="nextpage"><img src="http://imgs.xinhuanet.com/icon/newscenter/news_xy.gif"  border="0"></a></td></tr></table></center>
复制代码
回复

使用道具 举报

littlehz 发表于 2009-7-24 11:03:43 | 显示全部楼层
给的链接是资讯第二页的,URL最后是1我还以为是第一页。
这样的规则确实难写,很难把下一页的代码筛选出来
回复

使用道具 举报

 楼主| ysliwei 发表于 2009-7-24 12:54:22 | 显示全部楼层
哦,感谢大侠认真回复,看来现在SS还没法采集这样的资讯,希望下一版在分页时能加入逻辑判断,解决这样的问题。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2025-9-12 02:00 , Processed in 0.084301 second(s), 14 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表