搜索了论坛,此方面的问题提的不少..茄子的回答是不要采集这种herf="98987.htm"相对路径的信息.
觉得这样的回答有点不负责人的感觉
不知官方在下一版本中会不会解决这个问题,并不难解决
以下是我想到的实现办法,也许并不成熟.仅供参考
- <a href='../../../f/edu/0611/28/355332.htm' target=_blank class="f14">
复制代码
-
- [第一页]</a> <a href="339503.htm"><font color="#FF0000">1</font></a> <a href="339503_1.htm">2</a> <a href="339503_1.htm">[下一页]
复制代码
这儿有两段代码.
第一段为文章例表url格式
第二段为文章分页代码格式
从例表中可以采到文章url,并加前缀解决.这是现在采集的方法.
当分页没有办法加前缀,因为分页的前缀是文章url
http://域名/f/edu/0611/28的这部分.而这部分是不固定的.
那么.是不是可以这样
在例表中的url中只采.htm前的那部分../../../f/edu/0611/28/355332(即f/edu/0611/28/355332)
文章的url可以加前缀域名及后缀扩展名
得到
前缀+f/edu/0611/28/355332+后缀(.htm)
那么在分页中就可以前缀域名加采集到的不完整的url
即得到http://域名/采集到的url/分页相对路径的url(此例中的339503_1.htm)
我想这是一种方法.提出来的目的是想请官方重视这些细节上的东西.采集功能即然实现了就把他做完善些.不要半吊子的,弄得像鸡肋 |