Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] 请求帮忙看一下怎样采集,太有难度了!

[复制链接]
sunxuming 发表于 2009-5-28 03:24:45 | 显示全部楼层 |阅读模式
牵扯到外语相当难采集,请帮忙看一下,只说一下列表区域识别规则和文章内容识别规则就行,谢谢!
列表页:
<span class="mw-headline">а</span></h2>
<pre>
<a href="/wiki/%D0%B0" title="а">а</a>
<a href="/wiki/%D0%B0-" title="а-">а-</a>
</pre>
<p><a name=".D0.B0.D0.B0" id=".D0.B0.D0.B0"></a></p>
<h2><span class="editsection">[<a href="/w/index.php?title=%D0%98%D0%BD%D0%B4%D0%B5%D0%BA%D1%81:%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%8F%D0%B7%D1%8B%D0%BA/%D0%90&amp;action=edit&amp;section=2" title="Править секцию: аа">прав.</a>]</span> <span class="mw-headline">аа</span></h2>
衔接从这里开始或者从上面什么地方开始都行。(中间略)
<a href="/wiki/%D0%90%D1%8F%D1%85%D1%82%D0%B0" title="Аяхта">Аяхта</a>  
</pre>
<p><br /></p>
<table style="padding:8px;" cellpadding="8" width="100%">

内容页:
<span class="mw-headline">Морфологические и синтаксические свойства</span></span></h3>
中间是内容
<p><a name=".D0.9F.D1.80.D0.BE.D0.B8.D0.B7.D0.BD.D0.BE.D1.88.D0.B5.D0.BD.D0.B8.D0.B5" id=".D0.9F.D1.80.D0.BE.D0.B8.D0.B7.D0.BD.D0.BE.D1.88.D0.B5.D0.BD.D0.B8.D0.B5"></a></p>
<h3><span class="editsection">

怎么测试都不成功,真崩溃了,采集过别的网页都没问题。谢谢!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-24 14:14 , Processed in 0.022512 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表