关于采集器文章内容过滤的BUG

kissmahao · 发表于 2009-1-16 20:11:43

在设置好过滤规则之后,系统会自动在换行的地方加上*, 而*却又代表了任何的字符,这就导致了,当规则结尾有多个标签的时候,他只按顺序向后匹配就可以了,不管这中间有多少其他的代码.

比如以
</td>
      </tr>
      </table>
      <table width="90%" height="30" border="0" cellpadding="0" cellspacing="0">
结尾,系统会自动生成</td>*       </tr>*       </table>

而当出现
</td></tr></table><br/><br/>aaaaaaaaaaaaaaaaaaaaaaaaaaa<table border=0 align=left> <tr><td>aaaaaaaaaaaaaaaaaaaaaaaaaaa</td></tr></table>aaaaaaaaaaaaaaaaaaaaaaaaa</td>
      </tr>
      </table>
      <table width="90%" height="30" border="0" cellpadding="0" cellspacing="0">
这种情况时, 中间不管出现多少东西都会采集不到,因为他在前面加红的地方就已经开始匹配了. 而中间的都以*结束了.

		自动登录	找回密码
密码			立即注册