采集貌似有些时候不能排除相同题目信息。

谷歌 · 发表于 2006-11-29 11:55:07

案例：在第一个站点采集收集采用不允许重复模式。基本都做到了无重复。采集第二个站点采取不允许重复模式。但基本过滤不了重复信息。这是个很大很大的问题！

茄子 · 发表于 2006-11-29 12:01:47

什么意思？
第一个站点第二个站点都是什么？

谷歌 · 发表于 2006-11-29 12:33:08

比如第一个站为 www.hroot.com 第二个为www.chinahrd.com 第一个站采完后再采第二个站。第二个站的资料好像和第一个站的资料有很多重复的。但是采用不允许重复模式不管用！这是个问题。。随着数据库增大。不知道能不能跑这么大的数据库，，( 倒入时全部采用了不删除）

[ 本帖最后由谷歌于 2006-11-29 12:57 编辑 ]

谷歌 · 发表于 2006-11-29 17:33:38

不知道今天茄子还能不能看到。。

茄子 · 发表于 2006-11-29 17:37:44

采集重复与否是在同一个规则里面判断的，并不对跨规则进行处理

您的这个应该是不同的规则里面有内容重复，不再处理范围之内

谷歌 · 发表于 2006-11-30 09:16:44

明白了。不过还是建议能够在不同规则里面可以去掉重复的帖子。。

		自动登录	找回密码
密码			立即注册