Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

采集貌似有些时候不能排除相同题目信息。

[复制链接]
谷歌 发表于 2006-11-29 11:55:07 | 显示全部楼层 |阅读模式
案例: 在第一个站点采集收集采用不允许重复模式。基本都做到了无重复。采集第二个站点 采取不允许重复模式。但基本过滤不了重复信息。这是个很大很大的问题!
茄子 发表于 2006-11-29 12:01:47 | 显示全部楼层
什么意思?
第一个站点第二个站点都是什么?
回复

使用道具 举报

 楼主| 谷歌 发表于 2006-11-29 12:33:08 | 显示全部楼层
比如第一个站为 www.hroot.com  第二个为www.chinahrd.com  第一个站采完后   再采第二个站。第二个站的资料 好像和第一个站的资料有很多重复的。但是采用不允许重复模式不管用!这是个问题。。随着数据库增大。不知道能不能跑这么大的数据库,,( 倒入时全部采用了不删除)

[ 本帖最后由 谷歌 于 2006-11-29 12:57 编辑 ]
回复

使用道具 举报

 楼主| 谷歌 发表于 2006-11-29 17:33:38 | 显示全部楼层
不知道今天茄子还能不能看到。。
回复

使用道具 举报

茄子 发表于 2006-11-29 17:37:44 | 显示全部楼层
采集重复与否是在同一个规则里面判断的,并不对跨规则进行处理

您的这个应该是不同的规则里面有内容重复,不再处理范围之内
回复

使用道具 举报

 楼主| 谷歌 发表于 2006-11-30 09:16:44 | 显示全部楼层
明白了。不过还是建议能够在不同规则里面可以去掉重复的帖子。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 02:57 , Processed in 0.023397 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表