Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[已答复] SS采集,标题重复不应该成为唯一的采集剔除标准

[复制链接]
信宁军 发表于 2009-12-23 15:12:39 | 显示全部楼层 |阅读模式
刚从动易+动网转过来,还为正式上传使用,发现在SS的采集过程中只能依靠标题剔除重复信息
新站放在127.0.0.1,原站放在192.168.1.100,新站用SS采集重录原站信息,过程中发现原信息大量被剔除,原因是我在采集时设置了“不允许标题重复”。
看到这里,有的朋友就说了,“那是你原来的信息就有重复啊”。不对,我原来的信息只是标题有重复,内容是绝无重复的。
比如“XX市场09月23日行情快递”,2000-2009年,每年09月23日都是这个标题,这样采集完成之后,就只有2000年那条留了下来,其余8条都被剔除了。
这当然有我以前写标题不够严谨的原因,却也从另一个方面反映出SS采集功能有待完善,采集剔除标准不应该只有标题重复一项。
假设可以选择“允许标题重复”+“不允许链接重复”,这问题就好办多了。
现在正想办法批量修改以前的标题,9年*365天*10多个市场,3万3千以上的信息.......晕!
 楼主| 信宁军 发表于 2009-12-23 15:15:38 | 显示全部楼层
动易是检查链接是否重复的,至少我以前这个版本是。。。。。。。。。。。。。
回复

使用道具 举报

lidq.jingwu 发表于 2009-12-23 15:52:07 | 显示全部楼层
回复 1# 信宁军


    这个问题我反馈给开发人员吧,但在采集时也可以设置允许标题重复啊。
回复

使用道具 举报

 楼主| 信宁军 发表于 2009-12-23 19:28:57 | 显示全部楼层
本帖最后由 信宁军 于 2009-12-23 19:34 编辑
回复  信宁军


    这个问题我反馈给开发人员吧,但在采集时也可以设置允许标题重复啊。
lidq.jingwu 发表于 2009-12-23 15:52



    是的,但这种问题应该也会出现在其它人的采集中我说批量改名是为了避免以后的类似情况
回复

使用道具 举报

 楼主| 信宁军 发表于 2009-12-25 19:05:45 | 显示全部楼层
没改标题,设置成“允许标题重复”,没有重复标题的页面也采出了重复标题
不过我已经有办法了,采过一次之后,在view模板改了一个地方,让所有标题都带上了日期,然后用另一个SS再采一遍,所有标题在数据库里就都带上了(xxxx-xx-xx)后缀。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-18 02:37 , Processed in 0.025724 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表