Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] SS采集问题,帮帮忙呀。

[复制链接]
liktmart 发表于 2009-5-31 14:45:54 | 显示全部楼层 |阅读模式
问题:
我想同时采集多个网站的新闻作为互补,但有时这几个网站的内容都是相同的。
我想问下,怎样设置,如果在几个网站之间碰到相同标题的,只采集一个呢?

如果几个网站所采集内容有80%相似度也自动过滤呢?
Gnagno 发表于 2009-5-31 14:47:14 | 显示全部楼层
采集大站、专业站
回复

使用道具 举报

lidq.jingwu 发表于 2009-5-31 14:53:05 | 显示全部楼层
ss中的采集过滤只是针对单个采集规则而设置,它并不能将一个过滤规则来限制于几个采集器。
回复

使用道具 举报

 楼主| liktmart 发表于 2009-5-31 14:59:09 | 显示全部楼层
意思就是说,最好一个资讯只采集一个站的喽?

我的意思是,编写三个采集规则的话,分别采集三个站点。
三个采集都写入到同一个资讯里面去。

可是有时这三个站点可能会有相似的,我就是问一下碰到这种情况下,如何避免。
回复

使用道具 举报

 楼主| liktmart 发表于 2009-5-31 15:25:15 | 显示全部楼层
顶一个,快来人呀
回复

使用道具 举报

Gnagno 发表于 2009-5-31 16:51:07 | 显示全部楼层
采集就是简单的复制,手工+大脑可以避免,用相似度自动过滤,会多或少采集;

新闻,社会新闻,几乎大站的内容都是一样的,所以,你采集一个大站就可以了,比如:新华网
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-15 06:49 , Processed in 0.044435 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表