2007-11-16 | SupeSite 6.0 新版预告片——采集重装上阵

疯鼠 · 发表于 2007-11-16 09:30:23

在广泛听取了用户的需求后，SupeSite 6.0中的采集在易用性、准确度两个方面做了较大提升。

新老采集对比
老版采集

新版采集

合并功能

取消智能采集功能

新增/改进功能

【改进】列表页面链接设置更加随意化
【新增】测试(调试)功能
【新增】采集页面编码程序辅助识别
【新增】列表区域自动识别 (引入智能采集概念中的链接识别)
【新增】文章链接URL自动识别 (支持相对动态分页网址)
【新增】文章链接URL剔除
【新增】文章链接URL过滤
【新增】文章链接URL补充前缀自动识别 (支持相对动态分页网址)
【新增】文章链接URL补充后缀
【改进】支持多组文章标题文字替换
【新增】文章标题关键字剔除过滤
【新增】文章内容自动识别 (引入智能采集概念中的区域识别)
【改进】支持多组文章内容文字替换
【新增】文章内容包含关键字
【新增】文章内容关键字剔除过滤
【新增】文章内容格式化 (引入智能采集概念中的内容整理)
【新增】文章内容分页链接URL补充前缀自动识别 (支持相对动态分页网址)
【新增】文章内容分页链接URL补充后缀
【新增】信息来源支持固定值
【新增】作者识别支持固定值并支持随机抽取作者
【新增】支持采集到的图片加水印
【新增】图片、FLASH本地化后入附件表
【新增】倒序采集
【新增】发布者UID并支持随机抽取UID
【新增】图片/FLASH链接的URL补充前缀自动识别

[ 本帖最后由疯鼠于 2007-11-16 11:30 编辑 ]

疯鼠 · 发表于 2007-11-16 10:29:06

智能采集由于缺少更多的配置选项在其准确度上难以得到提高，从而局限了普及和推广。就此问题经过研究，决定在新版SupeSite6.0中将智能采集与普通采集器合并，据此提高普通采集的易用性，智能采集的全部功能也将全部保留，因此智能采集并不是真正意义上的取消。

采集器引入智能采集的功能点

列表页面链接设置更加随意化
采集页面编码程序辅助识别
列表区域自动识别 (引入智能采集概念中的链接识别)
文章链接URL自动识别 (支持相对动态分页网址)
文章链接URL补充前缀自动识别 (支持相对动态分页网址)
文章内容自动识别 (引入智能采集概念中的区域识别)
文章内容格式化 (引入智能采集概念中的内容整理)
文章内容分页链接URL补充前缀自动识别 (支持相对动态分页网址)
图片/FLASH链接的URL补充前缀自动识别

[ 本帖最后由疯鼠于 2007-11-16 10:30 编辑 ]

疯鼠 · 发表于 2007-11-16 12:51:33

下面用一个实际的例子来进行新采集器的功能展示

先找一个平时配置有难度的链接，....5分钟后发现找到的这个过于有难度了，算了就是它吧。
华语新闻_TOM娱乐
http://ent.tom.com/pop/china/

1、基本设置

机器人名可以随便写，为了便于记忆和采集出处，在此直接写了标题。
其他设置和前一版本采集无出入，详情请参照以前的帖子。

2、列表页面采集设置

1）打开要采集的网址（http://ent.tom.com/pop/china/），将滚动条移至最下端找寻列表页

2)鼠标停留在第1页第2页...观察链接变化
我们发现第1页链接是
http://ent.tom.com/pop/china/index.html
第2页以后的链接是
http://ent.tom.com/pop/china/index_02.html
.....
http://ent.tom.com/pop/china/index_10.html

这样的链接在以前的采集器中无法一次配置，在新采集器中如何实现呢？

3)切换回到机器人配置窗口中，在“手工输入”的位置输入“http://ent.tom.com/pop/china/index.html”点击“添加”。

4)在“自动增长”URL输入“http://ent.tom.com/pop/china/index_.html”，是标记符，用来替换页码。
从什么到什么处分别输入“2”，“20”，选择数字。

从……到…… 类型
数字或字母：
以上面例子中的链接为例，我们用通配符()取代了有规律的自增部分。
类型选择：数字
从……到……支持多种方式：
数字型：
从 1 到 20
从 05到 35
从 0005到 0035
字母型：从 a 到 z
从 A 到 Z
正序：
从 05到 35
从 a 到 z
倒序：
从 35到 05
从 z 到 a

5)“通配符长度”填写2，因为我们需要程序自动补0。

最后效果如图：

6)好，我们测试一下刚才配置的是否正确。首先点击“测试:显示链接”，出现一个窗口如下图。

看了一下链接都正确。

7)尝试连接测试。点击“测试:尝试连接”后，程序会试图连接头10链接以确保配置正确。由于是连接到采集网站，所以会需要一些时间，视网络快慢而定。
如果出现“无法连接”字样，可以进行手工确认其网址是否正确。不正确的话，代表设置规则有问题。当手工确认连接可以访问时，说明之前的是由于网络延时造成的暂时无法访问现象，不影响采集。(如下图)

8)调试窗口中的“Debug URL”可以应用在对单个链接的测试，这里我们可以测试单独链接是否可以正常连接，因为我们在第7步中发现有一个链接是无法访问的。在左侧“Debug URL”中填写“http://ent.tom.com/pop/china/index_08.html”，然后点击“测试:尝试连接”。

自此这部分配置完毕，在这里我们多点击以下“清除URL”，为什么？看下面的说明：）

Debug URL作用: 不受采集链接的影响，方便采集规则的调试.
Debug URL不清空带来的麻烦: 因为不同的测试针对的网址会略有不同,当URL框中有值时程序会跳过正常的URL.

[ 本帖最后由疯鼠于 2007-11-16 13:04 编辑 ]

疯鼠 · 发表于 2007-11-16 13:15:46

9) 采集页面编码
在以前配置这部分需要我们自己打开网页源代码，找寻<meta http-equiv="Content-Type" content="text/html; charset=gbk" />字样。这里不用了，我们点击“程序辅助识别”，通常情况下下面的调试窗口就会帮助取出页面编码。当然也有例外，就是对于html编码风格不好的网站，往往都会缺少上面这种字样的标记，或者是标记书写过乱，那就不得不麻烦您自己进行人工识别了。

10) 这是我们可以把识别出来的“GB2312”添入“采集页面编码”

疯鼠 · 发表于 2007-11-16 13:24:20

11) 列表区域识别规则
回到“http://ent.tom.com/pop/china/index.html”窗口，鼠标右键(以下简称右键)“查看源文件”

在FireFox中

12) 找到列表部分的开始处，如图，但不能填写图中反白文字。为什么？因为，TOM这篇网页列表区域有两个，为了找寻唯一性，所以需要取。结尾部分我们取，

配置如图

13) 点击后面的“测试”，稍后做“自动识别”的讲解。

区域选择正确，当不正确时可以适当调整规则后再进行测试。这里不建议大家不做测试，因为到采集的时候系统是不报错误的。

14) 文章链接URL识别规则
继续观察源文件，发现列表链接规则基本都是“<li>·<a href="/2007-11-16/000E/09402375.html" target="_blank">蒙嘉慧郑伊健传分手梁咏琪：我活得开心(图)</a></li><li class="l1">2007年11月16日</li>”

我们在规则中配置“<li>·<a href="" target="_blank">*<li class="l1">*</li>”，点击“测试”。

ok，在测试窗口中观察一下看看有没有垃圾数据，例如：不需要的链接、链接取得的不干净，诸如此类。
前一个版本采集器不好配，基本都属于链接配置不正确所导致的。

由于链接比较干净，所以上面图中这几项我们可以不用配置。
“文章链接URL补充前缀”为空就可以，程序自己会去识别，为了确保正确，我们点击“测试”看看是否前补正确，如下图。

15) 为了确保无误的话，我们可以把“[url]http://ent.tom.com/pop/china/index_02.html”网址填入“调试窗口”的“Debug URL”点击“测试”按钮，进行其他列表页的测试。

[ 本帖最后由疯鼠于 2007-11-16 14:10 编辑 ]

疯鼠 · 发表于 2007-11-16 14:28:05

翻过头来我们说说自动识别

16) 列表区域自动识别
什么都不用填写，程序自动去识别。这里程序暂时是识别整个网页的html。

17) 文章链接URL自动识别
这个很有意思。HTML这种编码不十分规范，所以格式各样的标记都有可能出现，对于代码风格不好的网站来说，要想采集它，在以前的采集器配置当中十之八九配置的都不正确，而且这项还是必须要配置的。影响了采集效果，用户直接看到的就是程序没有采集到任何一篇资讯，使得众多用户放弃了使用采集器。

这里我们同样什么都不填写，程序会去自动识别出列表区域内的所有链接。很好，很强大吧？
由于是所有链接，所以会有很多垃圾链接和无用链接。这样就需要我们配置一些过滤规则，当然了，列表区域范围越小所取得的无用链接也就愈少。

18) 文章链接URL剔除规则
由于我们需要的链接是

/2007-11-16/000E/12738941.html
/2007-11-16/000E/12622589.html
/2007-11-16/000E/12508650.html
/2007-11-16/000E/12289360.html
/2007-11-16/000E/12027308.html

所以我们在这里把其他没有的链接都剔除掉，如图配置。这里我们可以一边写规则一边点测试，看看是否剔除干净

19) 文章链接URL过滤规则，由于每条链接比较干净，没有带有其他字符。所以这里不需要配置。
如果像下面的样子

/2007-11-16/000E/12738941.html title=
/2007-11-16/000E/12622589.html title=
/2007-11-16/000E/12508650.html title=
/2007-11-16/000E/12289360.html title=
/2007-11-16/000E/12027308.html title=

我们的过滤规则可以写" title="，将不是链接的字符过滤掉。这个功能间接弥补了，链接规则不容易配置正确的不足。

20) 同样前补和后补，可以为空。

[ 本帖最后由疯鼠于 2007-11-16 14:38 编辑 ]

疯鼠 · 发表于 2007-11-16 15:14:27

21) 【题外话】文章链接URL补充前缀 & 文章链接URL补充后缀应用
两个结合使用也是一种链接的匹配方式，在某种程度上说会更省力气。

(1)文章链接URL识别规则

(2)文章链接URL补充前缀

(3)文章链接URL补充后缀

至此列表页面的链接采集设置配置完成，我们可以在新版采集器里利用多种方法准确的采集到所需资讯链接。

疯鼠 · 发表于 2007-11-16 15:15:19

内容页面采集设置

先来一个区域图，我们首先要对“文章标题”进行一些采集规则的设置，下面这个图是我们马上要设置的东西。

21) 文章标题识别规则
针对源代码，找到标题位置，然后配置规则。一般网站都会在title标签中设置标题，不过后面会给有一些其他信息，诸如频道网站名此类，这些其他信息好办，后面有过滤。

我这里的做法是，边写规则边点“测试”，测试中包含有“识别后的内容”、“测试网页地址”、“正则表达式”、“网页源码”，这些信息都有利于调试。

22) 文章标题过滤规则
过滤标题中没用信息用的，我们简单配置一下，如下图。

可能有些用户注意到了，“调试窗口 Debug URL”有地址了，这个地址可加也可以不加。不加的效果是，取得前面咱们配置列表中的第一篇资讯作为调试内容部分的URL。这里输入连接后，调试程序会直接跳到这里指定的URL上，将其作为调试网址。可以在测试窗口中，“测试网页地址”处看到变化。为了内容规则更加通用，可以重复测试多个URL，看其是否都能采集到我们所需要的内容。

23) 文章标题文字替换
这里较前一版本，本次版本中可以设置多个替换规则。
添加好一个规则后，点击“添加”按钮。

为了演示替换，我们把“文章标题过滤规则”清空，我们用替换来实现，如下图。

24)文章标题包含关键字 & 文章标题关键字剔除过滤
这里我们不做设置。

25) 允许文章标题重复选择不允许重复

[ 本帖最后由疯鼠于 2007-11-16 16:06 编辑 ]

疯鼠 · 发表于 2007-11-16 15:15:30

对“文章内容”设置

26) 文章内容识别规则
在源代码中找寻唯一性，填写完后点击测试，查看是否正确如图

查看“调试窗口”中“识别后有内容，区域源码。”，基本是我们需要的内容，只是里面有很多HTML代码。我们暂时不管，后面有新功能“格式化内容”来处理。

27) 文章内容过滤规则：与标题文字替换配置方法一样
文章内容文字替换：与标题文字替换配置方法一样
文章内容包含关键字：设置改选项后，则只采集标题包含关键字的文章
文章内容关键字剔除过滤：设置改选项后，不会采集标题包含关键字的文章

28) 文章内容格式化
这里选择“格式化”。此操作将去除网页多余代码。点击“测试”查看是否正确，如下图。

格式化后的内容

点击欣赏活动现场精彩幻灯
<img src="http://ent.tom.com/uimg/2007/11/16/limingjun/1195193834591_11520.jpg"> <img src="http://ent.tom.com/uimg/2007/11/16/limingjun/1195193834721_14250.jpg"> <img src="http://ent.tom.com/uimg/2007/11/16/limingjun/1195193834883_12127.jpg">
女星性感现身
<img src="http://ent.tom.com/uimg/2007/11/16/limingjun/1195193835017_18374.jpg"> <img src="http://ent.tom.com/uimg/2007/11/16/limingjun/1195193835216_15710.jpg">
张庭当天心情大好
女星王静莹、张庭两人抢10.12克拉、价值1,314万鸽子蛋？由许安进、林瑞阳、陈威陶合资的“德奇雅洛”精品昨天(11月15日)在台正式推出，张庭看到王静莹手上一颗10.12克拉火光绝美的大钻戒，“借”戴之后竟然拔不下来，男友林瑞阳故意声音发抖：“买吧”，许安进的另一半金瑞瑶则很阿沙力表示：“一句话，打8折。”
久违的张庭、林瑞阳昨天和许安进、金瑞瑶、陈威陶、王静莹两对夫妻档同台，宣布自创“德奇雅洛”品牌，许安进说：“我和林瑞阳、陈威陶到瑞士去观摩，决定引进技术和材料，品牌名称灵感来自西班牙语Dequerro(爱情)。”
为了替自家珠宝和手表等精品代言，王静莹戴上1,314万斗大鸽子蛋亮相，脸上露出满意的笑容，张庭看了眼睛一亮，连连赞美，王静莹脱下戒指借她，戴上之后竟然再也拿不下来，此时主持人徐乃麟不断起哄：“求婚、求婚，你要给人家一个交代”，林瑞阳说：“是啊，她要给我一个交代，我好可怜。”没想到张庭转头就走，徐乃麟只好消遣林瑞阳：“是不是你太胖了。”
外传林瑞阳、张庭早就办好结婚手续，对此林瑞阳笃定说：“真的没有，目前这种生活模式很好哇，中国三千年来婚姻难道要一成不变吗？”张庭则说：“我们不会约束对方，林大哥也从不管我，但应该差不多了。”
ENT.TOM.COM 记者：Nirvana 2007年11月14日台湾报道

29) 文章内容分页模式
找一篇带有分页的网址做测试“http://ent.tom.com/2007-11-16/000E/12014139.html”，随便点一个“测试”按钮，在“Debug URL”中填入此网址。
在这篇资讯中，有两种分页方式的存在，如图。

我们拿第一种分页做讲解，因为这种方式比较特殊。

分页模式，选择“页码导航”

30) 文章内容分页区域识别规则

[ 本帖最后由疯鼠于 2007-11-16 16:59 编辑 ]

疯鼠 · 发表于 2007-11-16 15:15:43

31) 其他设置

作者识别规则
可以指定多个作者,采集结果在入库时随机抽取其中的一个.多个作者之间用 | 隔开,在指定多个作者时,不能出现标记符([author]).

发布者UID
可以指定多个发布者UID,采集结果在入库时随机抽取其中的一个,UID必须是网站的真实用户UID.多个发布者UID之间用 | 隔开

32) 回顾一下全部配置

[ 本帖最后由疯鼠于 2007-11-16 17:16 编辑 ]

		自动登录	找回密码
密码			立即注册

2007-11-16 | SupeSite 6.0 新版预告片——采集重装上阵

评分

关于取消智能采集功能

评分

2007-11-16 | SupeSite 6.0 新版预告片——采集 重装上阵

评分

关于取消智能采集功能

评分

2007-11-16 | SupeSite 6.0 新版预告片——采集重装上阵