SS7.0采集器教程希望对新用户有帮助

antsns · 发表于 2009-3-31 19:49:14

本帖最后由 antsns 于 2009-4-15 13:24 编辑

在网上搜集了一些SS7.0的采集器知识,自已学习了一个晚,终于得心应手,我相信刚接触SupeSite的网友也像我一样不会使用SupeSite采集器,而且觉得有点复杂,如果不会使用就不用的话,网站的资讯内容要一篇一篇添加实在太吃力了,为了方便新用户们,我做了一个教程与大家分享.

robot_珠海新闻.rar (1.45 KB, 下载次数: 409) 已做好的采集器大家可以下载，导入
我现在每天只需要按下就可轻松更新网站内容了,这是我的网站http://www.antsns.com 大家可以进入看看我采集的内容.已去掉QQ号(太多人叫我帮手做采集,我有工作实在没办法一个一个帮大家做,不好意思,有什么问题可以回复,论坛里高手多的是,谢谢大家支持.)
第一步:选定要采集的内容,我拿”珠海新闻”来说.
找到好的内容,最好是每天都会更新的,
我找的网址是: http://news.zhnews.net/zhnews/index.html

在当前页面浏览器,点 “查看””源文件”

我们看到,他的页面编码charset=gb2312 ,如果你有的SS7是utf-8的,那就需要转换,否则不用转.
我们需要的 “时政时事” 下面的列表标题, 复制下列其中一个标题,查找

antsns · 发表于 2009-3-31 19:55:21

本帖最后由 antsns 于 2009-4-1 22:08 编辑

第二步: 我们现在返回到我们网站后台添加新机器人,把网址复制到红线的位置上,按添加.http://news.zhnews.net/zhnews/index.html

注意:单次采总个数的意思是:比如你采集的标题数有10条,你设1的话,系统会一条一条采,直到采完10条为止,如果设2的话,就二条二条采集,采5次完成,不过单次数越大,网络负载就越大.

上面提到的采集页面编码,这里不说了

列表区域识别规则
我的识别规则是<h4><a href="/zhnews/001/">时政时事</a></h4>*<ul>

<h4><a href="/zhnews/001/">时政时事</a></h4>*

文章链接URL识别规则

http://news.zhnews.net

antsns · 发表于 2009-3-31 19:58:46

第三步: 内容页面采集设置
我们点击一条标题进入到内容页面,查看源文件,找到标题所在位置,

复制代码到文章标题识别规则,改为<h1>[subject]</h1> 点测试查看结果

没特别要求,下面的空白地方可以不用填.

文章内容识别规则
内容规则设为 </h6>[message] 我这样设是为了不把标题和作者等内容都放进内容区里, 载到 为了不把分页按钮也载入内容区里.

到这里已经可以成功的采集到文章了,至于,文章内容分页区域识别规则和文章内容分页链接识别规则,我在这里就不说了,大家学习到这里应该自己可以实现了.

尘缘太极 · 发表于 2009-3-31 21:56:10

支持楼主！

好人有好报！

衷心感谢！！！

antsns · 发表于 2009-4-1 00:03:33

呵呵,谢谢支持((em:12))

荷城缘 · 发表于 2009-4-1 11:53:23

原来是这么简单!

antsns · 发表于 2009-4-1 16:36:41

就是这么简单的,只要明白"规则"是怎么一回事,就可以了,

柯七 · 发表于 2009-4-1 17:21:44

太好了~~~~红爪子收藏你了！

billchen19 · 发表于 2009-4-1 23:52:02

我就是没搞清什么是规则，谢谢楼主的详细讲解!

antsns · 发表于 2009-4-2 14:07:16

昨晚有些网友问我,怎么采集,他们说看了教程还是不会采集,后来才知道,是不懂HTML,在这里我先给大家一个见意,如果你想走站长的路,HTML是最基本要懂的知识,你用一个小时就应该学会了HTML的写法结构了,最起码要懂得结构,什么地方是开始,什么地方是结束,"规则"就容易找了.

		自动登录	找回密码
密码			立即注册

[采集] SS7.0采集器教程希望对新用户有帮助

评分