Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] SS7.0采集器教程希望对新用户有帮助

[复制链接]
antsns 发表于 2009-3-31 19:49:14 | 显示全部楼层 |阅读模式
本帖最后由 antsns 于 2009-4-15 13:24 编辑

在网上搜集了一些SS7.0的采集器知识,自已学习了一个晚,终于得心应手,我相信刚接触SupeSite的网友也像我一样不会使用SupeSite采集器,而且觉得有点复杂,如果不会使用就不用的话,网站的资讯内容要一篇一篇添加实在太吃力了,为了方便新用户们,我做了一个教程与大家分享.
已做好的采集器大家可以下载,导入
我现在每天只需要按下就可轻松更新网站内容了,这是我的网站http://www.antsns.com 大家可以进入看看我采集的内容.已去掉QQ号(太多人叫我帮手做采集,我有工作实在没办法一个一个帮大家做,不好意思,有什么问题可以回复,论坛里高手多的是,谢谢大家支持.)
第一步:选定要采集的内容,我拿”珠海新闻”来说.
找到好的内容,最好是每天都会更新的,
我找的网址是: http://news.zhnews.net/zhnews/index.html

在当前页面浏览器,点 “查看””源文件”

我们看到,他的页面编码charset=gb2312 ,如果你有的SS7是utf-8的,那就需要转换,否则不用转.
我们需要的 “时政时事” 下面的列表标题,   复制下列其中一个标题,查找

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

评分

2

查看全部评分

 楼主| antsns 发表于 2009-3-31 19:55:21 | 显示全部楼层
本帖最后由 antsns 于 2009-4-1 22:08 编辑

第二步: 我们现在返回到我们网站后台添加新机器人,把网址复制到红线的位置上,按添加.http://news.zhnews.net/zhnews/index.html

注意:单次采总个数的意思是:比如你采集的标题数有10条,你设1的话,系统会一条一条采,直到采完10条为止,如果设2的话,就二条二条采集,采5次完成,不过单次数越大,网络负载就越大.

上面提到的采集页面编码,这里不说了

列表区域识别规则
我的识别规则是<h4><a href="/zhnews/001/">时政时事</a></h4>*<ul>
    </ul>
    解释:首先我们要理解识别规则是怎么一回事,不是每个页面都一样的,所以我们需要对HTML有简单的认识,相信新用户们都应该看得明HTML.

    我们在代码里找到列表标题的起端和终端的规则是<ul></ul>,但是在一个网页里头可能很多地方会有<ul>这个代码,所以为了准确到位,我在前面加上红色这段
    <h4><a href="/zhnews/001/">时政时事</a></h4>*<ul> [ l i s t ]</ul>  用 * 来代替任意字符、换行、回车. 我们现在点击,测试 如果出现识别后有内容,区域源码,是你想要的标题那这个规则就是正确的了.
    文章链接URL识别规则

    <li>[03-31] <a href="/zhnews/2009/0331/article_13147.html" target="_blank"> 珠海边检提醒: 茂盛围口岸暂不对旅客开放</a> </li>
    在上面这段代码里我们找出URL的识别规则 <a href="[ u r l ]" target="_blank">*</a> 按测试后发现只有后面的地址,这时我们可以查看网站完成地址,对比后就知少
    http://news.zhnews.net  这段地址,在文章链接URL补充前缀 加上这段地址就可以了.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| antsns 发表于 2009-3-31 19:58:46 | 显示全部楼层
第三步: 内容页面采集设置
我们点击一条标题进入到内容页面,查看&#61664;源文件,找到标题所在位置,

复制代码到文章标题识别规则,改为<h1>[subject]</h1> 点测试 查看结果

没特别要求,下面的空白地方可以不用填.


文章内容识别规则
内容规则设为 </h6>[message]<!--分页--> 我这样设是为了不把标题和作者等内容都放进内容区里,  载到<!--分页--> 为了不把分页按钮也载入内容区里.


到这里已经可以成功的采集到文章了,至于,文章内容分页区域识别规则和文章内容分页链接识别规则,我在这里就不说了,大家学习到这里应该自己可以实现了.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

尘缘太极 发表于 2009-3-31 21:56:10 | 显示全部楼层
支持楼主!

好人有好报!

衷心感谢!!!
回复

使用道具 举报

 楼主| antsns 发表于 2009-4-1 00:03:33 | 显示全部楼层
呵呵,谢谢支持
回复

使用道具 举报

荷城缘 发表于 2009-4-1 11:53:23 | 显示全部楼层
原来是这么简单!
回复

使用道具 举报

 楼主| antsns 发表于 2009-4-1 16:36:41 | 显示全部楼层
就是这么简单的,只要明白"规则"是怎么一回事,就可以了,
回复

使用道具 举报

柯七 发表于 2009-4-1 17:21:44 | 显示全部楼层
太好了~~~~红爪子收藏你了!
回复

使用道具 举报

billchen19 发表于 2009-4-1 23:52:02 | 显示全部楼层
我就是没搞清什么是规则,谢谢楼主的详细讲解!
回复

使用道具 举报

 楼主| antsns 发表于 2009-4-2 14:07:16 | 显示全部楼层
昨晚有些网友问我,怎么采集,他们说看了教程还是不会采集,后来才知道,是不懂HTML,在这里我先给大家一个见意,如果你想走站长的路,HTML是最基本要懂的知识,你用一个小时就应该学会了HTML的写法结构了,最起码要懂得结构,什么地方是开始,什么地方是结束,"规则"就容易找了.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2025-1-26 17:36 , Processed in 0.030986 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表