Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] supesite7.5采集教程(图)

[复制链接]
chaoboke 发表于 2011-11-14 22:01:44 | 显示全部楼层 |阅读模式
  1. <p>supesite采集很简单设置起来也很简单,主要需要设置的地方有四个地方,这次采集以http://www.pigol.cn/Article/List/List_1.html为例,下面说下步骤:</p>
  2. <p>首先是基本设置,这个很简单,一目了然,不用多说。</p>
  3. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113224344.png"><img class="aligncenter size-full wp-image-668" title="20111113224344" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113224344.png" alt="" width="412" height="176" /></a></p>
  4. <p>这个地方主要就是填写采集地址,简单点说就是从哪个网站采集过来,如果目标网站与本网站编码不一样的话可以在下面设置,也可以自动检测,主要就是为了防止乱码的产生,设置方法:</p>
  5. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113224652.png"><img class="aligncenter size-full wp-image-669" title="20111113224652" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113224652.png" alt="" width="463" height="77" /></a></p>
  6. <p>列表区域识别规则:查看目标网站源文件,查找第一篇文章列表的代码,在向上查找唯一的代码,如何查找唯一的呢,方法就是复制源文件代码ctrl+f将代码复制进去,查找下一个,提示找不到则此代码为唯一的,继续查找最后一篇文章的代码,再向下查找唯一的代码,中间代码使用[list]代替,如图:</p>
  7. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113225428.png"><img class="aligncenter size-full wp-image-670" title="20111113225428" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113225428.png" alt="" width="828" height="106" /></a></p>
  8. <p>自动识别不建议使用。</p>
  9. <p>文章连接url识别:复制文章列表中某一片文章的代码到文本框中,按提示说明修改即可,同样不建议使用自动识别,毕竟机器再智能它也是机器,也不如人类啊。</p>
  10. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113225825.png"><img class="aligncenter size-full wp-image-671" title="20111113225825" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113225825.png" alt="" width="736" height="88" /></a></p>
  11. <p>文章标题识别规则,此处有两种设置方法,第一种是查找<title>*</title>里面的,将文章标题以外的部分在过滤规则中去除:</p>
  12. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113230214.png"><img class="aligncenter size-full wp-image-672" title="20111113230214" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113230214.png" alt="" width="737" height="158" /></a></p>
  13. <p>这种方式不推荐使用,总是有意想不到的事情发生,推荐使用第二种:类似于查找列表区域识别规则一样找出标题前后唯一的代码按要求进行替换:</p>
  14. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113231645.png"><img class="aligncenter size-full wp-image-673" title="20111113231645" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113231645.png" alt="" width="749" height="80" /></a></p>
  15. <p>文章内容识别规则:找出文章内容前后唯一的代码,和文章列表识别规则查找方式一致,然后按照左边的要求进行替换就好:</p>
  16. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113231917.png"><img class="aligncenter size-full wp-image-674" title="20111113231917" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113231917.png" alt="" width="724" height="95" /></a></p>
  17. <p>这样最基本的设置规则就完成了,其余的设置都类似,按照左边的要求填写就好,另外需要提醒的是,每写完一个规则后面都有测试按钮,可以随时测试,出现问题及时修改,都测试通过之后保存即可。这样采集规则就写好了,保存之后等待页面跳转,之后即可采集:</p>
  18. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113232412.png"><img class="aligncenter size-full wp-image-675" title="20111113232412" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113232412.png" alt="" width="823" height="55" /></a></p>
  19. <p>点击开始采集即可,等待采集完成之后清楚系统缓存即可,清楚缓存方式:系统管理->缓存清理->选中需要修改的提交保存即可。</p>
  20. <p>采集效果如下:</p>
  21. <p><a href="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113232856.png"><img class="aligncenter size-full wp-image-679" title="20111113232856" src="http://www.chaoboke.com/wp-content/uploads/2011/11/20111113232856.png" alt="" width="702" height="251" /></a></p>
  22. <p>这样采集就完成了,大家有不了解的地方可以随时<a title="给张士超留言" href="http://www.chaoboke.com/guestbook" target="_blank">给张士超留言</a>或者联系QQ:630274342,小超协助解决。</p>
复制代码

 楼主| chaoboke 发表于 2012-2-22 23:59:40 | 显示全部楼层
此帖仅作者可见

使用道具 举报

xu8597179 发表于 2012-2-15 00:58:37 | 显示全部楼层
此帖仅作者可见

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-12-25 23:52 , Processed in 0.030712 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表