ss采集器(采集机器人)制作心得--希望能对广大采集爱好者使用者有帮助

sunhehua · 发表于 2007-12-24 13:26:33

首先,我必须声明的是, 我完完全全是个新手, 如果我这些心得您觉得没什么的话, 完全可以当笑话看
      最近帮朋友制作采集机器人, 一搞就30个, 头都大了, 因为做这个东西的确很需要耐心,如果你没有耐心,劝你别尝试制作了, 否则对你的身心有很大影响
   大家都知道做机器人的依据就是网站源代码? 但是这代码里要注意的事情还真不少. 首先就是在选择 list 区域时要尽量选择单独一行的代码作为起始点  当然这段代码必须是唯一的比如在  list  区域上下  有单独一行的代码
<.....代码.....>
他是单独一行的,这样采集成功率高.再有就是要养成好习惯标记时尽量从<代码> 到 <代码> 因为这样看着也舒服, 不容易出错
   采集机器人不能正常工作有两种情况, 一是直接告诉你采集结束,但是却没有任何采集结果, 这说明你的问题出在 list 区域的标记上说明采集机器人根本就没有进到list区域所以一点开始采集就马上结束了, 这时候要修正list的区域, 检查是否是代码有重复
   再有一种是显示内容采集失败, 这个问题就比较好解决了, 因为这说名至少list区域搞对了,下面就是解决内容的时候了,看看title 和 message 的划分, 多半是由于代码重复或者是你只看了一篇文章的代码,忽略了其他文章, 我建议大家至少看两个文章的代码,比较一下这样也很明显看出哪里是message区域的结束句.
   再提示大家一点,就是再划定文章区域时,要注意尽量避开广告代码,这些代码特征是js调用形式,如果实在避免不了,就得使用内容过滤.在填写过滤内容时,如果你不能确定哪些地方要换成* 就可以将整串代码先复制到里面, 机器人会自动将需要改的地方换成*
   下面说一下选择文章时要注意的事情. 首先选择的文章里最好没有分页,有分页是最麻烦的事情, 因为分页前缀有时候不一样,比如有的网站将文章按照日期来收到文件夹,这样就导致每篇文章的分页前缀不同,也就失去了用机器人采集的意义.
      还有一点要注意的是有些网站将文章放得很深, 而且还用的非原始地址, 于是就出现了类似 href="../Article/20061 的地址代码,这样无论你怎样填写前缀都造成地址无法访问, 如果哪位高手能解决这个问题, 请第一时间跟贴先谢谢啦
      制作机器人最大的感触: 如果一个机器人经过10次以上的调试还无法工作, 那就放弃吧, 找别的网站来采集, 这不是你的错,是那网站代码太乱了!

[ 本帖最后由 sunhehua 于 2007-12-24 13:35 编辑 ]

安笛 · 发表于 2007-12-24 15:29:15

支持楼主
写的很棒

njjackiee · 发表于 2007-12-24 15:53:10

顶一个，写的太棒了！！
这些问题偶都遇到了，但没有仔细研究过！！

sunhehua · 发表于 2007-12-25 15:31:24

好啊好 · 发表于 2009-4-2 09:35:34

支持!非常感谢~~

dangtuo · 发表于 2009-5-5 17:04:01

还有一点要注意的是有些网站将文章放得很深, 而且还用的非原始地址, 于是就出现了类似 href="../Article/20061 的地址代码,这样无论你怎样填写前缀都造成地址无法访问, 如果哪位高手能解决这个问题, 请第一时间跟贴先谢谢啦
怎么解决啊，55555555555555

Gnagno · 发表于 2009-5-5 17:13:56

我来看看

Gnagno · 发表于 2009-5-5 17:14:21

汗，发表于 2007-12-24 13:26((em:07))

elvenchun · 发表于 2009-5-6 19:03:14

我是比你还新啊，看不懂

beyondliya · 发表于 2009-5-16 05:51:36

((em:07)) 不赖

		自动登录	找回密码
密码			立即注册

ss采集器(采集机器人)制作心得--希望能对广大采集爱好者使用者有帮助

评分

感谢楼上二位给我这么高的评价谢谢

ss采集器(采集机器人)制作心得--希望能对广大采集爱好者使用者有帮助

评分

感谢楼上二位给我这么高的评价 谢谢

感谢楼上二位给我这么高的评价谢谢