首先,我必须声明的是, 我完完全全是个新手, 如果我这些心得您觉得没什么的话, 完全可以当笑话看
最近帮朋友制作采集机器人, 一搞就30个, 头都大了, 因为做这个东西的确很需要耐心,如果你没有耐心,劝你别尝试制作了, 否则对你的身心有很大影响
大家都知道做机器人的依据就是网站源代码? 但是这代码里要注意的事情还真不少. 首先就是在选择 list 区域时 要尽量选择单独一行的代码作为起始点 当然这段代码必须是唯一的比如在 list 区域上下 有单独一行的代码
<.....代码.....>
他是单独一行的,这样采集成功率高.再有就是要养成好习惯 标记时尽量从<代码> 到 <代码> 因为这样看着也舒服, 不容易出错
采集机器人不能正常工作有两种情况, 一是直接告诉你采集结束,但是却没有任何采集结果, 这说明你的问题出在 list 区域的标记上说明采集机器人根本就没有进到list区域 所以一点开始采集就马上结束了, 这时候要修正list的区域, 检查是否是代码有重复
再有一种是显示内容采集失败, 这个问题就比较好解决了, 因为这说名至少list区域搞对了,下面就是解决内容的时候了,看看title 和 message 的划分, 多半是由于代码重复或者是你只看了一篇文章的代码,忽略了其他文章, 我建议大家至少看两个文章的代码,比较一下 这样也很明显看出哪里是message区域的结束句.
再提示大家一点,就是再划定文章区域时,要注意尽量避开广告代码,这些代码特征是js调用形式,如果实在避免不了,就得使用内容过滤.在填写过滤内容时,如果你不能确定哪些地方要换成* 就可以将整串代码先复制到里面, 机器人会自动将需要改的地方换成*
下面说一下选择文章时要注意的事情. 首先选择的文章里最好没有分页,有分页是最麻烦的事情, 因为分页前缀有时候不一样,比如有的网站将文章按照日期来收到文件夹,这样就导致每篇文章的分页前缀不同,也就失去了用机器人采集的意义.
还有一点要注意的是有些网站将文章放得很深, 而且还用的非原始地址, 于是就出现了类似 href="../Article/20061 的地址代码,这样无论你怎样填写前缀都造成地址无法访问, 如果哪位高手能解决这个问题, 请第一时间跟贴 先谢谢啦
制作机器人最大的感触: 如果一个机器人经过10次以上的调试还无法工作, 那就放弃吧, 找别的网站来采集, 这不是你的错,是那网站代码太乱了!
[ 本帖最后由 sunhehua 于 2007-12-24 13:35 编辑 ] |