Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

认识Cygwin、Nutch、Grub、Swish-e、Larbin、Lucene过程(我也能开发一个GOOGLE)

[复制链接]
arloe 发表于 2009-4-23 13:16:03 | 显示全部楼层 |阅读模式
本帖最后由 arloe 于 2009-4-23 13:39 编辑

由于我们导购网站的需要,我需要寻找一个网站数据采集工具,这个采集工具就只需要完成一个工作,就是帮我到指定网站将指定格式的网址抓下来并保存。

经过了解,发现这个就是搜索引擎相关的东东,于是疯狂,百度了下。认识了Nutch、Grub、Swish-e、Larbin、Lucene等,这些都是业内知名的类似google、百度的搜索引擎,而且大部分是开源的。经过了解与比较(参考了Nutch 初体验Nutch 初体验)发现Nutch相对强大,

所以尝试安装玩玩,结果发现这个东东最好是安装在LINUX上,我的电脑上又没有,如果马上安装LINUX就会很烦,而且我还不怎么会安装,准备放弃的时候,找到了这个Nutch在Windows中安装之细解,这个文章中提到Cygwin,仔细一看这真是一个好东东,它可以让我在windows上玩linux,这真是一个学习linux,或者开发linux程序好的工具,虽然以前有听说过虚拟机也可以实现类似的功能,但是那样占据电脑的资源太多,搞得windows自己不好用了。

我兴奋的下载,安装cygwin,折腾了一个晚上,结果还是没有解决我的问题,原来配置来配置去还真烦...我无赖之下,决定花钱购买第三方工具,于是google一下网站数据采集工具,看到了火车头,网络神采,军犬等好几个,可能是由于名字原因我就先联系了网络神采,对方很热情,发来了演示版,我从他们网上找到帮助手册,边看边用,发现这个东东的N层导航功能就可以实现我的要求,真是那个高兴啊,一下子把大部分功能都试了一下,就是感觉界面小了点。。。由于其出色功能,也不在意这些了。印象较深的有分页探测功能,跨层读取数据等功能。我立马决定购买这个工具,问对方多少钱,对方报过来企业版8000元,突然感觉被泼了点凉水,太贵了吧,心里想。

于是我不舍的离开,去联系另外的工具,先是找到军犬,可是网上连试用版都找不到,再加上提交信息,加了QQ后,都没有人理我。心里想,太差了,什么公司,服务如何保证。

还有一个火车头,看起来不错,下载也试用了一下,不过,蛮难学的,还好他们工作人员比较积极,给我远程演示了,基本上掌握了使用。感觉下来,功能还蛮全,就是不易掌握。由于受先前影响,我直接了解价格,发现蛮便宜的,企业版才3000元。我又开始兴奋了,把里面功能都测试了一下,流程是走得通,可是这个程序只能探测2层深度,还有分页不能探测,虽然这两个功能可以依靠人工处理,但是心里有点不爽,由于考虑人家价格这么便宜,也就不在意了,继续使用...结果出现一个让我无法接受的两个问题,一是采集过程中会任务多时,会突然程序死了,弹出调试的界面,仔细找原因,好像与其数据存放空间ACCESS有关,还有是有非法规则,反正无法解决...说是要当心注意。二是自动更新不能把以前采集过的数据进行比对更新,只能将增加的数据抓来,不太理解这样的解释。

这下麻烦了,我都不知选择哪个,时间紧迫必须在这周之内确定,于是决定硬着头皮与网络神采谈谈价格,现在心里觉得人家物有所值,但是谁都想砍砍价,能节省点就节省点。整整在QQ上来来去去将近2个小时,与其说我们在谈价,还不如说是在朋友之间交流,对方这个人,非常不错。后来,他给了打9折,而且送我将近3000元价值的服务。这下我心里平衡多了,同时也很有成就感。

没有想到,这次公司安排我寻找采集工具,让我获益非浅...特别是哪几个开源搜索引擎,抽时间一定要好好研究一下,什么时候也搞出一个GOOGLE2,那时我就牛了,呵呵。
ideacm 发表于 2009-4-23 16:06:50 | 显示全部楼层
牛大了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-17 22:33 , Processed in 0.033891 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表