Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] 关于采集自动获得tag的问题

[复制链接]
tmsj008 发表于 2009-6-6 19:35:28 | 显示全部楼层 |阅读模式
如果一个人做网站不去采集的话,他的工作量可想而知。
用SS来采集,但无法获得tag,这是很不爽的。
今天我看了下SS的程序,发现它的tag获得是通过把标题发给官方网站,让官方网站分析返回tag。
这有点像webservices。
看了官方处理的地址,像是java写的。我估计着,这其实是用java中的lucene来实现中文分词。
关于中文分词,这是一个比较大的课题了,做得最好的是百度了。
得到tag,其实就是将标题等中文分词。
SS要得到tag,必须和官方交互,性能不怎么好,尤其是批量获得tag的时候。
其实我们可以把第三方的分词系统集成进来。
而我没有去集进第三方分词系统,还是用SS的,并且写成了SS的计划任务,可以实现批量获得tag,在本地测试通过。
但是还有个问题,就是关于relativetags的问题,希望有大侠帮忙解说下它。
我只知道relativetags是序列化而来的,但具体的就不知道了。
本想详细看下SS的源码来研究下的,但是看到SS的程序就头晕了。全部是些函数来构成的,不是mvc架构的,源码很难读。
至于自动得到tag的程序,等我解决了relativetags,再发出来吧。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-12-27 15:05 , Processed in 0.026252 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表