首先说原理跟概念:
计算网页URL的权值
Posted by admin on July 19th, 2010
Web 上的信息具有异质性和动态性,由于受时间和存储空间的限制,即使是 最大的搜索 引擎也不可 能将全球所 有的网页全 部搜集过来 ,一个好的搜集策略是优先搜集重要的网页,以便能够在最短的时间 内把最重要的网页抓取过来。在此要求下,一方面要采用分布并行的体系结构来 协同工作,一方面要优先搜集重要的网页。
对于网页重要程度的评定,要依据搜集信息所针对的不同应用而定。从而信 息的搜集可以采用不同的策略。对于信息量相对较小的应用,如为发现专业信息 而设计的主题 Web 信息搜集系统,可以依据定制的关键词,优先搜集网页中包含 或部分包含这些关键词的网页,通过提高该网页 URL 及包含的 URL 的权值来达 到目的。对于为处理海量数据而设计的可扩展 Web 信息搜集系统,如何评定一个网页的“重要度”,目前还是一个值得研究探讨的问题。