Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

搜索引擎程序如何解析网页文本

[复制链接]
zhengfu120 发表于 2011-8-29 10:42:11 | 显示全部楼层 |阅读模式

一个网页中的文本对搜索引擎来说,比对用户更为重要。网页中的文本与链接主题无关,但可以给出一些网站的总体印象,这些网站里有些内容不愿被搜索引擎索引到,所以,在设计时专门提防着搜索引擎。此时,需要区分“爬行”和“索引”这两个概念。爬行一个网站是指沿着链接访问该站点上所有的页面,且一般会为这些网页保存一个复本。索引则是爬行的下一个阶段,即将网页文本存人到一个特殊的“倒排文档”数据库中,利用“倒排文档”数据库,可以快速搜索到与用户查询相匹配的页面。标准搜索引擎一般只索引网页文本,而忽略图片和其他多媒体信息。因此,讨论搜索时就应该区分文本和图片。

用户在访问网站的时候,从图片中获得的信息比从文本中获得的信息更直观。举一个极端的例子,一个来自知名公司的图标放在页面中显眼的位置,就足以说明该网页是该公司的。相反,搜索引擎则是忽略所有图片的,至少在从网页中提取信息时是这样的。如果一个网页上都是鞋子的图片,但其文本中却没有一个“鞋”字,那么,搜索引擎不知道这个页面是关于鞋子的。这就说明,网站的设计者们需要确保页面中含有描述该站点主题内容的词语。

一些更聪明的方法可以用来帮助搜索引擎来判定该页面是关于鞋子的。Google首先提出了这样的方法:如果有其他页面链接到含有鞋子图片的页面,且锚文本中也提到鞋子,这便证明该图片页面是和鞋子相关的。另外,有一些精细的方法,如潜在语义分析,可以根据主题同义词,或其他与主题相关的词来猜测一个网页的主题。例如,如果一个页面中含有“靴子”,或其他与鞋子相关的词(如“鞋带”和“鞋底”);那么,这便足以说明该页面是和鞋子相关的。然而,网络设计者们不能依赖使用这些先进技术的搜索引擎,因此,应该保证他们站点的关键页面中含有大量与主题相关的文本信息,可以吸引访问者。当然,这些文本应该在站点页面的HTML中,而不是在图片,或Java程序或多媒体形式的媒介中。

知道搜索引擎处理网页的过程,有益于了解它们是如何寻找相关网页的。似乎所有的商业搜索引擎都采用了向量空间模型,或是它的变体,向量空间模型一般是与其他技术结合在一起使用的。向量空间模型将所有的网页都转换到一个无序的词库中,每个页面都用一个列表表示,列表中是页面里各个词出现的频率。稍后,会用数学公式将词频转换为权重,该数学公式能够赋予文档中词频较高的词语较高的权重。同时,也会给稀有词语赋予较高的权重。编辑http://www.bzguiyang.com
杰克牛 发表于 2011-8-29 11:00:25 | 显示全部楼层
哦,原来是这么个工作原理。
回复

使用道具 举报

taskone 发表于 2011-8-29 14:29:50 | 显示全部楼层
真是有才啊
回复

使用道具 举报

51xiangxun 发表于 2011-8-29 18:31:02 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

liujun1990 发表于 2011-8-29 21:09:07 | 显示全部楼层

真是有才啊
回复

使用道具 举报

cnmummy 发表于 2011-8-29 21:56:04 | 显示全部楼层
这样的啊。了解
回复

使用道具 举报

liliangvs 发表于 2011-8-29 23:32:43 | 显示全部楼层
好贴,感谢楼主分享!
回复

使用道具 举报

charlesmsq 发表于 2011-8-30 13:52:54 | 显示全部楼层
这个之前还真不懂
回复

使用道具 举报

taskone 发表于 2011-9-1 00:30:39 | 显示全部楼层
学习了,谢谢
回复

使用道具 举报

a121816350 发表于 2011-9-1 09:39:24 | 显示全部楼层
技术贴啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-12-23 23:54 , Processed in 0.025992 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表