Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

上次跟你们提的内容页面入口的问题,这次再提一个URL的问题

[复制链接]
hydeist 发表于 2011-1-2 13:17:26 | 显示全部楼层 |阅读模式
https://discuz.dismall.com/thread-2011708-1-2.html 这是你们接受的问题。这只是SEO站内优化环节之一而已。

然后提第二个优化重点,就是URL自定义化。

首先说原理跟概念:
计算网页URL的权值
Posted by admin on July 19th, 2010
Web 上的信息具有异质性和动态性,由于受时间和存储空间的限制,即使是 最大的搜索 引擎也不可 能将全球所 有的网页全 部搜集过来 ,一个好的搜集策略是优先搜集重要的网页,以便能够在最短的时间 内把最重要的网页抓取过来。在此要求下,一方面要采用分布并行的体系结构来 协同工作,一方面要优先搜集重要的网页。

对于网页重要程度的评定,要依据搜集信息所针对的不同应用而定。从而信 息的搜集可以采用不同的策略。对于信息量相对较小的应用,如为发现专业信息 而设计的主题 Web 信息搜集系统,可以依据定制的关键词,优先搜集网页中包含 或部分包含这些关键词的网页,通过提高该网页 URL 及包含的 URL 的权值来达 到目的。对于为处理海量数据而设计的可扩展 Web 信息搜集系统,如何评定一个网页的“重要度”,目前还是一个值得研究探讨的问题。

根据搜集经验,体现网页重要度的特征有:

1)   网页的入度大,表明被其他网页引用的次数多;
2)   某网页的父网页入度大;
3)   网页的镜像度高,说明网页内容比较热门,从而显得重要;
4)   网页的目录深度小,易于用户浏览到。

这里定义“URL 目录深度”为:网页 URL 中除去域名部分的目录层次,即 URL=schema://host/localpath 中的 localpath 部分。如:URL 为 http://www.jyie.net, 则目录深度为 0;如果是 http://www.jyie.net/2010/,则目录深度为 1。
这样的特征并非臆断,而是从长期从事搜索引擎工作中得来的,如: 重要的学术论文网页,因为经常被引用,就表现为入度大;如果被重要的网页引 用或多次被其他站点镜像,也可被认为有价值、重要;如网页 URL 目录深度浅, 说明位于网站“浅层”,通常是被编辑网页的人认为重要而放在易于访问到的地方, 网站的主页或各板块的首页一般被经常浏览而显得重要。

需要说明的是,URL 目录深度小的网页并非总是重要的,目录深度大的网页 也并非全不重要,有些学术论文的网页 URL 就有很长的目录深度。多数重要度 高的网页会同时具有上述 4 个特征,即上述表示重要度特征的因素并非独立无关 的。
网页的权重可以形式化表示为
weight(p) = f(indegree(p), indegree(father_p), mirror(p), directorydepth(p) )
其中 weight(p)表示网页 p  的权重,indegree(p)表示网页 p  的入度函数, indegree(father p)表示网页 p 的父网页的入度函数,mirror(p)表示网页 p 的镜像度 函数,directorydepth(p)表示网页 p 的目录深度函数。
如果能够综合利用或部分利用上述特征,可以认为是重要的。但是如何确定 每一个特征量的影响因子却很困难。如果定义的不好,反倒会影响重要网页的发 现。是否有简单的方法来确定重要的网页呢?不妨先来分析一下网页的分布情况。
整个 Web 就象一个深不见底的海洋,表层包含的主要是“静态网页”(不通过提交查 询信息即可获得的页面),底层包含的主要是“动态网页”(需要通过提交查询信 息获得含有内容的网页)。目前搜索引擎的工作主要集中在表层工作。在表层中重 要网页的分布或者更接近于海面,或者更接近于底层。对于网页的搜集工作,就 象一条捕鱼的船行驶在海面上,目的是撒网捕捉尽可能多而且重要的网页。对于重要网页的获取,人为的策略干预难免会有疏漏,因此不妨考虑如何尽可能多的获得包含重要 URL 的网页问题。实际搜集网页经验说明,网站的首页是飘浮在 海面上的,网站数目远小于网页数,并且重要的网页也必然是从这些网站首页链 接过去的,因此搜集工作应当优先获得尽可能多的网站首页。由此不难想象宽度 优先搜集是尽快获得重要网页最好的办法。采用宽度优先搜集最直接有效的方法 就是根据网页 URL 的目录深度确定优先级,这是一个既客观又容易获得的信息。

搜索引擎开始工作时,既不知道要搜的网页入度大小(即不知道要访问的网 页 URL 被哪些其他网页指向),也不知道网页内容是什么,所以对于表征网页重 要性的第 1、2、3 项特征在搜集工作开始时无法确定。这些因素只能在获得网页 或几乎所有的 Web 链接结构之后才能够知道。只有特征 4 是不需要知道网页的 内容(没有抓取网页之前)就可以确定某个 URL 是否符合“重要”的标准,而 且网页 URL 目录深度的计算就是对字符串的处理,统计结果表明一般的 URL 长 度都小于 256 个字符,这使得 URL 目录深度的判别易于实现。所以对于搜集策 略的确定,特征 4 是最值得考虑的指导因素,特征 4 具有局限性,所以首先探讨它对于决定网页重要度到底 有多大的影响,采取什么样的措施能够尽量避免这种局限性带来的片面搜集,从 而对搜集策略做出有效的调整。

以目录深度评估网页重要度,辅以下述的方法,可以达到比较好的搜集效果。

1)        URL 权值的设定:根据 URL 的目录深度来定,深度是多少,权值就 减少多少,权值最小为零。
2)        设定 URL 初始权值为 10(此值设定的越小,从未访问 URL 集合中排 序输出就越快。但是也不能太小,否则 URL 的权值意义就不大了,导 致搜集策略不明显);
3)    URL   中出现字符 ”/” , ”?” ,或 ”&”   1   次 , 则权值减  1 ,出 现”search”,”proxy”,或”gate” 1 次,则权值减 2;最多减到零。(包含”?”, 或”&”的 URL 是带参数的形式,需要经过被请求方程序服务获得网页, 不 是搜索 引擎 系统侧 重的 静态网 页, 因此权 值相 应降低 。 包 含”search”,”proxy”,或”gate”,说明该网页极大可能是搜索引擎中检 索的结果页面,代理页面,因此要降低权值)。
4)        选择未访问 URL 的策略。因为权值小不一定说明不重要,所以有必要 给一定的机会搜集权值小的未访问 URL。选择未访问 URL 的策略可 以采用轮流的方法进行,一次按照权值排序取,一次随机取;或者 N 次按照权值排序取,M 次随机取(N ≥ 1,M ≥ 1)。N,M 的选择可以 根据系统实际运行情况获得。

 楼主| hydeist 发表于 2011-1-2 13:24:29 | 显示全部楼层
本帖最后由 hydeist 于 2011-1-2 13:35 编辑

根据以上原理,地宝网已经开发出来了。你们的NT论坛,也开发出来的。只剩你们还在磨时间从0研究SEO。这速度太慢,所以我直接给你们优化方案。
article/id  文章  
thread/id   帖子  
thread/id-翻页id/
forum/id    版块               
forum/id-版块翻页id/
group/id    群组               
space/id    空间               
blog/id     日志               
album/id    相册               
pic/id      图片               
doing/id    记录

http://www.discuz.org/marry/  这个合格的,一层目录就够了。
http://www.discuz.org/marry/fuwu/   这个不合格,层数太多,应该是http://www.discuz.org/fuwu/
http://www.discuz.org/marry/xinhun/  这个不合格,层数太多,应该是http://www.discuz.org/xinhun/


还有相册跟日志分类,那个URL的长度太吓人了!
最后就是搜索页面的全部URL都要优化掉,并在首页提供入口链接


回复

使用道具 举报

z59266 发表于 2011-1-2 13:29:00 | 显示全部楼层
希望dz 官方,能这样的改一下。这样才是最好的seo 优化方案。给力楼主。
回复

使用道具 举报

蓝语之星 发表于 2011-1-2 14:19:27 | 显示全部楼层
支持看看
回复

使用道具 举报

 楼主| hydeist 发表于 2011-1-3 11:44:58 | 显示全部楼层
顶上,给官方看看
回复

使用道具 举报

海诺科技 发表于 2011-1-3 14:16:21 | 显示全部楼层
支持,顶。。。。
回复

使用道具 举报

 楼主| hydeist 发表于 2011-1-3 19:17:05 | 显示全部楼层
顶上,给官方看看
回复

使用道具 举报

 楼主| hydeist 发表于 2011-1-4 14:48:36 | 显示全部楼层
顶上,给官方看看
回复

使用道具 举报

mizguo 发表于 2011-1-4 14:53:55 | 显示全部楼层
hydeist 发表于 2011-1-2 13:24
根据以上原理,地宝网已经开发出来了。你们的NT论坛,也开发出来的。只剩你们还在磨时间从0研究SEO。这速度 ...
http://www.discuz.org/marry/ 这个合格的,一层目录就够了。
http://www.discuz.org/marry/fuwu/ 这个不合格,层数太多,应该是http://www.discuz.org/fuwu/
http://www.discuz.org/marry/xinhun/ 这个不合格,层数太多,应该是http://www.discuz.org/xinhun/
楼主没提二级域名呵

http://www.discuz.org/marry/  这个二级域名更好。http://marry.discuz.org/
http://www.discuz.org/marry/fuwu/   这个不合格,层数太多,应该是http://marry.discuz.org/fuwu/
http://www.discuz.org/marry/xinhun/  这个不合格,层数太多,应该是http://marry.discuz.org/xinhun/



回复

使用道具 举报

 楼主| hydeist 发表于 2011-1-4 15:08:14 | 显示全部楼层
二级域名跟目录是有差别的。

如果你优化关键词的话,用二级域名比目录权重要高些。

而目录的优势就是该目录产生的PV会累积到主域名上的。

所以最后的优化结论就是内容不相关的用二级域名来做,内容相关的用目录来做。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 11:35 , Processed in 0.030925 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表