Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[已回应] 分享关于权重杜绝重复收录,屏蔽蜘蛛抓取指定域名,多域名绑定一个(网站)空间!

[复制链接]
linxifen557 发表于 2012-9-18 22:13:41 | 显示全部楼层 |阅读模式
各位朋友:

      大家好,最近想学做个网站,因为使用了两个域名,分别启用解析:
www.abc.com 和 abc.com ,www.abc.net 和 abc.net 等四个网址路径,如果做个好站,肯定权重会有分散,有影响。个人喜欢用顶级 acb.com 不想用 www 二级作为主站。但是常人的规律就是要带 www 的习性,也是最好的(后看到一些文章指出)。

      参考:
规范的网址书写方式,有利于提高网站主页权重。
                      http://bbs.admin5.com/thread-2872629-1-1.html
     有没有带www,有什么不同?在DNS中,www是你要解析的主机名。在做域名解析时,会要你为域名:domain.com填写一个主机名,我们一般填:www 。当然,也可以填 bbs或者其它的诸如abcde等等。如果填,那么,主机返回的页面就不一样。对搜索引擎来说,这是两个不同的站点,两个不同的页面。两个都要计算PR值。

      所以看来还是要二级域名
www.abc.com 作为主站最好了,因为我一个空间已经绑定了四个网址,所以不希望蜘蛛爬到其他三个网址上抓取链接内容,导致链接重复降权等,就找了很久关于 屏蔽所有蜘蛛搜索引擎抓取指定域名 的文章,有些有所提示,但是不够详细。

      
刚刚终于找到了一篇比较详细的文章,所以复制过来和大家一起探讨学习。希望有同样问题的朋友勇于加入交流学习。高手请指点,我们菜鸟希望学会分享交流,不要总做拿来主义......

               

利用.htaccess屏蔽搜索引擎蜘蛛抓取某个域名下的链接
http://gump.me/609.html

根据域名读取不同的robots.txt文件-思路分析
http://blog.sina.com.cn/s/blog_9cdb25c60101gjfp.html
技术的高低绝大多数取决于思想的层次,思路的开阔,一个问题的解决方法有千千万种,这就是解决问题的能力,这是一种思想。
昨天中午李总交给我一个任务,www.bjntyy.com优化站的robots.txt是正常的,如果是nt.jyz001.com推广站访问要将robots.txt改为屏蔽所有,这两个站是绑定到一个空间上的。
我是这样去分析解决的。
方法一:根据php 【if($_SERVER["SERVER_NAME"]=="你的域名") 】判断域名来路然后输出<meta name=robots content='all'>或者<meta name=robots content='none'>;但是我用的是dede,.html是不执行php的,放在模板中解析也是不可以的,所以此法不成立;
方法二:在index.html里面写js,【document.getElementByName('robots')[0].content='none'】来改变<meta name=robots content='none'>的值;此方法确实能改变,但是源码是不改变的,搜索引擎抓取的是源码,js改变的东西无效,所以此法不行;
思路三:在robots.txt里面写程序,此法更不成立,.txt是不能解析的。;
通过以上我的分析,最终给了李总一个答复,从原理上是不可行的;李总给我了一下几个思路;
方法四:.htaccess【
ErrorDocument 404 /404.htm
RewriteEngine on
RewriteRule ^robots.txt$ /robots_%{HTTP_HOST}.txt [L]
】如果是apache的话,此法肯定可以的,我咋没有想到呢,我懵了,我的思路还是不够开阔呀,如果不是apache,重定向应该也行的。

------------------------------------------------------------------------------------------------------------

Google搜索优化建议 -- 阻绝重复内容的抓取
http://lanbing.org/1465.cgi

      经常会遇到一个网站多个域名的时候,例如我们用cdn的子域名做加速,或者是cache做缓存等。
     于是,就照成了重复收录的问题,但是这又不是301可以解决的问题,因为这些资源我们不想用301.
     如下图,cache.henmang.net与henmang.net完全重复,实际上这是一个CDN静态加速网页。
解决方法:用robots.txt拒绝搜索引擎抓取。
这里又用到了apache的.htaccess,添加如下规则


1
RewriteRule ^robots.txt$ /robots_%{HTTP_HOST}.txt [L]

   然后在根目录放置robots_cache.henmang.net.txt 这样的txt文件即可。
   当你访问 cache.henmang.net/robots.txt的时候就访问到了 robots_cache.henmang.net.txt,其他域名同理。
   这样就可以对同目录下的不同域名分别设置robots规则了。


   推荐一个robots规则生成工具 http://www.3464.com/Tools/Robots/


    希望有朋友一起交流,有所知、有所成效的朋友,望能指点迷津。。。





https://discuz.dismall.com/thread-3106005-1-1.html  X2.5 UTF8繁体版 简繁转换插件!

https://discuz.dismall.com/thread-3100675-1-1.html  QQ域名邮箱,Google企业邮箱等X2.5邮件设置!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
babyfacer 发表于 2012-9-18 22:19:40 | 显示全部楼层
谢谢分享。。。
回复

使用道具 举报

52liuzhou 发表于 2012-9-18 22:29:58 | 显示全部楼层
学习了,多谢楼主分享~~~~~~~~
回复

使用道具 举报

 楼主| linxifen557 发表于 2012-9-18 22:30:43 | 显示全部楼层
忘了讲,我四个网址都是访问同一个空间、同一个目录,就是一个网站四个网址可登录访问。
想使用四种CDN加速线路,比如:网通、电信、香港、国外等几家CDN加速线路,各占一个网址。
打比方:使用 www.abc.com  电信 作为主站,允许全部蜘蛛抓取。
        然后 abc.com          网通CDN解析...屏蔽所有蜘蛛抓取..
                   www.abc.net  香港CDN解析...屏蔽所有蜘蛛抓取..
                    abc.net          国外CDN解析...屏蔽所有蜘蛛抓取..  
是否可行呢?
回复

使用道具 举报

52liuzhou 发表于 2012-9-18 22:32:42 | 显示全部楼层
按这种说法,理论上是可行的。















柳州生活网http://www.52liuzhou.com
回复

使用道具 举报

 楼主| linxifen557 发表于 2012-9-18 22:36:31 | 显示全部楼层
52liuzhou 发表于 2012-9-18 22:32
按这种说法,理论上是可行的。

嗯,是的。谢谢支持,只要空间稳定正常,比如是国外空间,背墙了,其他网址线路,也许可以登录访问。
因为代码还没修改,和执行见效没那么快,所以想和大家先多探讨。
回复

使用道具 举报

 楼主| linxifen557 发表于 2012-9-19 01:08:53 | 显示全部楼层
本帖最后由 linxifen557 于 2012-9-19 01:12 编辑

刚有在一个LIUNX空间测试了一下,域名 DEF.COM 绑定空间主目录,.htaccess文件添加代码可行。
RewriteEngine on
RewriteRule ^robots.txt$ /robots_%{HTTP_HOST}.txt [L]
在主目录下放置 robots_def.com.txt 网址打开 http://def.com/robots.txt 显示正常。
手动设置的。。robots_www.abc.net.txt屏蔽代码都是:
User-agent: *
Disallow: /
没有带“回车键”,没有空行哦。修改 另存为 UTF8编码的TXT文件。
----------------------------------------------------------------------------------
     可是此空间可以绑定子目录建立多站点,我是使用一个子目录绑定多域名的。
    尝试设置abc.com和abc.net及www.abc.net在子目录里放置robots_abc.com.txt和robots_abc.net.txt及robots_www.abc.net.txt等三个文件,测试无法打开,跳转回指定首页。
    然后在主目录也放一份这三个文件,仍然不行。
    再后来把主目录里的.htaccess文件复制拷贝到子目录一份,再打开却可以了。
    打开www.abc.com/robots.txt显示正常(注意原本安装Discuz! X2.5后,目录下默认生成robots.txt蜘蛛文件,设置屏蔽指定域名代码后,此时要修改为robots_www.abc.com.txt方能打开哦),此时自己手动设置的 abc.com/robots.txt和abc.net/robots.txt都能打开了。但是自己手动编辑的(robots_www.abc.net.txt)www.abc.net/robots.txt打开连接时却有显示乱码,蜘蛛可能会继续抓取的吧?
    然后我尝试复制robots_www.abc.com.txt原本系统默认生成的(下载复制一份,最后有个先备份的习惯),修改成了robots_www.abc.net.txt版本,显示则正常。(网站默认网址为 www.abc.com 了,打开robots.txt显示得比较疏、字间距大。www.abc.net 打开robots.txt显示得比较密集、字间很相近,真奇怪!)
    后面我又修改了一下 robots_www.abc.net.txt ,还是希望全部屏蔽掉。
于是把:
#
# robots.txt for Discuz! X2
#

User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/
Disallow: /config/
Disallow: /uc_client/
........................
等设置多余的文件夹都删除掉。改成:
User-agent: *
Disallow: /


注意斜杠后要多打两个“回车键”多空两行,不空的话,就会出现乱码...后面发现的。
因为本人是新手菜鸟对.htaccess编写不是熟悉,所以多是尝试乱改乱编辑的。
有不对的地方,希望有朋友指教。
经过这些修改,http://网址/robots.txt均显示基本正常了。但是带WWW的robots.txt打开都会先显示:
User-agent: *
Disallow: /I00iDzWIRiPrc2wX (随机生成的?)
然后才显示:
User-agent: *
Disallow: /
---------------------------------------------------------------------------------
基本就是这样的情况,不知道蜘蛛会怎么样,情况后续。
回复

使用道具 举报

kwxonline 发表于 2012-9-19 01:23:25 | 显示全部楼层
多谢分享。。
回复

使用道具 举报

www.juben98.com 发表于 2012-9-19 05:25:17 | 显示全部楼层
确实是好东西,学习下
回复

使用道具 举报

wq520515 发表于 2012-9-19 07:28:50 | 显示全部楼层
谢谢分享!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-9-28 06:36 , Processed in 1.139518 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表