Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

seo干货分享:初探蜘蛛的爬行原理

[复制链接]
lpf2255 发表于 2012-3-29 19:20:22 | 显示全部楼层 |阅读模式
Discuz!模板
适用版本: Discuz! 6.1
语言编码: GBK简体 
风格转换者: 原创

    一:下载larbin并且编译
    下载都会,编译:
    ./configure
    Gmake
    有时候会出现编译错误的情况,只要打开./adns/internal.h文件,把568到571行注销掉就可以,然后在执行一次编译就可以了。

    二:运行larbin
    ./larbin -c conf_file
    选项-c是指定使用的配置文件,不指定时默认使用的是larbin.conf

    三:手工提交URL给larbin
    在larbin.conf中添加一行 inputport 1976,设置端口号,如果被占用,可以换其他一个没有被占用的端口。
    接下来是本文的重点——告诉蜘蛛如何对待我们提交的URL,输入:
    priority:1 depth:3 test:0 http://mygaofu.com
    把网址提交给larbin,优先度为1;爬行深度为3,抓去提交的网站。
    看到没?这和蜘蛛的调度程序很像,设定爬行的深度,爬行优先级,以及查询网页是否已经爬行。

    Seo并没有说的那么简单,仅仅停留在“内容为王,外链为皇帝”,“做好站内链接”的阶段,就会丧失自己的竞争力。了解更多的搜索引擎知识,做科学的seo,可以对自己做的每一件事情进行效果评估,才是真正的seoer。
    好了,废话不多说,今天借助一个开源的爬虫程序:larbin,简单介绍下搜索引擎爬虫程序,也就是我们常说的“蜘蛛”“spider”。
    larbin是一种开源的网络爬虫/网络蜘蛛,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
  • 小结:蜘蛛丝按照宽度优先原则,结合重要度原则(priority),为了提高蜘蛛的爬行效率,对蜘蛛的爬行深度进行限制(depth)。这就是强调网站使用树形结构,降低网站深度,提高外链质量的原因。
    仔细分析,还可以发现更多。www.358meil.net www.tingnanji.com  www.sidddd.com
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-12-23 16:27 , Processed in 0.029478 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表