Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

四步教会您制作采集器

[复制链接]
安笛 发表于 2007-1-17 16:08:56 | 显示全部楼层 |阅读模式
很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能,特作此教程。

首先简单说一下制作采集器的基本原理和思路:

1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“索引页面url地址(图4和5)”;

2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;(图4和5)
3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。(图4和5)
4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。
5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。
以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。

接下来介绍采集器的基本原理和步骤:
第一:打开后台的采集器,点击“添加新机器人”。(图1)
第二:填写基本设置:(图2)
      这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采集网页的编码,并不是您站点的编码。这里切记!!
      查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“<meta http-equiv="Content-Type" c />” ,charset后面的就是这里需要填写的“采集页面编码”。(图3)
第三:列表页面采集设置:(图4)和(图5)
      这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
      采集页面的url地址有两种设置方法:手动输入(图4)和自动增长(图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长
只需填入采集页面的地址和页面页码。详见图5。用

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
倔犟的牛 发表于 2007-1-18 15:50:50 | 显示全部楼层
怎么大伙这么好,留沙发给我。

顶!已经基本学会采集了!! 不过是看SUP的视频教程。
回复

使用道具 举报

AgFx 发表于 2007-1-20 01:54:47 | 显示全部楼层
支持一下~~!!
最近很少发帖.....
回复

使用道具 举报

清风古道 发表于 2007-1-20 02:35:19 | 显示全部楼层
太谢谢了,正需要
回复

使用道具 举报

yys75518 发表于 2007-1-20 22:54:12 | 显示全部楼层

太谢谢楼主的作品

太谢谢楼主的作品
回复

使用道具 举报

aqxsj 发表于 2007-1-21 02:30:51 | 显示全部楼层
顶一个!!:)
回复

使用道具 举报

待昆仑 发表于 2007-1-24 16:31:57 | 显示全部楼层
先顶个等下去试试
行不行半小时后知道
先顶,弄好了在感谢
回复

使用道具 举报

aaaad 发表于 2007-1-24 17:08:47 | 显示全部楼层
首页先支持一下!!
回复

使用道具 举报

谢科 发表于 2007-1-24 22:15:45 | 显示全部楼层
留个脚印
回复

使用道具 举报

gzribba 发表于 2007-1-25 18:11:32 | 显示全部楼层
顶一个,好帖子
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-15 01:25 , Processed in 0.032772 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表