Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[已解决] 火车头采集数据到discuz论坛详细图文教程

[复制链接]
chinahu 发表于 2008-12-31 16:58:11 | 显示全部楼层 |阅读模式
本帖最后由 下砂 于 2009-8-18 18:12 编辑

1 需要下载一个火车头模块,在这里下载:http://bbs.locoy.com/spider-33408-1-1-80147.html

这是我修改的一个,到火车头注册一个会员会有1节火车车厢的初始值,你就可以下载该附件了。
V2008正式版完整包 http://bbs.locoy.com/read-28888-80147.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
 楼主| chinahu 发表于 2008-12-31 16:59:07 | 显示全部楼层
2 使用方法
解压缩后,将bd540.php用UltraEdit-32等文本编辑器软件打开(不要使用记事本)。找到:
  1. $replyusers="bd540|0000|0001|0002|0003|0004|0005|0006|0007|0008|0009|0010";
复制代码
替换里面的
  1. bd540|0000|0001|0002|0003|0004|0005|0006|0007|0008|0009|0010
复制代码
为你论坛现有的用户名(必须存在),用户名之间用
  1. |
复制代码
隔开。
保存后将bd540.php上传到论坛根目录,我这里是D:\APMServ5.2.0\www\htdocs\DZ\bbs,如图:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

hejiwg 发表于 2008-12-31 16:59:23 | 显示全部楼层
学习了。。。。
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:00:23 | 显示全部楼层
将dz7随机用户名.cwr文件复制到火车头的Module目录,我这里是D:\program files\LocoySpider\Module。
好,我们现在运行火车头(LocoySpider.exe)


选择新建站点,站点名随便填写一个之后保存。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:01:23 | 显示全部楼层
添加一个WEB发布:
点击火车头主界面的发布图标,在弹出来的窗口选择“添加”。



在接下来弹出的窗口中选中“dz7随机用户名”。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:02:46 | 显示全部楼层
点击“查看/修改”按钮。在“文章发表参数”菜单里,填入bd540.php填写的用户名,一行一个。



最后保存覆盖后关闭即可。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:04:50 | 显示全部楼层
返回到“添加WEB发布配置”,在网站地址处按要求填写你网站地址,例如:http://127.0.0.1/DZ/bbs
选中“目标系统需要登陆”之后,点击在“火车头内置浏览器中登陆”来获取网站cookies,内置浏览器登陆成功就可以关闭了。



选择网站编码格式(看你下载的编码版本,或从源文件查看),选中“UBB形式”。



编码查看:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:07:52 | 显示全部楼层
点击“刷新列表”
这是论坛的板块:


刷新:



选择需要发帖的板块之后,输入配置名称保存即可。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:09:22 | 显示全部楼层
数据的采集

获取列表:
我们把“嬴政茶坊”(http://bbs.winzheng.com/forumdisplay.php?fid=2)作为我们的采集目标。

在刚才新建的站点上右键,选择新建“从该站点新建采集任务”。输入任务名称,点击“向导添加”(采集地址)。





我们来看看茶坊地址的规律:

http://bbs.winzheng.com/forumdisplay.php?fid=2&page=3
http://bbs.winzheng.com/forumdisplay.php?fid=2&page=2
http://bbs.winzheng.com/forumdisplay.php?fid=2&page=1
上述3个地址分别可以打开茶坊的3、2、1页,也就是只要更改“page=”后面的数字,就可以打开不同的页面。
所以我们在“添加开始采集地址”对话框中选择“批量/多页”,随便复制一个地址进去,将“page=”后面的数字用火车头的通配符:
  1. (*)

复制代码
替换。
下面的数字变化范围就是叫你选择采集的页面范围。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

 楼主| chinahu 发表于 2008-12-31 17:12:07 | 显示全部楼层
获取帖子列表:
页面内选定区域采集网址从“”到“”的填写。
这里甜的是html代码。
http://bbs.winzheng.com/forumdisplay.php?fid=2&page=3为例,我们查看源文件(不会。不是吧!)
该页面第一个帖子是“肾蛋节,祝大家肾也快乐,蛋也快乐”,我们在源文件中找到它。






我们主要寻找的是源文件中,位于该贴之前的、唯一的html代码。并且此代码在其他页面的源文件中照样使用。
好,我找到了一个:

  1. <thead class="category">
复制代码
我就用这个了,你们也可以使用这个。填写到如图的位置。
下面我们再找一个在列表最后一个帖子之后出现的代码,且在刚才我们找到的代码“<thead class="category">”和最后一个帖子没有出现过的HTML代码
好,我找到了:

  1. <h4>快速发新话题</h4>
复制代码
填进去(如图)。

随便打开一个帖子,复制地址填写入“文章内容页面的地址必须包含”选项中,并把“tid=”后面字符用火车头的通配符替换。
由于有的帖子回复较多,该贴已经有分页了,我们要排除分页(不然会出现重复采集的现象,分页内容的采集下来会告诉大家。),在不得包含选项里填写:

  1. page=
复制代码
即可。(排除的是帖子的分页,而不是帖子列表的分页。)



我们测试一下采集地址(点“开始测试网址采集”)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-17 18:53 , Processed in 0.028719 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表