Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

解答:为什么采集的内容都是乱码?

[复制链接]
茄子 发表于 2006-12-29 17:39:58 | 显示全部楼层 |阅读模式
适用SS 5.x/XS 3.x 以及以下版本

这个一般都是您的SupeSite/X-Space程序的编码和被采集的页面的编码不一致导致

如果您要采集的页面的编码是GBK/UTF8/BIG5,则可以在编写采集规则的时候设置

采集规则里面有个栏目
采集页面编码
请输入要采集页面的编码。比如:gbk、utf-8、big5。为空则不进行编码转换


根据被采集页面的实际情况填写即可:
1)如果您的SS程序编码和要采集的页面编码一致,则可以留空,不会进行编码转换
2)如果您要采集的页面编码不是gbk/big5/utf-8,则建议您不要采集,因为程序不对其他编码进行转换,采集了还是会乱码

如何查看一个页面的编码?

可以在被访问的页面上鼠标右键--查看源文件:
您可以看到类似代码:
  1. <meta http-equiv="Content-Type" content="text/html; charset=gbk">
复制代码
这个说明页面的编码为GBK,其他同理



如果您是智能采集出现乱码,检查下页面源代码中是否有指定的编码,如果没有指定的编码,那么程序就会默认按照程序的编码来处理的。
wuhaolong 发表于 2006-12-30 09:16:50 | 显示全部楼层
沙发..:) :)
回复

使用道具 举报

7306 发表于 2006-12-30 17:20:42 | 显示全部楼层
我为什么不能在这个板块发新贴?

采集上碰到问题还想请茄子姐姐指导一下:)
前面几步都没问题,在内容分页上不能通过

索引页面URL地址http://search.daqi.com/cgi-bin/s ... mp;chl=tu&page=
文章内容分页区域识别规则
<div class="b"><a href="*"><img src="http://tu.daqi.com/img_0602/aa.jpg" border="0" /></a><img src="http://tu.daqi.com/img_0602/bb.jpg" border="0" /></a>
文章内容分页链接识别规则
<a href="" class="blue">*</a>
文章内容分页链接URL补充前缀  http://tu.daqi.com/tuhai/article/tu_0/141823318/

分页源文件<div class="pic"><a href="2.html#t"><IMG SRC="http://image1.daqi.com/pic_search/original/14249/b043d6367b9813e8063b1b1919d29130.jpg" WIDTH="500"  BORDER=0 ALT="点击进入下一张图片"></a></div>
<div class="next2">
<div class="b"><a href="1.html#t"><img src="http://tu.daqi.com/img_0602/aa.jpg" border="0" /></a>
<a style="font-weight:normal" class="black">1</a>
<a href="2.html#t" class="blue">2</a>
<a href="3.html#t" class="blue">3</a>
<a href="4.html#t" class="blue">4</a>
<a href="5.html#t" class="blue">5</a>
<a href="6.html#t" class="blue">6</a>
<a href="7.html#t" class="blue">7</a>
<a href="2.html#t"><img src="http://tu.daqi.com/img_0602/bb.jpg" border="0" /></a>
</div>
这个怎么解决呢
回复

使用道具 举报

gogolala 发表于 2007-5-11 17:06:00 | 显示全部楼层
学到了。呵呵。活动老,学到老
回复

使用道具 举报

pc77maikongjian 发表于 2007-6-26 23:08:42 | 显示全部楼层
如果您的SS程序编码和要采集的页面编码一致,则可以留空
回复

使用道具 举报

leetop 发表于 2007-7-3 22:03:38 | 显示全部楼层

我看到很多人使用智能采集都是乱码

我看到很多人使用智能采集都是乱码
都在提问!!
是不是程序的问题??
我的是
ss5.2.2
回复

使用道具 举报

梦若思笑 发表于 2007-7-6 09:04:51 | 显示全部楼层
ddddddddddd
回复

使用道具 举报

梦若思笑 发表于 2007-7-6 09:06:12 | 显示全部楼层
ddddddddd
回复

使用道具 举报

leetop 发表于 2007-7-14 14:38:56 | 显示全部楼层

难道就没有人回答?

难道就没有人回答?
这个帖子点击1340多了!!
没有人回答!·!
回复

使用道具 举报

myseagull 发表于 2007-8-3 16:06:23 | 显示全部楼层
UTF-8版采集规律中如果有中文,就会采集不到.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 08:47 , Processed in 0.038449 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表