Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] gbk采集utf-8的源码不完整读取.[已解决]

[复制链接]
webcard 发表于 2009-8-12 16:43:50 | 显示全部楼层 |阅读模式
本帖最后由 webcard 于 2009-8-15 01:41 编辑

用gbk的读取时可以完整读取,但内容乱码.
用utf-8的读取时只能取得部分源码.

已解决,在12楼.
lidq.jingwu 发表于 2009-8-12 16:45:09 | 显示全部楼层
这是编码问题,将你的采集器发上来,我本地测试一下。
回复

使用道具 举报

 楼主| webcard 发表于 2009-8-12 17:15:56 | 显示全部楼层
源码只读取到下面的地方就断了.
<option value="1">软件搜索</option>
                <opti

# SupeSite Dump
# Version: SupeSite 7.0
# Time: 2009-08-12 17:14:18
# From:
#
# This file was BASE64 encoded
#
# SupeSite: http://www.supesite.com
# Please visit our website for latest news about SupeSite
# --------------------------------------------------------


YTo1MTp7czo3OiJyb2JvdGlkIjtzOjI6IjEyIjtzOjQ6Im5hbW
UiO3M6NDoidGVzdCI7czozOiJ1aWQiO3M6MToiMSI7czo4OiJk
YXRlbGluZSI7czoxMDoiMTI1MDA2ODQxMSI7czo4OiJsYXN0dG
ltZSI7czoxOiIwIjtzOjExOiJpbXBvcnRjYXRpZCI7czoxOiIx
IjtzOjg6InJvYm90bnVtIjtzOjE6IjAiO3M6MTE6Imxpc3R1cm
x0eXBlIjtzOjM6Im5ldyI7czo3OiJsaXN0dXJsIjtzOjkwOiJh
OjI6e3M6NjoibWFudWFsIjthOjE6e2k6MDtzOjM1OiJodHRwOi
8vd3d3Lm5ld2h1YS5jb20vc29ydC8zOF8xLmh0bSI7fXM6NDoi
YXV0byI7czowOiIiO30iO3M6MTM6Imxpc3RwYWdlc3RhcnQiO3
M6MjoiMzgiO3M6MTE6Imxpc3RwYWdlZW5kIjtzOjI6IjY1Ijtz
OjEyOiJyZXZlcnNlb3JkZXIiO3M6MToiMCI7czo2OiJhbGxudW
0iO3M6MjoiMTUiO3M6NjoicGVybnVtIjtzOjE6IjIiO3M6Nzoi
c2F2ZXBpYyI7czoxOiIwIjtzOjY6ImVuY29kZSI7czo1OiJ1dG
YtOCI7czoxMzoicGljdXJsbGlua3ByZSI7czowOiIiO3M6OToi
c2F2ZWZsYXNoIjtzOjE6IjAiO3M6MTQ6InN1YmplY3R1cmxydW
xlIjtzOjA6IiI7czoxODoic3ViamVjdHVybGxpbmtydWxlIjtz
OjU5OiI8ZGl2IGNsYXNzPSJ0aXRsZSI+PHN0cm9uZz48QSBocm
VmPSIuLlt1cmxdIj4qPC9BPjwvc3Ryb25nPiI7czoxNzoic3Vi
amVjdHVybGxpbmtwcmUiO3M6MjE6Imh0dHA6Ly93d3cubmV3aH
VhLmNvbSI7czoxMToic3ViamVjdHJ1bGUiO3M6MTg6IjxoND5b
c3ViamVjdF08L2g0PiI7czoxMzoic3ViamVjdGZpbHRlciI7cz
owOiIiO3M6MTQ6InN1YmplY3RyZXBsYWNlIjtzOjA6IiI7czox
Njoic3ViamVjdHJlcGxhY2V0byI7czowOiIiO3M6MTA6InN1Ym
plY3RrZXkiO3M6MDoiIjtzOjE4OiJzdWJqZWN0YWxsb3dyZXBl
YXQiO3M6MToiMCI7czoxMjoiZGF0ZWxpbmVydWxlIjtzOjA6Ii
I7czo4OiJmcm9tcnVsZSI7czowOiIiO3M6MTA6ImF1dGhvcnJ1
bGUiO3M6MDoiIjtzOjExOiJtZXNzYWdlcnVsZSI7czowOiIiO3
M6MTM6Im1lc3NhZ2VmaWx0ZXIiO3M6MDoiIjtzOjE1OiJtZXNz
YWdlcGFnZXR5cGUiO3M6NDoicGFnZSI7czoxNToibWVzc2FnZX
BhZ2VydWxlIjtzOjA6IiI7czoxODoibWVzc2FnZXBhZ2V1cmxy
dWxlIjtzOjA6IiI7czoyMToibWVzc2FnZXBhZ2V1cmxsaW5rcH
JlIjtzOjA6IiI7czoxNDoibWVzc2FnZXJlcGxhY2UiO3M6Mjoi
CgoiO3M6MTY6Im1lc3NhZ2VyZXBsYWNldG8iO3M6MjoiCgoiO3
M6ODoiYXV0b3R5cGUiO3M6MToiMSI7czoxMToid2lsZGNhcmRs
ZW4iO3M6MToiMCI7czoyMDoic3ViamVjdHVybGxpbmtjYW5jZW
wiO3M6MDoiIjtzOjIwOiJzdWJqZWN0dXJsbGlua2ZpbHRlciI7
czowOiIiO3M6MTY6InN1YmplY3R1cmxsaW5rcGYiO3M6MDoiIj
tzOjE2OiJzdWJqZWN0a2V5Y2FuY2VsIjtzOjA6IiI7czoxMDoi
bWVzc2FnZWtleSI7czowOiIiO3M6MTY6Im1lc3NhZ2VrZXljYW
5jZWwiO3M6MDoiIjtzOjEzOiJtZXNzYWdlZm9ybWF0IjtzOjE6
IjAiO3M6MjA6Im1lc3NhZ2VwYWdldXJsbGlua3BmIjtzOjA6Ii
I7czo3OiJ1aWRydWxlIjtzOjA6IiI7czoxNToiZGVmYXVsdGRh
dGVsaW5lIjtzOjE6IjAiO3M6NzoidmVyc2lvbiI7czozOiI3Lj
AiO30=
回复

使用道具 举报

 楼主| webcard 发表于 2009-8-13 15:50:20 | 显示全部楼层
请问有什么解决办法?
回复

使用道具 举报

 楼主| webcard 发表于 2009-8-13 23:41:02 | 显示全部楼层
只能自己顶了啊.
回复

使用道具 举报

lidq.jingwu 发表于 2009-8-14 09:58:17 | 显示全部楼层
你的列表识别区域为空,怎么采集的?
回复

使用道具 举报

 楼主| webcard 发表于 2009-8-14 19:03:04 | 显示全部楼层
用自动识别的.
"识别后有内容,区域源码"
这里显示的源代码只显示很小的一部分.没显示完全,所以加上后"列表识别区域"根本采不到资料.
回复

使用道具 举报

littlehz 发表于 2009-8-14 19:22:56 | 显示全部楼层
本地测试采集器连接http://www.newhua.com/sort/38_1.htm页面,能成功获取到完整的HTML代码。请检查你的服务器问题。
回复

使用道具 举报

 楼主| webcard 发表于 2009-8-14 20:38:40 | 显示全部楼层
原来是gbk的一点问题没来.这几天改版为utf-8的就采集不到了.
要是设置成gbk倒是可以采集到全部源码,但乱码.
要是设置成utf-8的话,那就是只能采集到上面一小部分的源码了.
回复

使用道具 举报

 楼主| webcard 发表于 2009-8-14 20:51:21 | 显示全部楼层
刚才在本地测试也是没问题.看来是服务器跟程序不能很好的兼容了.
那应该如何改服务器?还是程序?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-17 22:21 , Processed in 0.023356 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表