Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

关于utf8采集问题的详尽报告及分析

[复制链接]
wonderxhd 发表于 2008-4-18 19:23:55 | 显示全部楼层 |阅读模式
自己遇到,搜索了一下,发现很多人也遇到,官方是否能尝试解决一下这个问题?虽然目前utf8的用户还不多,但我想这对于康盛的国际化,标准化进程来说还是很重要的。

问题描述:我的站为utf8,采集目标站gb2312.
         1.常规设置采集机器人。
         2.填入目标站编码gb2312开始一步步测试采集。
         3.采集文章列表,一切正常,甚至可以在正则表达式中使用中文。
         4.采集测试截止到标题采集,一切正常,没有乱码。
         5.采集文章内容中文全部为乱码显示,正则表达式中使用中文也不能识别。
思考推理:1.标题采集一切正常,说明采集器的编码转换确实起了作用
         2.内容异常,说明编码转换没有对内容部分起作用
大胆推测:康盛编程人员粗心,在程序中将编码转化的范围仅限定在了标题区。
所以:   这应该是一个很容易修正的错误。

希望能尽快有补丁解决此问题。
最后感谢康盛给大家提供了这么复杂强大的网站程序。
 楼主| wonderxhd 发表于 2008-4-18 20:49:48 | 显示全部楼层
接着报告。
惊喜的发现虽然测试时内容显示为乱码,但是采集出来的文章个个都很漂亮。

因此现在的问题仅局限于定义采集规则时的测试中文为乱码,还忘team修改之。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 20:36 , Processed in 0.023920 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表