关于utf8采集问题的详尽报告及分析

wonderxhd · 发表于 2008-4-18 19:23:55

自己遇到，搜索了一下，发现很多人也遇到，官方是否能尝试解决一下这个问题？虽然目前utf8的用户还不多，但我想这对于康盛的国际化，标准化进程来说还是很重要的。

问题描述：我的站为utf8，采集目标站gb2312.
      1.常规设置采集机器人。
      2.填入目标站编码gb2312开始一步步测试采集。
      3.采集文章列表，一切正常，甚至可以在正则表达式中使用中文。
      4.采集测试截止到标题采集，一切正常，没有乱码。
      5.采集文章内容中文全部为乱码显示，正则表达式中使用中文也不能识别。
思考推理：1.标题采集一切正常，说明采集器的编码转换确实起了作用
      2.内容异常，说明编码转换没有对内容部分起作用
大胆推测：康盛编程人员粗心，在程序中将编码转化的范围仅限定在了标题区。
所以：这应该是一个很容易修正的错误。

希望能尽快有补丁解决此问题。
最后感谢康盛给大家提供了这么复杂强大的网站程序。

wonderxhd · 发表于 2008-4-18 20:49:48

接着报告。
惊喜的发现虽然测试时内容显示为乱码，但是采集出来的文章个个都很漂亮。

因此现在的问题仅局限于定义采集规则时的测试中文为乱码，还忘team修改之。

		自动登录	找回密码
密码			立即注册