Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] 如何写内容分页链接识别规则

[复制链接]
protoss2008 发表于 2009-7-17 13:41:32 | 显示全部楼层 |阅读模式
如题!

在采集 http://mobile.pconline.com.cn/review/0907/1707497.html  时所采集到“文章内容分页区域识别”代码如下

<span>1</span><a href="http://mobile.pconline.com.cn/review/0907/1707497_1.html">2</a><a href="http://mobile.pconline.com.cn/review/0907/1707497_2.html">3</a><a href="http://mobile.pconline.com.cn/review/0907/1707497_3.html">4</a><a href="http://mobile.pconline.com.cn/review/0907/1707497_4.html">5</a><a href="http://mobile.pconline.com.cn/review/0907/1707497_5.html">6</a><a href="http://mobile.pconline.com.cn/review/0907/1707497_1.html" class="next">下一页</a></div>

如何写内容分页链接识别规则?请指教,谢谢!!
 楼主| protoss2008 发表于 2009-7-17 14:06:24 | 显示全部楼层
回复

使用道具 举报

surface 发表于 2009-10-18 20:35:54 | 显示全部楼层
应该是这个采集器的BUG吧。也请高手指点
回复

使用道具 举报

surface 发表于 2009-10-18 20:48:24 | 显示全部楼层
我也遇到这样的情况。。。怎么解决啊。。狂晕。。。郁闷。。中。。
回复

使用道具 举报

tl20020313 发表于 2009-11-15 16:01:53 | 显示全部楼层
有没有人知道??
回复

使用道具 举报

jinshu1981 发表于 2009-11-15 21:57:12 | 显示全部楼层
我也遇到同样的困惑~~!!!!!!

高手来解决一样
回复

使用道具 举报

jinshu1981 发表于 2009-11-15 23:33:42 | 显示全部楼层
顶上去~~~~~~~~~!
回复

使用道具 举报

lidq.jingwu 发表于 2009-11-16 09:12:29 | 显示全部楼层
6# jinshu1981


    将你的采集规则发上来。
回复

使用道具 举报

jinshu1981 发表于 2009-11-16 17:09:02 | 显示全部楼层
8# lidq.jingwu
回复

使用道具 举报

jinshu1981 发表于 2009-11-16 17:17:43 | 显示全部楼层
我用的GBK的版本
今天升级到7.5 也打了补丁 但还是有些UTF-8不能采集
只有使用这段代码后才可以。

function geturlfile($url, $encode=1) {

        global $thevalue, $_SCONFIG;



        $text = '';

        if(!empty($url)) {

                if(function_exists('file_get_contents')) {

                        @$text = file_get_contents($url);

                } else {

                        @$carr = file($url);

                        if(!empty($carr) && is_array($carr)) {

                                $text = implode('',$carr);

                        }

                }

        }

        

        $text = str_replace('·', '', $text);

        if(function_exists('iconv')) {

                $text = iconv($thevalue['encode'], $_SCONFIG['charset'].'//IGNORE', $text);

        } else {

                $text = encodeconvert($thevalue['encode'], $text);

        }

        return $text;

}
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-11-16 22:44 , Processed in 0.061942 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表