Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[采集] 采集不到图片

[复制链接]
xhhkitty 发表于 2010-5-12 16:14:48 | 显示全部楼层 |阅读模式
在采集文学城和留园网时遇到这样的问题:
图片样式是:<input type=image onload='javascript:if(this.width>750) this.width=750' src=http://himg2.huanqiu.com/attachment/100512/d9c7e1941d.jpg onclick=document.location='http://netshuku.com'>

而我们一般采集的图片是img。应该是要去修改采集的正则匹配,但我不知道应该怎么改?或是有更好的办法

请高手指点一下
 楼主| xhhkitty 发表于 2010-5-13 08:29:27 | 显示全部楼层
哪位高手给帮忙看看
回复

使用道具 举报

kingtung 发表于 2010-5-16 09:41:11 | 显示全部楼层
<input type=image onload='javascript:if(this.width>750) this.width=750' src=http://himg2.huanqiu.com/attachment/100512/d9c7e1941d.jpg onclick=document.location='http://netshuku.com'>

很简单呀,在内容过滤规则中过滤:
type=image onload='javascript:if(this.width>*) this.width=*' | onclick=document.location='*'

然后在内容替换那里把<input 替换为<img
把jpg>替换成jpg">

就可以了
回复

使用道具 举报

kingtung 发表于 2010-5-16 09:41:55 | 显示全部楼层
在采集文学城和留园网时遇到这样的问题:
图片样式是:

而我们一般采集的图片是img。应该是要去修改采集 ...
xhhkitty 发表于 2010-5-12 16:14



<input type=image onload='javascript:if(this.width>750) this.width=750' src=http://himg2.huanqiu.com/attachment/100512/d9c7e1941d.jpg onclick=document.location='http://netshuku.com'>

很简单呀,在内容过滤规则中过滤:
type=image onload='javascript:if(this.width>*) this.width=*' | onclick=document.location='*'

然后在内容替换那里把<input 替换为<img
把jpg>替换成jpg">

就可以了
回复

使用道具 举报

 楼主| xhhkitty 发表于 2010-5-18 11:27:55 | 显示全部楼层
回复 4# kingtung 的帖子


    多谢啦,我试试
回复

使用道具 举报

 楼主| xhhkitty 发表于 2010-5-18 14:34:30 | 显示全部楼层
回复 5# xhhkitty 的帖子


    你好,我按照你说的方法设置了,留园网已经能够采到了,可是采集文学城的时候图片都采的0KB,都是空的,不知道是什么问题。
文学城的图片代码是<input type=image ='java:if(this.width>750) this.width=750' src=http://space.wenxuecity.com/gallery/others/gj/gj-sswh/news/2010/05-16/U41P4T8D2284712F116DT20100516102030.jpg onclick=document.location='http://pop.'>。

请帮我看看吧,多谢啦。是图片本身的问题吗?
回复

使用道具 举报

kingtung 发表于 2010-5-18 18:01:46 | 显示全部楼层
回复  xhhkitty 的帖子


    你好,我按照你说的方法设置了,留园网已经能够采到了,可是采集文学城的时 ...
xhhkitty 发表于 2010-5-18 14:34



同我楼上的回复一样的道理,过滤+替换就可以完美解决了呗
回复

使用道具 举报

 楼主| xhhkitty 发表于 2010-5-19 15:24:33 | 显示全部楼层
回复 7# kingtung 的帖子


    恩,我就是过滤加替换这样做的,替换加过滤完了之后的样式是正常的能够采集的样式了,但是采到图片老是空的。就是0KB。
回复

使用道具 举报

wuhx1999 发表于 2010-8-26 17:26:29 | 显示全部楼层
留个记号,学习一下
回复

使用道具 举报

wuhx1999 发表于 2010-8-27 16:39:34 | 显示全部楼层
我也遇到了,文章内容过滤"后"为
<IMG Src="http://www.8264.com/attachments/2010/07/3552053_201007241043231S052.jpg" border=0>
还是采不到图片
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2024-12-28 20:28 , Processed in 0.028302 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表