Discuz!官方免费开源建站系统

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

采集信息量大时90%会出错

[复制链接]
hudiefans 发表于 2007-1-5 03:13:56 | 显示全部楼层 |阅读模式
当采集超过3万条时必定出错,采集图片到本地也容易出错,一页内容超过1000的页面又报这个错,总之数据量大就报错。
解决不是问题的就不要顶了,真是郁闷到家。

SS很好的产品,真是好的没话说,就是采集呀。
不能采集时间,不能采集TAG,虽然用SQL语句很好解决
不能在设置规则时预览,虽然能检查出出错的位置
不能设定定时采集,虽然有办法在计划任务搞搞。。。可不能就是不能。

my.cnf设成256M也没用,才采集到第13条就完完。不过当MYSQL重启后能坚持得更久一些。但感觉这和buffer size没关,而且服务器配置相当高,独享100M带宽,反正都没有问题,但可以确定不是晕死了,不过采集1000条以内一般没有问题。还有一堆,今天不说了。

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!


[13] [《云水谣》公映首日 徐若瑄难舍友人几度落泪] 处理标题完成
[13] 处理内容完成
[13] 处理图片链接完成

SupeSite info: MySQL Query Error

Time: 2007-1-5 2:54am
Script: /admincp.php

SQL: INSERT INTO supe_robotitems (uid, robotid, robottime, subject) VALUES ('1', '44', '1167936884', '《云水谣》公映首日 徐若瑄难舍友人几度落泪')
Error: MySQL server has gone away
Errno.: 2006

Similar error report has beed dispatched to administrator before.

[ 本帖最后由 hudiefans 于 2007-1-5 03:34 编辑 ]
sup 发表于 2007-1-5 09:05:51 | 显示全部楼层
把每次采集的个数设置小一些,甚至采集1个
回复

使用道具 举报

 楼主| hudiefans 发表于 2007-1-5 16:17:27 | 显示全部楼层
问题已解决:
将默认的 wait_timeout=15,加大100倍.即wait_timeout=1500
这样同时500个线程工作,经测试已经整个中午没问题了。没有问题.

[ 本帖最后由 hudiefans 于 2007-1-5 16:18 编辑 ]
回复

使用道具 举报

sup 发表于 2007-1-5 16:44:05 | 显示全部楼层
OK
回复

使用道具 举报

2xy 发表于 2007-1-5 19:30:09 | 显示全部楼层
在哪里改?
:) :)
回复

使用道具 举报

茄子 发表于 2007-1-8 11:08:25 | 显示全部楼层
原帖由 2xy 于 2007-1-5 19:30 发表
在哪里改?
:) :)



编写采集规则的时候
单次采集个数
视网速而定,建议设置小一些,以免超时
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|Discuz! 官方站 ( 皖ICP备16010102号 )star

GMT+8, 2025-1-15 12:52 , Processed in 0.024081 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表