DXC采集3.0插件已经发布

gssasd · 发表于 2014-11-3 20:32:17

本帖最后由 gssasd 于 2014-11-3 21:51 编辑

DXC采集插件是目前Discuz!论坛程序兼容性最强的采集插件！支持所有现有采集器所能提供的所有功能，功能强大的同时，对于站长用户的操作是完全透明的，站长朋友只需要3分钟即可完全掌握DXC采集插件的使用方法，完全傻瓜式的操作，一切都是如此简单。

在discuz应用中心直接安装：
https://addon.dismall.com/?@milu_pick.plugin

纯采集演示站 txt书屋 www.55txt.net 附件也本地化了。大家可以看看效果。采集400万帖子。速度很快。纯采集演示站2：钓鱼论坛 www.gtdy.net
DXC纯采集演示站3: www.81zq.com 所有BT种子都是采集的。可以自己看流量DXC的功能亮点：

证据：https://discuz.dismall.com/thread-3492432-1-1.html
批量注册会员，批量采集会员头像！快速充实网站！
视频教程：DXC采集器如何批量注册会员
http://www.tudou.com/programs/view/PjrDnQbwvhs/

支持自动采集，设置好规则。就不用管理，自动发帖。

支持图片，附件，本地化。支持采集回复。支持采集需要回复可见内容！可以把目标站完整的克隆回来！

重大更新：
1、数据传输，可以在两个网站直接进行数据同步

2、支持代理采集，从此不怕被屏蔽啦。
DXC采集器之代理IP篇
http://www.56php.com/thread-7391-1-1.html

3、分类信息采集，轻松采集58同城、赶集网的信息

4、采集帖子的用户信息（包括用户名、头像、签名、发布时间），并自动注册到论坛。
5、文章图片、附件上传到第三方云存储。
【视频教程】DXCvip3.0如何设置采集附件到网盘，如何设置七牛云
视频地址：http://www.22txt.cn/dxc/qiniuyun

6、采集问答，并发布成悬赏帖

7、定时定量采集、发布文章。全新改版计划任务系统。
8、优化文章发布功能，从此发布文章不再卡。
9、数据一键备份到服务器，从此不怕规则丢啦。

10、伪原创功能增强。
多种伪原创方法，是您的采集更容易被百度收录！

其他细节优化很多，大家可以慢慢体会。总之，更快、更强、更安全、更好用。

gssasd · 发表于 2014-11-3 20:35:55

视频教程
DXC采集器写自定义规则的视频教程（推荐）
http://www.tudou.com/programs/view/0v0NKDyfhgk/
DXC采集百度贴吧内容视屏教程（推荐）
http://www.tudou.com/programs/view/pHyKut4JNO4/

DXC采集器如何批量注册会员
http://www.tudou.com/programs/view/PjrDnQbwvhs/

DXC采集器如何采集需要登录的网站...
http://www.tudou.com/programs/view/rue9vNATjJc/

DXC采集器如何导入别人写好的规则<
http://www.tudou.com/programs/view/GLtQhAv_P4o/

DXC采集器一键采集,免规则采集任何网站
http://www.tudou.com/programs/view/rn7iRbHkVek/

DXC采集插件如何设置自动采集?
http://www.tudou.com/programs/view/GOUaffU4XXE/

DXC采集插件如何采集优酷视频并播放
http://www.tudou.com/programs/view/BNgmPYKoluQ/

定时采集不起作用
http://www.56php.com/thread-7304-1-1.html

DXC采集器之代理IP篇
http://www.56php.com/thread-7391-1-1.html

利用搜搜采集微信公众平台内容
http://www.56php.com/thread-7393-1-1.html

【视频教程】DXCvip3.0如何设置采集附件到网盘，如何设置七牛云
视频地址：http://www.22txt.cn/dxc/qiniuyun

【视频教程】DXCvip3.0采集百度贴吧的视频教程附带规则
http://www.22txt.cn/dxc/baidutieba

[视频教程]DXC如何设置定时采集，定时发布

http://www.22txt.cn/dxc/dxczidongcaiji/

教程：http://www.56php.com/guide/

eqmz · 发表于 2014-11-3 20:51:16

最强的单贴采集在这里，
https://discuz.dismall.com/thread-2383598-1-1.html

最强的云采集在这里
https://discuz.dismall.com/thread-2716740-1-1.html

eqmz · 发表于 2014-11-3 20:56:04

本帖最后由 eqmz 于 2014-11-3 20:57 编辑

QQ截图20141103205407.jpg

最强的自动批量采集管理平台，不言而喻，在这里
https://discuz.dismall.com/thread-3610907-1-1.html

457447741 · 发表于 2014-11-3 23:10:51

本帖最后由 457447741 于 2014-11-3 23:17 编辑

批量采集1年365天自动更新同步，简单的插件后台设置，傻瓜一样的管理平台。

图文教程
http://www.ziwuwu.com/thread-5552-1-1.html

大数据批量视频
http://www.tudou.com/programs/view/3MAfifIs87A/

大数据资源共享所有用户直接使用，采集规则自动识别，采集其他目标站直接申请。
http://www.tudou.com/programs/view/RgTMPmtu49c

看完教程3秒学会，就3个步骤，1年365天网站自动更新同步，无需人为管理。

1.配置好插件和大数据平台OID和Token同步一致
2.上大数据平台增加资源，设置导入选项。
3.启动采集，完成

大数据批量自动采集，免费50个名额，授权免费使用30天！
https://discuz.dismall.com/thread-3610907-1-1.html
速来免费抢购吧，1年365天解放你的双手，管理网站就这么简单。

gssasd · 发表于 2014-11-4 09:54:20

本帖最后由 gssasd 于 2014-11-4 10:01 编辑

DXC完全免费的云采集！带自动学习功能。也可以自己写规则采集。比市面上的通过别人的服务器那种晕采集。操作更简单，使用更灵活！所有操作都是在自己服务器上进行的！最主要的是我们这是完全免费的！！！
不像别人按月收费啥的。。。
功能简介单帖采集功能开启之后，在前台的发帖页面，将出现一个获取网址的文本框和按钮，输入任意一篇文章，采集器将智能提取出网页的文章标题和内容,如下图

算法特点

目前市面上也有一些同类功能的插件，但本插件与其他插件不同的地方在于，

1、智能提取为主，自写规则为辅。目前一些插件大多预先人工添加一些站点规则，但互联网那么多网站，哪怕规则库多么完善都无法满足需求。所以此插件最大的特点是自主开发了一套网页正文智能抽取算法，无论什么网页，不必用户写规则，程序都能准确计算出文章的标题和内容
2、单靠智能获取还不够，采集器还拥有自动学习的能力，能自动归纳形成规则，大大提升智能抽取的精度。当用户开启云采集，还可以使用服务器强大的规则库资源
3、当然，无论智能算法多么准确完美，终究不能满足所有的需求，此时用户完全可以自定义自己的一套规则，用于更加精确的获取内容,真正达到随心所欲的地步！

智能算法的局限智能算法不是万能的，有些文章由于内容中的文字太短，就有可能计算不准确。比如这篇文章
http://hi.baidu.com/jingdianyulu/item/a7e098d3ad921ef092a9742c
文章正文只有一张图片，而网页中另外一个区域文字比较多，采集器误认为文字多的部分就是文章的内容，所以判断失误了。测试如下图所示：

那么如何解决这种问题？解决的办法是是先让采集器学会这条规则。训练采集器学习规则我们说过，采集器拥有自动学习规则的能力，那么如何让采集器学习规则？答案就是：训练他。
找两篇结构一样的典型文章，所谓典型文章，就是文章的内容最好文字比较多。这里举的例子是百度空间的文章。这两篇文章地址分别是：
http://hi.baidu.com/jingdianyulu/item/8adc47e4c06d4fe4fb42ba20
http://hi.baidu.com/jingdianyulu/item/d3fe750167feafc9905718ec
当获取第一篇文章时，能正确获取到标题和内容。当获取第二篇文章时，情况就有所不同了，如下图：

跟第一篇文章不一样的是，采集器提示：学习到一条规则。说明采集器已经学习到规则啦。
这时候，你一定想问，学习到的规则放在哪里了？学习到的规则可以在后台“单帖采集”-“学习规则”中看到，如下图：

检验结果

现在是该检验结果的时候了，回到开头提到的问题，用刚才那篇文章地址再次测试,测试结果如下图所示

这样，即使文章只有一张图片，智能算法仍能准确的提取出文章的内容
这个实验是在关闭云采集功能的情况下做的，目的是不使用服务器端的资源，让采集器自己学习。在实际应用中，采集器开启云采集时，可以连接服务端从庞大规则库中匹配规则，免去采集器学习的过程，直接利用现成的资源。

风吹杨柳 · 发表于 2015-3-16 14:28:39

http://www.fa-xian.net/

fm9300 · 发表于 2015-8-26 22:56:19

回复可看的帖子怎么设置才能采集回复可看内容？？？？？？？？？？？？？？？？

fm9300 · 发表于 2015-8-26 23:15:04

采信附件、图片到网盘这个视频没有了啊？求给链接！！！

:lol:lol

阿斯顿后i · 发表于 2015-9-26 12:03:06

VIP3.0功能果然强大

		自动登录	找回密码
密码			立即注册

[展示] DXC采集3.0插件已经发布