本帖最后由 gssasd 于 2014-11-4 10:01 编辑
DXC完全免费的云采集!带自动学习功能。也可以自己写规则采集。比市面上的通过别人的服务器那种晕采集。操作更简单,使用更灵活!所有操作都是在自己服务器上进行的!最主要的是我们这是完全免费的!!!
不像别人按月收费啥的。。。
功能简介单帖采集功能开启之后,在前台的发帖页面,将出现一个获取网址的文本框和按钮,输入任意一篇文章,采集器将智能提取出网页的文章标题和内容,如下图 算法特点目前市面上也有一些同类功能的插件,但本插件与其他插件不同的地方在于, - 1、智能提取为主,自写规则为辅。目前一些插件大多预先人工添加一些站点规则,但互联网那么多网站,哪怕规则库多么完善都无法满足需求。所以此插件最大的特点是自主开发了一套网页正文智能抽取算法,无论什么网页,不必用户写规则,程序都能准确计算出文章的标题和内容
- 2、单靠智能获取还不够,采集器还拥有自动学习的能力,能自动归纳形成规则,大大提升智能抽取的精度。当用户开启云采集,还可以使用服务器强大的规则库资源
- 3、当然,无论智能算法多么准确完美,终究不能满足所有的需求,此时用户完全可以自定义自己的一套规则,用于更加精确的获取内容,真正达到随心所欲的地步!
智能算法的局限智能算法不是万能的,有些文章由于内容中的文字太短,就有可能计算不准确。比如这篇文章
http://hi.baidu.com/jingdianyulu/item/a7e098d3ad921ef092a9742c
文章正文只有一张图片,而网页中另外一个区域文字比较多,采集器误认为文字多的部分就是文章的内容,所以判断失误了。测试如下图所示:
那么如何解决这种问题?解决的办法是是先让采集器学会这条规则。训练采集器学习规则我们说过,采集器拥有自动学习规则的能力,那么如何让采集器学习规则?答案就是:训练他。
找两篇结构一样的典型文章,所谓典型文章,就是文章的内容最好文字比较多。这里举的例子是百度空间的文章。这两篇文章地址分别是:
http://hi.baidu.com/jingdianyulu/item/8adc47e4c06d4fe4fb42ba20
http://hi.baidu.com/jingdianyulu/item/d3fe750167feafc9905718ec
当获取第一篇文章时,能正确获取到标题和内容。当获取第二篇文章时,情况就有所不同了,如下图:
跟第一篇文章不一样的是,采集器提示:学习到一条规则。说明采集器已经学习到规则啦。
这时候,你一定想问,学习到的规则放在哪里了?学习到的规则可以在后台“单帖采集”-“学习规则”中看到,如下图:
检验结果现在是该检验结果的时候了,回到开头提到的问题,用刚才那篇文章地址再次测试,测试结果如下图所示
这样,即使文章只有一张图片,智能算法仍能准确的提取出文章的内容
这个实验是在关闭云采集功能的情况下做的,目的是不使用服务器端的资源,让采集器自己学习。在实际应用中,采集器开启云采集时,可以连接服务端从庞大规则库中匹配规则,免去采集器学习的过程,直接利用现成的资源。
|