对于机器学习来说,若把数据存在的空间称为data domain,而我们观测到的数据所存在的空间称为measurement domain,通常情况下,这两个domain可能都非常大,就会遇到curse of dimensionality的问题,当然,machine learning有很多解决办法。Compressed learning其实也可以看成是属于其中的一种叫做“降维”的方法,就是使用m×n的采样矩阵A( m << n )对数据进行采样,再在采样后的数据上进行分类。Ref[2]讲的就是,当A满足(k,\epsilon)-RIP条件时,使用SVM在原始数据和在降维数据上的分类误差小于O(\sqrt{\epsilon})。
Ref:
- E. J. Candès. Compressive sampling. Proceedings of the International Congress of Mathematicians, Madrid, Spain, 2006. http://www.acm.caltech.edu/~emmanuel/papers/CompressiveSampling.pdf
- Robert Calderbank, Sina Jafarpour, and Robert Schapire, Compressed learning: Universal sparse dimensionality reduction and learning in the measurement domain (Preprint, 2009)
期待你的报告
回复删除请大家一定提前把文章看一下(特别是第二篇文章),否则听不懂的。
回复删除泛化界是重要的,不过对算法而言,收敛率也很重要。。。不太清楚CS的收敛率有多快。。。。
回复删除不明白张老师指的收敛率指的是什么?
回复删除如果对于CS来说,现在的求解算法就是线性规划(LP),内点法或者是单纯形法都可以在多项式的时间内收敛。
我讲的不是算法的计算速度问题,是学习理论上的说法。如果假定有一个真正的最优算法存在,那么CS做的是对其的一个逼近。这种逼近有两层意思,一层是计算逼近的上界或下界。一层是这种逼近能有多快,这个对构造实用的算法非常有用。
回复删除你现在讲的多项式时间是算法意义上的。。
哦,明白老师的意思了。这个我还没有仔细研究过,不清楚现在的研究现状到底如何。
回复删除