2009年3月21日星期六

Compressed Sensing & Compressed Learning

Compressed sensing 又可以称为compressive sampling,是对香农采样定理的一种扩充。香农采样定理告诉我们,如果需要保证采样后信号的完全恢复,采样频率需要达到信号最高频的两倍。然而,对于稀疏信号(如信号覆盖了整个频率段,但其覆盖又是稀疏的)时,香农采样定理就显得比较保守。compressed sensing则告诉我们,对于属于R^n空间的,含有k个非零点的稀疏信号( k << n ),我们不需要采集那么多点,而只需要采集O(C*k*logn)个点就足够了。

对于机器学习来说,若把数据存在的空间称为data domain,而我们观测到的数据所存在的空间称为measurement domain,通常情况下,这两个domain可能都非常大,就会遇到curse of dimensionality的问题,当然,machine learning有很多解决办法。Compressed learning其实也可以看成是属于其中的一种叫做“降维”的方法,就是使用m×n的采样矩阵A( m << n )对数据进行采样,再在采样后的数据上进行分类。Ref[2]讲的就是,当A满足(k,\epsilon)-RIP条件时,使用SVM在原始数据和在降维数据上的分类误差小于O(\sqrt{\epsilon})。

Ref:
  1. E. J. Candès. Compressive sampling. Proceedings of the International Congress of Mathematicians, Madrid, Spain, 2006. http://www.acm.caltech.edu/~emmanuel/papers/CompressiveSampling.pdf
  2. Robert Calderbank, Sina Jafarpour, and Robert Schapire, Compressed learning: Universal sparse dimensionality reduction and learning in the measurement domain (Preprint, 2009)

6 条评论:

  1. 请大家一定提前把文章看一下(特别是第二篇文章),否则听不懂的。

    回复删除
  2. 泛化界是重要的,不过对算法而言,收敛率也很重要。。。不太清楚CS的收敛率有多快。。。。

    回复删除
  3. 不明白张老师指的收敛率指的是什么?
    如果对于CS来说,现在的求解算法就是线性规划(LP),内点法或者是单纯形法都可以在多项式的时间内收敛。

    回复删除
  4. 我讲的不是算法的计算速度问题,是学习理论上的说法。如果假定有一个真正的最优算法存在,那么CS做的是对其的一个逼近。这种逼近有两层意思,一层是计算逼近的上界或下界。一层是这种逼近能有多快,这个对构造实用的算法非常有用。

    你现在讲的多项式时间是算法意义上的。。

    回复删除
  5. 哦,明白老师的意思了。这个我还没有仔细研究过,不清楚现在的研究现状到底如何。

    回复删除