2009年4月7日星期二

关于讲书的讨论班

由于我的安排受到了大家广泛的批判,所以由何力同学和张老师重新组织吧。

15 条评论:

  1. 下面这本呢?

    Information Theory, Inference, and Learning Algorithms, DavidJ.C. MacKay, Cambridge University Press 2003

    Contents
    Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
    1 IntroductiontoInformationTheory . . . . . . . . . . . . . 3
    2 Probability, Entropy, andInference . . . . . . . . . . . . . . 22
    3 MoreaboutInference . . . . . . . . . . . . . . . . . . . . . 48
    I DataCompression . . . . . . . . . . . . . . . . . . . . . . 65
    4 TheSourceCodingTheorem . . . . . . . . . . . . . . . . . 67
    5 Symbol Codes . . . . . . . . . . . . . . . . . . . . . . . . . 91
    6 StreamCodes . . . . . . . . . . . . . . . . . . . . . . . . . . 110
    7 CodesforIntegers . . . . . . . . . . . . . . . . . . . . . . . 132
    II Noisy-Channel Coding . . . . . . . . . . . . . . . . . . . . 137
    8 DependentRandomVariables . . . . . . . . . . . . . . . . . 138
    9 CommunicationoveraNoisyChannel . . . . . . . . . . . . 146
    10 TheNoisy-Channel CodingTheorem. . . . . . . . . . . . . 162
    11 Error-CorrectingCodesandReal Channels . . . . . . . . . 177
    III FurtherTopicsinInformationTheory. . . . . . . . . . . . . 191
    12 HashCodes: CodesforEfficientInformationRetrieval . . 193
    13 BinaryCodes . . . . . . . . . . . . . . . . . . . . . . . . . 206
    14 VeryGoodLinearCodesExist . . . . . . . . . . . . . . . . 229
    15 FurtherExercisesonInformationTheory . . . . . . . . . . 233
    16 MessagePassing . . . . . . . . . . . . . . . . . . . . . . . . 241
    17 CommunicationoverConstrainedNoiselessChannels . . . 248
    18 CrosswordsandCodebreaking . . . . . . . . . . . . . . . . 260
    19 WhyhaveSex?InformationAcquisitionandEvolution . . 269
    IV ProbabilitiesandInference . . . . . . . . . . . . . . . . . . 281
    20 AnExampleInferenceTask: Clustering . . . . . . . . . . . 284
    21 ExactInferencebyCompleteEnumeration . . . . . . . . . 293
    22 MaximumLikelihoodandClustering . . . . . . . . . . . . . 300
    23 Useful ProbabilityDistributions . . . . . . . . . . . . . . . 311
    24 ExactMarginalization . . . . . . . . . . . . . . . . . . . . . 319
    25 ExactMarginalizationinTrellises . . . . . . . . . . . . . . 324
    26 ExactMarginalizationinGraphs . . . . . . . . . . . . . . . 334
    27 Laplace’sMethod . . . . . . . . . . . . . . . . . . . . . . . 341
    28 Model ComparisonandOccam’sRazor . . . . . . . . . . . 343
    29 MonteCarloMethods . . . . . . . . . . . . . . . . . . . . . 357
    30 EfficientMonteCarloMethods . . . . . . . . . . . . . . . . 387
    31 IsingModels . . . . . . . . . . . . . . . . . . . . . . . . . . 400
    32 ExactMonteCarloSampling . . . . . . . . . . . . . . . . . 413
    33 Variational Methods . . . . . . . . . . . . . . . . . . . . . . 422
    34 IndependentComponentAnalysisandLatentVariableMod-
    elling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
    35 RandomInferenceTopics . . . . . . . . . . . . . . . . . . . 445
    36 DecisionTheory . . . . . . . . . . . . . . . . . . . . . . . . 451
    37 BayesianInferenceandSamplingTheory . . . . . . . . . . 457
    V Neural networks. . . . . . . . . . . . . . . . . . . . . . . . 467
    38 IntroductiontoNeural Networks . . . . . . . . . . . . . . . 468
    39 TheSingleNeuronasaClassifier . . . . . . . . . . . . . . . 471
    40 Capacityof aSingleNeuron . . . . . . . . . . . . . . . . . . 483
    41 LearningasInference . . . . . . . . . . . . . . . . . . . . . 492
    42 HopfieldNetworks . . . . . . . . . . . . . . . . . . . . . . . 505
    43 BoltzmannMachines . . . . . . . . . . . . . . . . . . . . . . 522
    44 SupervisedLearninginMultilayerNetworks . . . . . . . . . 527
    45 GaussianProcesses . . . . . . . . . . . . . . . . . . . . . . 535
    46 Deconvolution . . . . . . . . . . . . . . . . . . . . . . . . . 549
    VI SparseGraphCodes . . . . . . . . . . . . . . . . . . . . . 555
    47 Low-DensityParity-CheckCodes . . . . . . . . . . . . . . 557
    48 Convolutional CodesandTurboCodes . . . . . . . . . . . . 574
    49 Repeat–AccumulateCodes . . . . . . . . . . . . . . . . . . 582
    50 Digital FountainCodes . . . . . . . . . . . . . . . . . . . . 589
    VII Appendices . . . . . . . . . . . . . . . . . . . . . . . . . . 597
    A Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598
    B SomePhysics . . . . . . . . . . . . . . . . . . . . . . . . . . 601
    C SomeMathematics . . . . . . . . . . . . . . . . . . . . . . . 605
    Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
    Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620

    回复删除
  2. 讲编码的,一半多东西我不懂...

    回复删除
  3. 支持~
    最好是机器学习、统计这方面比较基础的致死后
    照顾下我这种需要扫盲的 :)

    回复删除
  4. 那就讲Hastie这本好了. PPT也有现成的...不过最好根据自己的理解再改一下...

    回复删除
  5. Hastie 的很多问题讲的比较泛,如果不补充一些论文进来,光看书是没有用的。
    McKay 的书虽然偏 information theory 一些,我觉得对于希望从 compressed sensing 角度切入 machine learning 的做法更有帮助一些。

    stat 的做法和 information theory 的做法还是要互相比较一些的好。

    回复删除
  6. 我想搞这个讨论班的目的是讲基础,并不是以出paper为目的。当然本科生和研究生都开了课的(如模式识别,机器学习等),但我觉得郭讲得没有激情,内容也太老,池讲得外语太难听懂了。

    还有其他推荐的书吗?其他问题大家有什么建议?还有谁愿意讲的?

    要不按照国外名校的ML课程讲,如
    http://www.cs.cmu.edu/~avrim/ML06/
    http://www.mit.edu/~9.520/

    回复删除
  7. 我对讲哪本书没意见,我希望能通过这种方式建立一个比较完备的知识体系,而不是零散的什么都知道一点但又只知皮毛.能从这个方向出成果固然好,暂时不能出也不至于几天不用又忘掉了.

    回复删除
  8. 嗯,成体系还是不错的~

    回复删除
  9. 机器学习发展至今,并没有形成完全独立的学科....更多的是以问题为主,或以应用驱动形成的....

    如果从基础角度来看, DUDA的模式分类(pattern classification)一书是比较全面的, 可以用于本科生课程, 但新的内容涵盖不多. 类似的, Tom Mitchell写的Machine Learning是较早期的一本关于机器学习方面的教材, 但比较泛, 同样不利于较深层的认识. Bishop的Pattern Recognition and Machine Learning可以偏好贝叶斯, 整个书里概率统计的风格很浓. Hastie的书讲得较浅, 但需要的基本知识会要多一些.

    更难一点的, Vapnik的statistical learning theory完全从统计角度来展开讨论, 包括了经验风险, 泛化界, 退火熵, 生长熵, VC维的基本常识,以及如何将这一系列学习理论的界转化成可构造的支持向量机, 以及理论上的转导和半监督思想均是在这本书中首次被提出. 所以, 如果大家觉得自己理论够强, 可以看一下这本书. 另外, 他有一本简化版, the nature of statistical learning theory. 主要将前一本书的关键概念剥离出来讲的.不过, 如果不看前者, 实际上很难理解简化版中的内容.

    同样,从学习理论出发的另一本讲机器学习的书是Probabilistic view of statistical theory (or Pattern recognition?), 这本书从学习理论角度将多数模式识别技术进行了解释和分析, 并给出了学习性能的分析. 好处是, 你能了解到很多学习界的推导过程, 也能从学习理论的角度来理解机器学习. 与Vapnik的SLT相比, 难度略低一些, 但同样要求较深的数学或概率统计基础. 这本书我曾讲过, 我想应该不适合目前多数人.

    具体选择什么书最好还是根据一个中位数来确定:)

    回复删除
  10. 作为本科生或初学者,建议大家看Duda的Pattern classification一书,该书非常全面,深入浅出。

    回复删除
  11. 我觉得呢由于很多技术的确很杂,很多 topic 其实自成体系,比如 artificial neural network、比如 Gaussian process,甚至 SVM、kernel methods、Bayesian method、probabilistic graphical model、Monte Carlo 方法 都是可以单独拿出来写出一本书讲一个学期。我前面说了一个观点,就是必须结合一定数量的 paper 来讲,某个方法经典的应用也好,经典的扩展也好,这个很重要的原因是有的书上的内容太久远了,如果没有新内容的补充,特别是一些新的观点,往往大家最后学过了觉得挺无聊的,根本没什么感觉。最简单的事情莫过于 model selection,要看书的话,基本没啥好讲的,AIC、BIC 等等书上有方法,可是到了实验,往往不知道那个东西怎么用、有什么用,最后就是自己想个办法做做。

    另外有的书讲的 topic 里面很多是过于简略了,比如不管是 Hastie 那本还是 Duda 那本,讲述关于 neural network 的部分都很有限,所以我觉得比较好的模式是以一本书为主,一个人分到某一个 topic 后需要自己去阅读相关的书籍、论文,比如 neural network,可能需要去读 Simon Haykin 的那本书,介绍 SVM 的应该同时介绍一些 learning theory 的成果,以及比如半监督 SVM 设计的方式(上学期集中讲过)。

    可以先定一本书,然后讲的人分 topic,让张老师或者对某个方向比较熟悉的人(可以到网上看某些大牛的主页)给一个扩展阅读的方向,然后汇集成纲,这样保证知识的完整和实时性。

    回复删除
  12. 好的呀,那由何力同学重新组织吧。

    回复删除
  13. lz 不要这样嘛
    只是提议个建议,也没有反对你的意思,相反的只是希望你们能在讨论班收获更多的东西。组织的更好一点需要花更多的精力,但是收获也会更大一些。如果觉得时间上有些不够,可以互相帮助,也可以稍微把内容收缩一些。

    回复删除