Machine Learning Seminar: 关于讲书的讨论班

2009年4月7日星期二

关于讲书的讨论班

由于我的安排受到了大家广泛的批判，所以由何力同学和张老师重新组织吧。

15 条评论:

heruspex2009年4月7日 23:10
下面这本呢?

Information Theory, Inference, and Learning Algorithms, DavidJ.C. MacKay, Cambridge University Press 2003

Contents
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
1 IntroductiontoInformationTheory . . . . . . . . . . . . . 3
2 Probability, Entropy, andInference . . . . . . . . . . . . . . 22
3 MoreaboutInference . . . . . . . . . . . . . . . . . . . . . 48
I DataCompression . . . . . . . . . . . . . . . . . . . . . . 65
4 TheSourceCodingTheorem . . . . . . . . . . . . . . . . . 67
5 Symbol Codes . . . . . . . . . . . . . . . . . . . . . . . . . 91
6 StreamCodes . . . . . . . . . . . . . . . . . . . . . . . . . . 110
7 CodesforIntegers . . . . . . . . . . . . . . . . . . . . . . . 132
II Noisy-Channel Coding . . . . . . . . . . . . . . . . . . . . 137
8 DependentRandomVariables . . . . . . . . . . . . . . . . . 138
9 CommunicationoveraNoisyChannel . . . . . . . . . . . . 146
10 TheNoisy-Channel CodingTheorem. . . . . . . . . . . . . 162
11 Error-CorrectingCodesandReal Channels . . . . . . . . . 177
III FurtherTopicsinInformationTheory. . . . . . . . . . . . . 191
12 HashCodes: CodesforEﬃcientInformationRetrieval . . 193
13 BinaryCodes . . . . . . . . . . . . . . . . . . . . . . . . . 206
14 VeryGoodLinearCodesExist . . . . . . . . . . . . . . . . 229
15 FurtherExercisesonInformationTheory . . . . . . . . . . 233
16 MessagePassing . . . . . . . . . . . . . . . . . . . . . . . . 241
17 CommunicationoverConstrainedNoiselessChannels . . . 248
18 CrosswordsandCodebreaking . . . . . . . . . . . . . . . . 260
19 WhyhaveSex?InformationAcquisitionandEvolution . . 269
IV ProbabilitiesandInference . . . . . . . . . . . . . . . . . . 281
20 AnExampleInferenceTask: Clustering . . . . . . . . . . . 284
21 ExactInferencebyCompleteEnumeration . . . . . . . . . 293
22 MaximumLikelihoodandClustering . . . . . . . . . . . . . 300
23 Useful ProbabilityDistributions . . . . . . . . . . . . . . . 311
24 ExactMarginalization . . . . . . . . . . . . . . . . . . . . . 319
25 ExactMarginalizationinTrellises . . . . . . . . . . . . . . 324
26 ExactMarginalizationinGraphs . . . . . . . . . . . . . . . 334
27 Laplace’sMethod . . . . . . . . . . . . . . . . . . . . . . . 341
28 Model ComparisonandOccam’sRazor . . . . . . . . . . . 343
29 MonteCarloMethods . . . . . . . . . . . . . . . . . . . . . 357
30 EﬃcientMonteCarloMethods . . . . . . . . . . . . . . . . 387
31 IsingModels . . . . . . . . . . . . . . . . . . . . . . . . . . 400
32 ExactMonteCarloSampling . . . . . . . . . . . . . . . . . 413
33 Variational Methods . . . . . . . . . . . . . . . . . . . . . . 422
34 IndependentComponentAnalysisandLatentVariableMod-
elling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
35 RandomInferenceTopics . . . . . . . . . . . . . . . . . . . 445
36 DecisionTheory . . . . . . . . . . . . . . . . . . . . . . . . 451
37 BayesianInferenceandSamplingTheory . . . . . . . . . . 457
V Neural networks. . . . . . . . . . . . . . . . . . . . . . . . 467
38 IntroductiontoNeural Networks . . . . . . . . . . . . . . . 468
39 TheSingleNeuronasaClassiﬁer . . . . . . . . . . . . . . . 471
40 Capacityof aSingleNeuron . . . . . . . . . . . . . . . . . . 483
41 LearningasInference . . . . . . . . . . . . . . . . . . . . . 492
42 HopﬁeldNetworks . . . . . . . . . . . . . . . . . . . . . . . 505
43 BoltzmannMachines . . . . . . . . . . . . . . . . . . . . . . 522
44 SupervisedLearninginMultilayerNetworks . . . . . . . . . 527
45 GaussianProcesses . . . . . . . . . . . . . . . . . . . . . . 535
46 Deconvolution . . . . . . . . . . . . . . . . . . . . . . . . . 549
VI SparseGraphCodes . . . . . . . . . . . . . . . . . . . . . 555
47 Low-DensityParity-CheckCodes . . . . . . . . . . . . . . 557
48 Convolutional CodesandTurboCodes . . . . . . . . . . . . 574
49 Repeat–AccumulateCodes . . . . . . . . . . . . . . . . . . 582
50 Digital FountainCodes . . . . . . . . . . . . . . . . . . . . 589
VII Appendices . . . . . . . . . . . . . . . . . . . . . . . . . . 597
A Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598
B SomePhysics . . . . . . . . . . . . . . . . . . . . . . . . . . 601
C SomeMathematics . . . . . . . . . . . . . . . . . . . . . . . 605
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620
回复删除
回复
Daiyu2009年4月7日 23:15
讲编码的，一半多东西我不懂...
回复删除
回复
Zhuoliang2009年4月7日 23:24
支持~
最好是机器学习、统计这方面比较基础的致死后
照顾下我这种需要扫盲的：）
回复删除
回复
heruspex2009年4月7日 23:48
那就讲Hastie这本好了. PPT也有现成的...不过最好根据自己的理解再改一下...
回复删除
回复
Unknown2009年4月8日 10:34
Hastie 的很多问题讲的比较泛，如果不补充一些论文进来，光看书是没有用的。
McKay 的书虽然偏 information theory 一些，我觉得对于希望从 compressed sensing 角度切入 machine learning 的做法更有帮助一些。

stat 的做法和 information theory 的做法还是要互相比较一些的好。
回复删除
回复
Daiyu2009年4月8日 12:30
我想搞这个讨论班的目的是讲基础，并不是以出paper为目的。当然本科生和研究生都开了课的（如模式识别，机器学习等），但我觉得郭讲得没有激情，内容也太老，池讲得外语太难听懂了。

还有其他推荐的书吗？其他问题大家有什么建议？还有谁愿意讲的？

要不按照国外名校的ML课程讲，如
http://www.cs.cmu.edu/~avrim/ML06/
http://www.mit.edu/~9.520/
回复删除
回复
yokin2009年4月8日 12:52
我对讲哪本书没意见,我希望能通过这种方式建立一个比较完备的知识体系,而不是零散的什么都知道一点但又只知皮毛.能从这个方向出成果固然好,暂时不能出也不至于几天不用又忘掉了.
回复删除
回复
匿名2009年4月8日 13:14
嗯，成体系还是不错的~
回复删除
回复
heruspex2009年4月8日 15:27
机器学习发展至今,并没有形成完全独立的学科....更多的是以问题为主,或以应用驱动形成的....

如果从基础角度来看, DUDA的模式分类(pattern classification)一书是比较全面的, 可以用于本科生课程, 但新的内容涵盖不多. 类似的, Tom Mitchell写的Machine Learning是较早期的一本关于机器学习方面的教材, 但比较泛, 同样不利于较深层的认识. Bishop的Pattern Recognition and Machine Learning可以偏好贝叶斯, 整个书里概率统计的风格很浓. Hastie的书讲得较浅, 但需要的基本知识会要多一些.

更难一点的, Vapnik的statistical learning theory完全从统计角度来展开讨论, 包括了经验风险, 泛化界, 退火熵, 生长熵, VC维的基本常识,以及如何将这一系列学习理论的界转化成可构造的支持向量机, 以及理论上的转导和半监督思想均是在这本书中首次被提出. 所以, 如果大家觉得自己理论够强, 可以看一下这本书. 另外, 他有一本简化版, the nature of statistical learning theory. 主要将前一本书的关键概念剥离出来讲的.不过, 如果不看前者, 实际上很难理解简化版中的内容.

同样,从学习理论出发的另一本讲机器学习的书是Probabilistic view of statistical theory (or Pattern recognition?), 这本书从学习理论角度将多数模式识别技术进行了解释和分析, 并给出了学习性能的分析. 好处是, 你能了解到很多学习界的推导过程, 也能从学习理论的角度来理解机器学习. 与Vapnik的SLT相比, 难度略低一些, 但同样要求较深的数学或概率统计基础. 这本书我曾讲过, 我想应该不适合目前多数人.

具体选择什么书最好还是根据一个中位数来确定:)
回复删除
回复
heruspex2009年4月9日 09:36
作为本科生或初学者，建议大家看Duda的Pattern classification一书，该书非常全面，深入浅出。
回复删除
回复
Unknown2009年4月9日 13:49
我觉得呢由于很多技术的确很杂，很多 topic 其实自成体系，比如 artificial neural network、比如 Gaussian process，甚至 SVM、kernel methods、Bayesian method、probabilistic graphical model、Monte Carlo 方法都是可以单独拿出来写出一本书讲一个学期。我前面说了一个观点，就是必须结合一定数量的 paper 来讲，某个方法经典的应用也好，经典的扩展也好，这个很重要的原因是有的书上的内容太久远了，如果没有新内容的补充，特别是一些新的观点，往往大家最后学过了觉得挺无聊的，根本没什么感觉。最简单的事情莫过于 model selection，要看书的话，基本没啥好讲的，AIC、BIC 等等书上有方法，可是到了实验，往往不知道那个东西怎么用、有什么用，最后就是自己想个办法做做。

另外有的书讲的 topic 里面很多是过于简略了，比如不管是 Hastie 那本还是 Duda 那本，讲述关于 neural network 的部分都很有限，所以我觉得比较好的模式是以一本书为主，一个人分到某一个 topic 后需要自己去阅读相关的书籍、论文，比如 neural network，可能需要去读 Simon Haykin 的那本书，介绍 SVM 的应该同时介绍一些 learning theory 的成果，以及比如半监督 SVM 设计的方式（上学期集中讲过）。

可以先定一本书，然后讲的人分 topic，让张老师或者对某个方向比较熟悉的人（可以到网上看某些大牛的主页）给一个扩展阅读的方向，然后汇集成纲，这样保证知识的完整和实时性。
回复删除
回复
Daiyu2009年4月9日 16:43
好的呀，那由何力同学重新组织吧。
回复删除
回复
Unknown2009年4月10日 01:06
lz 不要这样嘛
只是提议个建议，也没有反对你的意思，相反的只是希望你们能在讨论班收获更多的东西。组织的更好一点需要花更多的精力，但是收获也会更大一些。如果觉得时间上有些不够，可以互相帮助，也可以稍微把内容收缩一些。
回复删除
回复
Daiyu2009年4月10日 08:22
那我错了...
回复删除
回复
heruspex2009年4月10日 08:42
sp
回复删除
回复

添加评论

订阅：博文评论 (Atom)

Machine Learning Seminar

2009年4月7日星期二

关于讲书的讨论班

15 条评论:

评论

关注者

博客归档

焦点会议