This is a blog for the machine learning seminar at Fudan University, presided by Dr. Junping Zhang.
下面这本呢? Information Theory, Inference, and Learning Algorithms, DavidJ.C. MacKay, Cambridge University Press 2003Contents Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 1 IntroductiontoInformationTheory . . . . . . . . . . . . . 3 2 Probability, Entropy, andInference . . . . . . . . . . . . . . 22 3 MoreaboutInference . . . . . . . . . . . . . . . . . . . . . 48 I DataCompression . . . . . . . . . . . . . . . . . . . . . . 65 4 TheSourceCodingTheorem . . . . . . . . . . . . . . . . . 67 5 Symbol Codes . . . . . . . . . . . . . . . . . . . . . . . . . 91 6 StreamCodes . . . . . . . . . . . . . . . . . . . . . . . . . . 110 7 CodesforIntegers . . . . . . . . . . . . . . . . . . . . . . . 132 II Noisy-Channel Coding . . . . . . . . . . . . . . . . . . . . 137 8 DependentRandomVariables . . . . . . . . . . . . . . . . . 138 9 CommunicationoveraNoisyChannel . . . . . . . . . . . . 146 10 TheNoisy-Channel CodingTheorem. . . . . . . . . . . . . 162 11 Error-CorrectingCodesandReal Channels . . . . . . . . . 177 III FurtherTopicsinInformationTheory. . . . . . . . . . . . . 191 12 HashCodes: CodesforEfficientInformationRetrieval . . 193 13 BinaryCodes . . . . . . . . . . . . . . . . . . . . . . . . . 206 14 VeryGoodLinearCodesExist . . . . . . . . . . . . . . . . 229 15 FurtherExercisesonInformationTheory . . . . . . . . . . 233 16 MessagePassing . . . . . . . . . . . . . . . . . . . . . . . . 241 17 CommunicationoverConstrainedNoiselessChannels . . . 248 18 CrosswordsandCodebreaking . . . . . . . . . . . . . . . . 260 19 WhyhaveSex?InformationAcquisitionandEvolution . . 269 IV ProbabilitiesandInference . . . . . . . . . . . . . . . . . . 281 20 AnExampleInferenceTask: Clustering . . . . . . . . . . . 284 21 ExactInferencebyCompleteEnumeration . . . . . . . . . 293 22 MaximumLikelihoodandClustering . . . . . . . . . . . . . 300 23 Useful ProbabilityDistributions . . . . . . . . . . . . . . . 311 24 ExactMarginalization . . . . . . . . . . . . . . . . . . . . . 319 25 ExactMarginalizationinTrellises . . . . . . . . . . . . . . 324 26 ExactMarginalizationinGraphs . . . . . . . . . . . . . . . 334 27 Laplace’sMethod . . . . . . . . . . . . . . . . . . . . . . . 34128 Model ComparisonandOccam’sRazor . . . . . . . . . . . 343 29 MonteCarloMethods . . . . . . . . . . . . . . . . . . . . . 357 30 EfficientMonteCarloMethods . . . . . . . . . . . . . . . . 387 31 IsingModels . . . . . . . . . . . . . . . . . . . . . . . . . . 400 32 ExactMonteCarloSampling . . . . . . . . . . . . . . . . . 413 33 Variational Methods . . . . . . . . . . . . . . . . . . . . . . 422 34 IndependentComponentAnalysisandLatentVariableMod- elling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 35 RandomInferenceTopics . . . . . . . . . . . . . . . . . . . 445 36 DecisionTheory . . . . . . . . . . . . . . . . . . . . . . . . 451 37 BayesianInferenceandSamplingTheory . . . . . . . . . . 457 V Neural networks. . . . . . . . . . . . . . . . . . . . . . . . 467 38 IntroductiontoNeural Networks . . . . . . . . . . . . . . . 468 39 TheSingleNeuronasaClassifier . . . . . . . . . . . . . . . 471 40 Capacityof aSingleNeuron . . . . . . . . . . . . . . . . . . 483 41 LearningasInference . . . . . . . . . . . . . . . . . . . . . 492 42 HopfieldNetworks . . . . . . . . . . . . . . . . . . . . . . . 505 43 BoltzmannMachines . . . . . . . . . . . . . . . . . . . . . . 522 44 SupervisedLearninginMultilayerNetworks . . . . . . . . . 527 45 GaussianProcesses . . . . . . . . . . . . . . . . . . . . . . 535 46 Deconvolution . . . . . . . . . . . . . . . . . . . . . . . . . 549 VI SparseGraphCodes . . . . . . . . . . . . . . . . . . . . . 555 47 Low-DensityParity-CheckCodes . . . . . . . . . . . . . . 557 48 Convolutional CodesandTurboCodes . . . . . . . . . . . . 574 49 Repeat–AccumulateCodes . . . . . . . . . . . . . . . . . . 582 50 Digital FountainCodes . . . . . . . . . . . . . . . . . . . . 589 VII Appendices . . . . . . . . . . . . . . . . . . . . . . . . . . 597 A Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598 B SomePhysics . . . . . . . . . . . . . . . . . . . . . . . . . . 601 C SomeMathematics . . . . . . . . . . . . . . . . . . . . . . . 605 Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620
讲编码的,一半多东西我不懂...
支持~最好是机器学习、统计这方面比较基础的致死后照顾下我这种需要扫盲的 :)
那就讲Hastie这本好了. PPT也有现成的...不过最好根据自己的理解再改一下...
Hastie 的很多问题讲的比较泛,如果不补充一些论文进来,光看书是没有用的。McKay 的书虽然偏 information theory 一些,我觉得对于希望从 compressed sensing 角度切入 machine learning 的做法更有帮助一些。stat 的做法和 information theory 的做法还是要互相比较一些的好。
我想搞这个讨论班的目的是讲基础,并不是以出paper为目的。当然本科生和研究生都开了课的(如模式识别,机器学习等),但我觉得郭讲得没有激情,内容也太老,池讲得外语太难听懂了。还有其他推荐的书吗?其他问题大家有什么建议?还有谁愿意讲的?要不按照国外名校的ML课程讲,如http://www.cs.cmu.edu/~avrim/ML06/http://www.mit.edu/~9.520/
我对讲哪本书没意见,我希望能通过这种方式建立一个比较完备的知识体系,而不是零散的什么都知道一点但又只知皮毛.能从这个方向出成果固然好,暂时不能出也不至于几天不用又忘掉了.
嗯,成体系还是不错的~
机器学习发展至今,并没有形成完全独立的学科....更多的是以问题为主,或以应用驱动形成的....如果从基础角度来看, DUDA的模式分类(pattern classification)一书是比较全面的, 可以用于本科生课程, 但新的内容涵盖不多. 类似的, Tom Mitchell写的Machine Learning是较早期的一本关于机器学习方面的教材, 但比较泛, 同样不利于较深层的认识. Bishop的Pattern Recognition and Machine Learning可以偏好贝叶斯, 整个书里概率统计的风格很浓. Hastie的书讲得较浅, 但需要的基本知识会要多一些. 更难一点的, Vapnik的statistical learning theory完全从统计角度来展开讨论, 包括了经验风险, 泛化界, 退火熵, 生长熵, VC维的基本常识,以及如何将这一系列学习理论的界转化成可构造的支持向量机, 以及理论上的转导和半监督思想均是在这本书中首次被提出. 所以, 如果大家觉得自己理论够强, 可以看一下这本书. 另外, 他有一本简化版, the nature of statistical learning theory. 主要将前一本书的关键概念剥离出来讲的.不过, 如果不看前者, 实际上很难理解简化版中的内容. 同样,从学习理论出发的另一本讲机器学习的书是Probabilistic view of statistical theory (or Pattern recognition?), 这本书从学习理论角度将多数模式识别技术进行了解释和分析, 并给出了学习性能的分析. 好处是, 你能了解到很多学习界的推导过程, 也能从学习理论的角度来理解机器学习. 与Vapnik的SLT相比, 难度略低一些, 但同样要求较深的数学或概率统计基础. 这本书我曾讲过, 我想应该不适合目前多数人. 具体选择什么书最好还是根据一个中位数来确定:)
作为本科生或初学者,建议大家看Duda的Pattern classification一书,该书非常全面,深入浅出。
我觉得呢由于很多技术的确很杂,很多 topic 其实自成体系,比如 artificial neural network、比如 Gaussian process,甚至 SVM、kernel methods、Bayesian method、probabilistic graphical model、Monte Carlo 方法 都是可以单独拿出来写出一本书讲一个学期。我前面说了一个观点,就是必须结合一定数量的 paper 来讲,某个方法经典的应用也好,经典的扩展也好,这个很重要的原因是有的书上的内容太久远了,如果没有新内容的补充,特别是一些新的观点,往往大家最后学过了觉得挺无聊的,根本没什么感觉。最简单的事情莫过于 model selection,要看书的话,基本没啥好讲的,AIC、BIC 等等书上有方法,可是到了实验,往往不知道那个东西怎么用、有什么用,最后就是自己想个办法做做。另外有的书讲的 topic 里面很多是过于简略了,比如不管是 Hastie 那本还是 Duda 那本,讲述关于 neural network 的部分都很有限,所以我觉得比较好的模式是以一本书为主,一个人分到某一个 topic 后需要自己去阅读相关的书籍、论文,比如 neural network,可能需要去读 Simon Haykin 的那本书,介绍 SVM 的应该同时介绍一些 learning theory 的成果,以及比如半监督 SVM 设计的方式(上学期集中讲过)。可以先定一本书,然后讲的人分 topic,让张老师或者对某个方向比较熟悉的人(可以到网上看某些大牛的主页)给一个扩展阅读的方向,然后汇集成纲,这样保证知识的完整和实时性。
好的呀,那由何力同学重新组织吧。
lz 不要这样嘛只是提议个建议,也没有反对你的意思,相反的只是希望你们能在讨论班收获更多的东西。组织的更好一点需要花更多的精力,但是收获也会更大一些。如果觉得时间上有些不够,可以互相帮助,也可以稍微把内容收缩一些。
那我错了...
sp
下面这本呢?
回复删除Information Theory, Inference, and Learning Algorithms, DavidJ.C. MacKay, Cambridge University Press 2003
Contents
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
1 IntroductiontoInformationTheory . . . . . . . . . . . . . 3
2 Probability, Entropy, andInference . . . . . . . . . . . . . . 22
3 MoreaboutInference . . . . . . . . . . . . . . . . . . . . . 48
I DataCompression . . . . . . . . . . . . . . . . . . . . . . 65
4 TheSourceCodingTheorem . . . . . . . . . . . . . . . . . 67
5 Symbol Codes . . . . . . . . . . . . . . . . . . . . . . . . . 91
6 StreamCodes . . . . . . . . . . . . . . . . . . . . . . . . . . 110
7 CodesforIntegers . . . . . . . . . . . . . . . . . . . . . . . 132
II Noisy-Channel Coding . . . . . . . . . . . . . . . . . . . . 137
8 DependentRandomVariables . . . . . . . . . . . . . . . . . 138
9 CommunicationoveraNoisyChannel . . . . . . . . . . . . 146
10 TheNoisy-Channel CodingTheorem. . . . . . . . . . . . . 162
11 Error-CorrectingCodesandReal Channels . . . . . . . . . 177
III FurtherTopicsinInformationTheory. . . . . . . . . . . . . 191
12 HashCodes: CodesforEfficientInformationRetrieval . . 193
13 BinaryCodes . . . . . . . . . . . . . . . . . . . . . . . . . 206
14 VeryGoodLinearCodesExist . . . . . . . . . . . . . . . . 229
15 FurtherExercisesonInformationTheory . . . . . . . . . . 233
16 MessagePassing . . . . . . . . . . . . . . . . . . . . . . . . 241
17 CommunicationoverConstrainedNoiselessChannels . . . 248
18 CrosswordsandCodebreaking . . . . . . . . . . . . . . . . 260
19 WhyhaveSex?InformationAcquisitionandEvolution . . 269
IV ProbabilitiesandInference . . . . . . . . . . . . . . . . . . 281
20 AnExampleInferenceTask: Clustering . . . . . . . . . . . 284
21 ExactInferencebyCompleteEnumeration . . . . . . . . . 293
22 MaximumLikelihoodandClustering . . . . . . . . . . . . . 300
23 Useful ProbabilityDistributions . . . . . . . . . . . . . . . 311
24 ExactMarginalization . . . . . . . . . . . . . . . . . . . . . 319
25 ExactMarginalizationinTrellises . . . . . . . . . . . . . . 324
26 ExactMarginalizationinGraphs . . . . . . . . . . . . . . . 334
27 Laplace’sMethod . . . . . . . . . . . . . . . . . . . . . . . 341
28 Model ComparisonandOccam’sRazor . . . . . . . . . . . 343
29 MonteCarloMethods . . . . . . . . . . . . . . . . . . . . . 357
30 EfficientMonteCarloMethods . . . . . . . . . . . . . . . . 387
31 IsingModels . . . . . . . . . . . . . . . . . . . . . . . . . . 400
32 ExactMonteCarloSampling . . . . . . . . . . . . . . . . . 413
33 Variational Methods . . . . . . . . . . . . . . . . . . . . . . 422
34 IndependentComponentAnalysisandLatentVariableMod-
elling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
35 RandomInferenceTopics . . . . . . . . . . . . . . . . . . . 445
36 DecisionTheory . . . . . . . . . . . . . . . . . . . . . . . . 451
37 BayesianInferenceandSamplingTheory . . . . . . . . . . 457
V Neural networks. . . . . . . . . . . . . . . . . . . . . . . . 467
38 IntroductiontoNeural Networks . . . . . . . . . . . . . . . 468
39 TheSingleNeuronasaClassifier . . . . . . . . . . . . . . . 471
40 Capacityof aSingleNeuron . . . . . . . . . . . . . . . . . . 483
41 LearningasInference . . . . . . . . . . . . . . . . . . . . . 492
42 HopfieldNetworks . . . . . . . . . . . . . . . . . . . . . . . 505
43 BoltzmannMachines . . . . . . . . . . . . . . . . . . . . . . 522
44 SupervisedLearninginMultilayerNetworks . . . . . . . . . 527
45 GaussianProcesses . . . . . . . . . . . . . . . . . . . . . . 535
46 Deconvolution . . . . . . . . . . . . . . . . . . . . . . . . . 549
VI SparseGraphCodes . . . . . . . . . . . . . . . . . . . . . 555
47 Low-DensityParity-CheckCodes . . . . . . . . . . . . . . 557
48 Convolutional CodesandTurboCodes . . . . . . . . . . . . 574
49 Repeat–AccumulateCodes . . . . . . . . . . . . . . . . . . 582
50 Digital FountainCodes . . . . . . . . . . . . . . . . . . . . 589
VII Appendices . . . . . . . . . . . . . . . . . . . . . . . . . . 597
A Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598
B SomePhysics . . . . . . . . . . . . . . . . . . . . . . . . . . 601
C SomeMathematics . . . . . . . . . . . . . . . . . . . . . . . 605
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 620
讲编码的,一半多东西我不懂...
回复删除支持~
回复删除最好是机器学习、统计这方面比较基础的致死后
照顾下我这种需要扫盲的 :)
那就讲Hastie这本好了. PPT也有现成的...不过最好根据自己的理解再改一下...
回复删除Hastie 的很多问题讲的比较泛,如果不补充一些论文进来,光看书是没有用的。
回复删除McKay 的书虽然偏 information theory 一些,我觉得对于希望从 compressed sensing 角度切入 machine learning 的做法更有帮助一些。
stat 的做法和 information theory 的做法还是要互相比较一些的好。
我想搞这个讨论班的目的是讲基础,并不是以出paper为目的。当然本科生和研究生都开了课的(如模式识别,机器学习等),但我觉得郭讲得没有激情,内容也太老,池讲得外语太难听懂了。
回复删除还有其他推荐的书吗?其他问题大家有什么建议?还有谁愿意讲的?
要不按照国外名校的ML课程讲,如
http://www.cs.cmu.edu/~avrim/ML06/
http://www.mit.edu/~9.520/
我对讲哪本书没意见,我希望能通过这种方式建立一个比较完备的知识体系,而不是零散的什么都知道一点但又只知皮毛.能从这个方向出成果固然好,暂时不能出也不至于几天不用又忘掉了.
回复删除嗯,成体系还是不错的~
回复删除机器学习发展至今,并没有形成完全独立的学科....更多的是以问题为主,或以应用驱动形成的....
回复删除如果从基础角度来看, DUDA的模式分类(pattern classification)一书是比较全面的, 可以用于本科生课程, 但新的内容涵盖不多. 类似的, Tom Mitchell写的Machine Learning是较早期的一本关于机器学习方面的教材, 但比较泛, 同样不利于较深层的认识. Bishop的Pattern Recognition and Machine Learning可以偏好贝叶斯, 整个书里概率统计的风格很浓. Hastie的书讲得较浅, 但需要的基本知识会要多一些.
更难一点的, Vapnik的statistical learning theory完全从统计角度来展开讨论, 包括了经验风险, 泛化界, 退火熵, 生长熵, VC维的基本常识,以及如何将这一系列学习理论的界转化成可构造的支持向量机, 以及理论上的转导和半监督思想均是在这本书中首次被提出. 所以, 如果大家觉得自己理论够强, 可以看一下这本书. 另外, 他有一本简化版, the nature of statistical learning theory. 主要将前一本书的关键概念剥离出来讲的.不过, 如果不看前者, 实际上很难理解简化版中的内容.
同样,从学习理论出发的另一本讲机器学习的书是Probabilistic view of statistical theory (or Pattern recognition?), 这本书从学习理论角度将多数模式识别技术进行了解释和分析, 并给出了学习性能的分析. 好处是, 你能了解到很多学习界的推导过程, 也能从学习理论的角度来理解机器学习. 与Vapnik的SLT相比, 难度略低一些, 但同样要求较深的数学或概率统计基础. 这本书我曾讲过, 我想应该不适合目前多数人.
具体选择什么书最好还是根据一个中位数来确定:)
作为本科生或初学者,建议大家看Duda的Pattern classification一书,该书非常全面,深入浅出。
回复删除我觉得呢由于很多技术的确很杂,很多 topic 其实自成体系,比如 artificial neural network、比如 Gaussian process,甚至 SVM、kernel methods、Bayesian method、probabilistic graphical model、Monte Carlo 方法 都是可以单独拿出来写出一本书讲一个学期。我前面说了一个观点,就是必须结合一定数量的 paper 来讲,某个方法经典的应用也好,经典的扩展也好,这个很重要的原因是有的书上的内容太久远了,如果没有新内容的补充,特别是一些新的观点,往往大家最后学过了觉得挺无聊的,根本没什么感觉。最简单的事情莫过于 model selection,要看书的话,基本没啥好讲的,AIC、BIC 等等书上有方法,可是到了实验,往往不知道那个东西怎么用、有什么用,最后就是自己想个办法做做。
回复删除另外有的书讲的 topic 里面很多是过于简略了,比如不管是 Hastie 那本还是 Duda 那本,讲述关于 neural network 的部分都很有限,所以我觉得比较好的模式是以一本书为主,一个人分到某一个 topic 后需要自己去阅读相关的书籍、论文,比如 neural network,可能需要去读 Simon Haykin 的那本书,介绍 SVM 的应该同时介绍一些 learning theory 的成果,以及比如半监督 SVM 设计的方式(上学期集中讲过)。
可以先定一本书,然后讲的人分 topic,让张老师或者对某个方向比较熟悉的人(可以到网上看某些大牛的主页)给一个扩展阅读的方向,然后汇集成纲,这样保证知识的完整和实时性。
好的呀,那由何力同学重新组织吧。
回复删除lz 不要这样嘛
回复删除只是提议个建议,也没有反对你的意思,相反的只是希望你们能在讨论班收获更多的东西。组织的更好一点需要花更多的精力,但是收获也会更大一些。如果觉得时间上有些不够,可以互相帮助,也可以稍微把内容收缩一些。
那我错了...
回复删除sp
回复删除