《统计学习方法》读书笔记开篇

初衷

2016年之前从事搜索引擎算法、query分析的一些工作，严格来说还未深入NLP的任务，2016年8月份至今，则正式进入了NLP世界，工作内容包括分词、分类、NER、知识抽取、知识图谱构建、智能问答，这些项目使我对NLP世界任务脉络有了清晰和深入的认识，项目积累一到一定程度，同时也深感基础的不稳固，后续增长的疲弱，因此决定“归零心态，重新上路”，夯实理论基础。虽然当前深度学习十分火热，很多人都在转向这个方向，窃以为统计机器学习方法，仍是算法职业道路上十分必要的基石，深度学习是数据驱动，庞大的数据量才能使其具有良好、可接受的效果，然而实际工作中标注数据是十分匮乏，构建成本也比较大，因此传统机器学习在小样本上仍然有不可替代的位置。基于此决心开始研读《统计学习方法》第二版，无他，只期自己能有另一番感悟和收获。
之前看到一篇文章，其中几句话给我留下了很深的印象，如下

应用场景都经历过，但浮于表面
技术基础较差，脱离一线
技术栈了解程度浅，对原理模糊不清
心态过于浮躁

这几句我会时刻铭记，提醒自己不要松懈，脚踏实地，求甚解，戒除焦躁。

规划

对于算法的规划，肯定是个缓慢的过程，但也一定要有时间限制，否则，知识体系建立不连贯，会造成懈怠，初步制定计划如下：

每周读完一章，每章内容包括算法及课后题
课后题要进行分析和解答
每周做一次读书笔记的总结和整理，回顾知识，并将总结发送到blog

方法

据第二版序和目录可知，第二版分为监督学习和无监督学习，后者是这一版中新增内容，包括聚类、pLSA、LDA、MCMC、EM等算法，这些也是算法进阶的标志。在阅读此书时，给自己做了如下的要求：

宏观层面：

该算法解决什么问题？
算法基本思想和原理是什么？
个人理解是什么？

微观层面：

公式详细推导过程是否领会和记忆？
算法优化的目标是什么？
优缺点是什么？

应用层面

算法的使用场景或任务有哪些？
具体使用的体验如何？

结果

学习的目的就是为了让自己对基本知识有个全新、牢固的理解和认识，因此输出很重要，是检验自己是否达到要求的唯一标准，这里暂定了以读书笔记的形式进行输出，每研读完一个算法，都要尽快整理详细的读书笔记，笔记内容的格式内容还在设计当中，力求看过笔记之后，无需再重新阅读书籍就能够理解算法的主要思想和内容。

我知道，周围的环境、人员嘈杂，但你必须，静下心，踏实的走你自己的路！