2019-05-13 | 统计学习方法笔记 | UNLOCK

《统计学习方法》读书笔记开篇

初衷

2016年之前从事搜索引擎算法、query分析的一些工作,严格来说还未深入NLP的任务,2016年8月份至今,则正式进入了NLP世界,工作内容包括分词、分类、NER、知识抽取、知识图谱构建、智能问答,这些项目使我对NLP世界任务脉络有了清晰和深入的认识,项目积累一到一定程度,同时也深感基础的不稳固,后续增长的疲弱,因此决定“归零心态,重新上路”,夯实理论基础。虽然当前深度学习十分火热,很多人都在转向这个方向,窃以为统计机器学习方法,仍是算法职业道路上十分必要的基石,深度学习是数据驱动,庞大的数据量才能使其具有良好、可接受的效果,然而实际工作中标注数据是十分匮乏,构建成本也比较大,因此传统机器学习在小样本上仍然有不可替代的位置。基于此决心开始研读《统计学习方法》第二版,无他,只期自己能有另一番感悟和收获。
之前看到一篇文章,其中几句话给我留下了很深的印象,如下

应用场景都经历过,但浮于表面
技术基础较差,脱离一线
技术栈了解程度浅,对原理模糊不清
心态过于浮躁

这几句我会时刻铭记,提醒自己不要松懈,脚踏实地,求甚解,戒除焦躁。

规划

对于算法的规划,肯定是个缓慢的过程,但也一定要有时间限制,否则,知识体系建立不连贯,会造成懈怠,初步制定计划如下:

  • 每周读完一章,每章内容包括算法及课后题
  • 课后题要进行分析和解答
  • 每周做一次读书笔记的总结和整理,回顾知识,并将总结发送到blog

方法

据第二版序和目录可知,第二版分为监督学习和无监督学习,后者是这一版中新增内容,包括聚类、pLSA、LDA、MCMC、EM等算法,这些也是算法进阶的标志。在阅读此书时,给自己做了如下的要求:

宏观层面

  • 该算法解决什么问题?
  • 算法基本思想和原理是什么?
  • 个人理解是什么?

微观层面

  • 公式详细推导过程是否领会和记忆?
  • 算法优化的目标是什么?
  • 优缺点是什么?

应用层面

  • 算法的使用场景或任务有哪些?
  • 具体使用的体验如何?

结果

学习的目的就是为了让自己对基本知识有个全新、牢固的理解和认识,因此输出很重要,是检验自己是否达到要求的唯一标准,这里暂定了以读书笔记的形式进行输出,每研读完一个算法,都要尽快整理详细的读书笔记,笔记内容的格式内容还在设计当中,力求看过笔记之后,无需再重新阅读书籍就能够理解算法的主要思想和内容。

我知道,周围的环境、人员嘈杂,但你必须,静下心,踏实的走你自己的路!

评论加载中