2019-05-13 | 统计学习方法笔记 | UNLOCK

《统计学习方法》读书笔记开篇

2016年因为工作变动，购买了《统计学习方法》第一版，虽然没有完全吃透书中的奥义，但仍借助该书提升了机器学习的基础知识，而今第二版已出，我也在算法领域工作了将近4年以上，当下这个阶段也是自己职业生涯的瓶颈期和转折点，这个时候需要更强的发力，而这个发力的基础就是对算法基本知识深刻的理解和牢固的掌握，因此够买了第二版书籍，让自己以归零的心态，重新学习，文本即是对该书的学习规划。

README MORE >>>

统计学习方法机器学习

2019-05-08 | Projects | UNLOCK

DeepFM Implementation with Tensorflow

基于Tensorflow和tf.data.dataset api实现DeepFM 模型，并在公开数据和自由数据集上测试其性能，并提高其实际使用性能，主要路线如下:

[x] 论文解读，分析具体模型逻辑和主要特点
[x] 准备测试数据集
[x] 特征工程，进行中
[x] 制作模型所需数据集
[ ] 模型搭建
[ ] 模型测试及参数调整
[ ] 结果分析

README MORE >>>

DeepFM DeeFM 代码剖析和实现 Feature Engineering

2018-11-06 | Paper Notes | UNLOCK

论文笔记 - A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING

论文特点

和传统句子编码不同，传统方法对句子编码后是一个d 的Vector，而该论文方法是将句子编码为一个 r x d 的Matrix，原因是作者认为一个vector的表示只能突出句子中相关words 和phrase的表示，而实际情况一个句子的语义含义会r 部分构成，因此作者将一个句子的编码表示成一个matrix
Attenion，句子被表示成矩阵，那么此时的attention 权重A也是一个r x n，
penalization term，表示的惩罚机制.作者认为经过attention机制之后的表示会存在冗余表示的情况，因此需要一个惩罚机制对attention 权重处理来保证最终表示的多样性。

README MORE >>>

Attention Sentence Embeding Sentiment Analysis

2018-05-30 | Document Similarity | UNLOCK

DSSM 分析

Deep Structured Semantic Models

该模型主要目的是计算query和document的相似度，而论文提到的搜索场景下，用户输入一个query，该怎么返回召回的documents，所以建立这个模型来计算query和doc直接的相似度。

README MORE >>>

文本相似度 dssm

2018-05-28 | Text Minning | UNLOCK

Term Weighting

Term weighting

词权重在NLP任务中有着关键作用，比如提取关键词，选择特征，这些词的权重选择和设计最终会影响结果的好坏，今天就来理一理NLP中词权重设计方式。按照权重范围大致可以分为三类，local weight， global weight， normalization。局部词权重是指这个词在一篇文档中的权重，全局权重是这个词在所有语料库中的权重，归一化因子是用来补偿文档长度不同造成的差异。

README MORE >>>

Term Weighting Word Local Weight Word Global Weight Keywords Extraction

2018-04-06 | CS244n | UNLOCK

CS244n Lecture Notes3

关键词：神经网络，前向计算，反向传播，Max-margion Loss, xavier 参数初始化，梯度检查，学习率，Adgrad.
这个笔记首先介绍单层和多层神经网络，如何使用NN进行分类任务。之后讨论如何利用反向传播（梯度下降）来训练神经网络，更新网络网络中的参数。然后讨论一些在实际训练网络中会涉及的问题，如激活函数选择、梯度检查、Xavier 参数初始化、学习率、Adagrad优化算法，最后探讨如何使用RNN来学习语言模型。

README MORE >>>

前向计算反向计算 AdaGrad NN Tips and Tricks

2018-03-29 | Vector Search | UNLOCK