2019-05-13 | 统计学习方法笔记 | UNLOCK

《统计学习方法》读书笔记开篇

2016年因为工作变动,购买了《统计学习方法》第一版,虽然没有完全吃透书中的奥义,但仍借助该书提升了机器学习的基础知识,而今第二版已出,我也在算法领域工作了将近4年以上,当下这个阶段也是自己职业生涯的瓶颈期和转折点,这个时候需要更强的发力,而这个发力的基础就是对算法基本知识深刻的理解和牢固的掌握,因此够买了第二版书籍,让自己以归零的心态,重新学习,文本即是对该书的学习规划。

README MORE >>>
2019-05-08 | Projects | UNLOCK

DeepFM Implementation with Tensorflow

基于Tensorflow和tf.data.dataset api实现DeepFM 模型,并在公开数据和自由数据集上测试其性能,并提高其实际使用性能,主要路线如下:

  • [x] 论文解读,分析具体模型逻辑和主要特点
  • [x] 准备测试数据集
  • [x] 特征工程,进行中
  • [x] 制作模型所需数据集
  • [ ] 模型搭建
  • [ ] 模型测试及参数调整
  • [ ] 结果分析
README MORE >>>
2018-11-06 | Paper Notes | UNLOCK

论文笔记 - A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING

论文特点

  • 和传统句子编码不同,传统方法对句子编码后是一个d 的Vector,而该论文方法是将句子编码为一个 r x d 的Matrix,原因是作者认为一个vector的表示只能突出句子中相关words 和phrase的表示,而实际情况一个句子的语义含义会r 部分构成,因此作者将一个句子的编码表示成一个matrix
  • Attenion, 句子被表示成矩阵,那么此时的attention 权重A也是一个r x n
  • penalization term, 表示的惩罚机制.作者认为经过attention机制之后的表示会存在冗余表示的情况,因此需要一个惩罚机制对attention 权重处理来保证最终表示的多样性。
README MORE >>>
2018-05-30 | Document Similarity | UNLOCK

DSSM 分析

Deep Structured Semantic Models

该模型主要目的是计算query和document的相似度,而论文提到的搜索场景下,用户输入一个query,该怎么返回召回的documents,所以建立这个模型来计算query和doc直接的相似度。

README MORE >>>
2018-05-28 | Text Minning | UNLOCK

Term Weighting

Term weighting

词权重在NLP任务中有着关键作用,比如提取关键词,选择特征,这些词的权重选择和设计最终会影响结果的好坏,今天就来理一理NLP中词权重设计方式。按照权重范围大致可以分为三类,local weight, global weight, normalization。局部词权重是指这个词在一篇文档中的权重,全局权重是这个词在所有语料库中的权重,归一化因子是用来补偿文档长度不同造成的差异。

README MORE >>>
2018-04-06 | CS244n | UNLOCK

CS244n Lecture Notes3

关键词:神经网络,前向计算,反向传播,Max-margion Loss, xavier 参数初始化,梯度检查,学习率,Adgrad.
这个笔记首先介绍单层和多层神经网络,如何使用NN进行分类任务。之后讨论如何利用反向传播(梯度下降)来训练神经网络,更新网络网络中的参数。然后讨论一些在实际训练网络中会涉及的问题,如激活函数选择、梯度检查、Xavier 参数初始化、学习率、Adagrad优化算法,最后探讨如何使用RNN来学习语言模型。

README MORE >>>
2018-03-29 | Vector Search | UNLOCK

Fun with Faiss

Faiss
Faiss

README MORE >>>
2018-03-08 | Paper Notes | UNLOCK

Paper Notes:Domain Specific Entity Linking via Fake Named Entity Detection

论文笔记: Domain-Specific Entity Linking via Fake Named Entity Detection

最近在看知识图谱应用方面的报告,看到了清华大学做的图谱,然后就尝试了下。最让吸引我的是那么做的实体链接相关的工作(地址),效果非常好,截图如下。

README MORE >>>
2018-03-03 | Document Semantic | UNLOCK

Semantic correlation calculation

文本语义建模分析

README MORE >>>
2018-02-08 | Paper Notes | UNLOCK

Paper Notes:Attention is all you need

该论文是Google在2017年的一个工作,单从论文题目来看能够让很多人神往,在做NLP任务时它没有提RNN,没有提CNN,而且可以获得state-of-the-art效果,最近就对这篇文章内容进行了细致分析,做笔记如下。

README MORE >>>