模型特点:
- 数据构造
在搜索场景下,利用query对应点击过的doc 和未点击过的doc组成训练样本对(采用点击与否来表示相关性),进行训练模型 - 模型
模型采用一般的DNN方式,网络框图如下,
激活函数采用,$tanh$, loss计算如下:
整个模型是首先通过对query 和doc中的term 进行编码, 然后做三层FC,最后接softmax层输出计算loss,softmax层的输入是经过三层FC后的query和doc的余弦距离,loss计算的是query和被点doc余弦距离的负对数。
模型存在的问题
- Term vector, 可以通过one-hot进行编码,由于vocabulary 会很大,且存在未登录词,模型进行了改进,采用word hash,即将单词拆分成如下形式,”#good#” -> “#go, goo, ood, od#”。但对于中文来说,此种方式不见效,中文可以拆分成单字,偏旁、部首,后者做embedding。
模型实现
TO BE Done
评论加载中