Summary of Word2vec

Preface

之前，在面试阿里的时候，提到了Embedding的问题，面试官问我了解哪些基本的embedding，我提到了word2vec，然后面试官就追问了word2vec的原理，当时没有准备，答得比较凌乱，现结合其他人的 blog 总结 Word2vec 原理回答的主要思路。

本文总结的时候参考了一下文章：

本文图片出处original cs224n，本文图片来自知乎

核心思想：预测每个单词与其上下文之间的关系

两种不同的算法：

两种训练方法：

模型预测给定单词 $w_t\ \forall t\in{1,2,\cdots,T}$ 为中心词，该词“半径”为 $m$ 的窗口中的单词，即给定中心词 $w_c$ 最大化上下文单词的概率。即最大化如下目标函数：

$J'(\theta) = \Pi_{t=1}^T\Pi_{-m\leq j\leq m \\ j\neq 0} p(w_{t+j}\mid w_t;\theta) \tag{1}$

等价于最小化negetive log likelihood:

$J(\theta) = -\frac{1}{T} \sum_{t=1}^T\sum_{-m\leq j\leq m \\ \ \ \ \ j\neq 0} log(p(w_{t+j} \mid w_t)) \tag{2}$

其中，我们使用如下公式计算 $p(o\mid c)$ 。

$p(o\mid c) = \frac{exp(u_o^Tv_c)}{\sum_{w=1}^V exp(u_w^Tv_c)} \tag{3}$

注意的是，这里对于每个单词来说对应了两个不同的词向量 $u_i$ , $v_i$ (分别作为外部和中心词的向量表示)。通过softmax函数，使用中心词 $v_c$ 获取输出单词 $u_o$ 的概率分布。

下图展示了 skip-grams 的框架 （使用softmax而不是Hierarchical softmax/Negative sampling）

Jason Yuan

http://Columbine21.github.io/2020/04/12/word2vec/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Jason Yuan !

Multi-modality Latent Interaction Network for Visual Question AnsweringMulti-modality Latent Interaction NetworkMLIN con

2020-04-21 Natural Language Processing

Deep Learning VQA

Paper ReadingDate: 2020/4/10 Multimodal BiTransformersMultimodal bitransformer model as follows: Image EncoderWithin th

2020-04-10 Multimodal