论文题目:BERT-Bidirectional Encoder Representations from Transformers
随机掩码语言模型:
给定一个输入序列:[CLS] The dog jumped over the log. [SEP]随机mask15%的token:[CLS] The dog jumped [MASK] the log. [SEP]预测原本单词的值:Prediction='over'BERT模型的输入:
随机mask15%的token,以一个特殊的token:[MASK]代替Token Embedding + Segmentation Embedding + Position Embedding输入形式:[CLS] sentence1 [SEP] sentence2 [SEP]特点:
类似于降噪自动编码机(Denoising Auto-Encoder, DAE),而BERT仅仅通过corrupted input sentence预测被mask的位置的词,而不需要还原整个句子。做到了双向语言模型(Bidirectional Language Model),在预测中心词的过程中通过模型对整个文章的编码可以得到上下文的信息,去预测中心词出现的概率。优化的目标函数:
其中,表示重建后的句子,表示随机mask后的句子,如果第t个token被mask,则。
BERT与GPT2沿用了相同的架构,都是多层Transformer。
区别:
BERT:Masked LM,可以捕捉到整个上下文的信息GPT2:Left2Right LM,通过对于Attention mask的限定,可以让第t个位置的词仅仅看到前t-1位置的词,这样的训练方式导致GPT2模型只能建模前向的概率分布
