1. 文本表示与理解
1)文本表示学习
词语向量化
覆盖率 coverage
新鲜度 freshness
准确性 accuracy :更好地表达语义关系
a. DSG(Directional Skip-Gram): 引入方向向量
超文档表示学习
内容敏感、上下文敏感、新文档友好、上下文意图敏感
使用两个向量
In 包含内容+出链信息
Out 入链 + 入链上下文信息
2)语义理解
语义分析
语义标注:上位词
语义扩展:同类词语联想
问题:
歧义
建立多个映射
利用上下文
长难句 一句中同时出现不同语义的相同词
利用句法分析树度量线索词权重
上下位关系预测
基于模板
基于分布式语义,如下位词的上下文大致被上位词的上下文包含,个人认为正好反了,如“狗会叫” -> “哈士奇会叫”, P低R高
结合的,模板未覆盖时,用分布式语义来做
语义扩展
给定基于上下文C的种子词s,给出适合上下文C的s的同类词
上下文,种子词,预测其他词,做一个简单的预测(分类)模型
3)社交文本理解
关键词抽取:目标文本包含关键词
有监督:序列标注,文本分类
无监督:图排序,统计
之前工作只考虑关键词,没考虑上下文语义
关键词生成:当目标文本不包含关键词时的任务
问题:抽取局限性
目标文本必须出现关键词
出现的关键词不一定足够好
模型
Context和目标文本输入,关键词作为输出
加入topic模块
生成式对话
1. 多样性
1)先选bag words(相关topic word),然后利用topic word生成不同回复,回复中包含topic word
2. 可控性
1)风格转换(带风格强度)(应该用的是带有标签R(风格强度)的数据)
找相似句子,如词语高度重合,但输出截然不同的
建模内容与输出的不同
相似句子差异词x x'的差 = 相似句子风格y y'的差
相似句子的内容z z'尽量相等
利用内容与相应输出重建句子
生成x' = f(z, y') 因为z和z'相似
2)控制回复行为
3. 问题生成
挑战
1)远距离依赖之前的对话
2)每一轮之间平滑的转变
solution
1)明确建模代词
估计是,先extract代词,以及对应指代,然后对生产代词时的attention以及代词生成概率做loss
2)对利用到的额外的passage信息(根据passage来问问题)建模平滑转移
对当前回应内容相关,历史内容不想关(没有focus过)
4. 检索生成结合
问题
生成时简单copy检索的结果,当检索结果不相关时效果急剧下降
解决方案
根据检索的结果先生成骨架(扣去某些无用词的句子),根据骨架生成。
骨架生产器和句子生成器看样子是同时训练的
转载于:https://www.cnblogs.com/zh-liu/p/ADL100-5-AILab.html
相关资源:TP-LINK TL-WR700N在家庭共享ADSL下的设置方法