Mixture of expert
参考:http://mi.eng.cam.ac.uk/~mjfg/local/4F10/lect5a.pdf
法一 优化最大似然
法二 EM
总优化函数为
我们要最大化它,最大化
Expert
第m个专家模型的优化函数为为 似然乘以后验权重
gate
gate network的优化函数则为先验拟合后验(熵),两者分布越接近,值越大
posterior
后验的计算
转载于:https://www.cnblogs.com/zh-liu/p/Mixture_of_Experts_1.html
相关资源:moe 使用说明