MoE

it2024-11-28  16

 Mixture of expert

参考:http://mi.eng.cam.ac.uk/~mjfg/local/4F10/lect5a.pdf

法一 优化最大似然

 法二 EM

总优化函数为

我们要最大化它,最大化

Expert

第m个专家模型的优化函数为为 似然乘以后验权重

gate

gate network的优化函数则为先验拟合后验(熵),两者分布越接近,值越大

posterior

后验的计算

 

转载于:https://www.cnblogs.com/zh-liu/p/Mixture_of_Experts_1.html

相关资源:moe 使用说明
最新回复(0)