6miu盘搜

MoE

it2024-11-28 53

Mixture of expert

参考：http://mi.eng.cam.ac.uk/~mjfg/local/4F10/lect5a.pdf

法一优化最大似然

法二 EM

总优化函数为

我们要最大化它，最大化

Expert

第m个专家模型的优化函数为为似然乘以后验权重

gate

gate network的优化函数则为先验拟合后验(熵)，两者分布越接近，值越大

posterior

后验的计算

转载于:https://www.cnblogs.com/zh-liu/p/Mixture_of_Experts_1.html

相关资源：moe 使用说明

最新回复(0)