9 月 13 日消息,元象 XVERSE 發布中國最大 MoE 開源模型 XVERSE-MoE-A36B。
該模型總參數 255B,激活參數 36B,官方號稱效果能“大致達到”超過 100B 大模型的“跨級”性能躍升,同時訓練時間減少 30%,推理性能提升 100%,使每 token 成本大幅下降。
MoE(Mixture of Experts)混合專家模型架構,將多個細分領域的專家模型組合成一個超級模型,在擴大模型規模的同時,保持模型性能最大化,甚至還能降低訓練和推理的計算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多個評測中,元象 MoE 超過多個同類模型,包括國內千億 MoE 模型 Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B 以及 3140 億參數的 MoE 開源模型 Grok-1-A86B 等。
本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。