小说阅读网,斗破苍穹续集,最好看的小说排行

阿里巴巴開源1100億參數Qwen1.5-110B 模型

日期： 2024-04-28

來源：IT之家

關鍵詞： 阿里巴巴 Qwen1.5-110B 千億參數模型

阿里巴巴日前宣布，開源 Qwen1.5 系列首個千億參數模型 Qwen1.5-110B，該模型在基礎能力評估中與 Meta-Llama3-70B 相媲美，在 Chat 評估中表現出色，包括 MT-Bench 和 AlpacaEval 2.0。

匯總主要內容：

據介紹，Qwen1.5-110B 與其他 Qwen1.5 模型相似，采用了相同的 Transformer 解碼器架構。它包含了分組查詢注意力（GQA），在模型推理時更加高效。該模型支持 32K tokens 的上下文長度，同時它仍然是多語言的，支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。

阿里 Qwen1.5-110B 模型與最近的 SOTA 語言模型 Meta-Llama3-70B 以及 Mixtral-8x22B 進行了比較，結果如下：

上述結果顯示，新的 110B 模型在基礎能力方面至少與 Llama-3-70B 模型相媲美。在這個模型中，阿里巴巴沒有對預訓練的方法進行大幅改變，因此他們認為與 72B 相比的性能提升主要來自于增加模型規模。

阿里還在 MT-Bench 和 AlpacaEval 2.0 上進行了 Chat 評估，結果如下：

阿里巴巴表示，與之前發布的 72B 模型相比，在兩個 Chat 模型的基準評估中，110B 表現顯著更好。評估結果的持續改善表明，即使在沒有大幅改變后訓練方法的情況下，更強大、更大規模的基礎語言模型也可以帶來更好的 Chat 模型。

最后，阿里方面表示，Qwen1.5-110B 是 Qwen1.5 系列中規模最大的模型，也是該系列中首個擁有超過 1000 億參數的模型。它在與最近發布的 SOTA 模型 Llama-3-70B 的性能上表現出色，并且明顯優于 72B 模型。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

阿里巴巴開源1100億參數Qwen1.5-110B 模型

日期： 2024-04-28

來源：IT之家

相關內容