我吃西红柿,完美的世界 1993 电影,君子以泽

英偉達推全新視覺語音模型NVEagle

可以看圖聊天

日期： 2024-09-03

來源：硅星人

關鍵詞： 英偉達 NVEagle 視覺語音模型看圖聊天

9月2日訊，據英偉達官方消息，英偉達聯合 Georgia Tech、UMD 和 HKPU 的研究團隊推出了全新的視覺語言模型 —— NVEagle。

據悉，NVEagle 能夠理解復雜的現實場景，通過視覺輸入進行更好的解讀和回應。它的設計核心在于將圖像轉化為視覺標記，再與文本嵌入相結合，進而提升了對視覺信息的理解。NVEagle 包括了三個版本 :Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat。其中，7B 和 13B 版本主要用于一般的視覺語言任務，而 13B-Chat 版本則專門針對對話式 AI 進行了微調，能夠更好地進行基于視覺輸入的互動。

NVEagle 的一個亮點在于采用了混合專家（MoE）機制，能夠根據不同任務動態選擇最合適的視覺編碼器，這極大提升了對復雜視覺信息的處理能力。該模型已在 Hugging Face 上發布，方便研究人員和開發者使用。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

英偉達推全新視覺語音模型NVEagle

日期： 2024-09-03

來源：硅星人

相關內容