日前,第29屆ACM國際多媒體頂級會議(ACM International Conference on Multimedia, 簡稱ACM Multimedia)在成都舉行,京東探索研究院AI團隊憑借多模態交互數字人技術、跨模態分析技術分別斬獲最佳演示獎及最佳開源項目獎。會上,京東集團副總裁梅濤當選ACM Multimedia 2023大會共同主席(General Co-Chair)。
ACM Multimedia是計算機科學領域中多媒體領域的首要國際會議,1993年以來每年召開一次,已成為多媒體領域頂級盛典,大會致力于推動多媒體的研究和應用,京東探索研究院的該兩項獲獎技術均為ACM Multimedia頒發的該技術領域唯一獎項,分量十足。
過去十年多媒體領域視覺和語言之間的跨模態分析出現了穩定創新和突破的勢頭。然而,X-modaler出現之前,還沒有一個開源的代碼庫來支持以統一和模塊化的方式訓練和部署眾多的跨模態分析的神經網絡模型。京東探索研究院的跨模態視覺分析代碼庫X-modaler是業界首個模塊化、標準化的跨模態視覺分析代碼庫,涵蓋了視覺語言領域各種前沿技術,并支持各種多模態任務。它可以輕松復現視覺語言領域目前主流的技術,促進學術界在視覺語言領域的發展。同時也便于工業界集成跨模態視覺分析的模塊,推動AI在工業互聯網應用的落地應用和技術進步。
在傳統的AI認知中,視覺領域、語音領域、自然語言領域等領域之前是獨立演進的技術和應用,可以認為是單模態技術,而人是一個看、聽、說多模態共同工作的智能體,所以多模態技術是未來人工智能應用發展的方向。京東探索研究院的多模態交互數字人技術ViDA-Man致力于打造具備多感官交互能力的人機交互系統,深入多模態交互技術研究,專注于人機交互的消費科技產品打造。基于該技術開發的多模態交互數字人形象引擎,能夠提供快速的形象定制能力,從外觀的數字化逐漸深入到行為的交互化、情緒的智能化。
近年來,數字浪潮的推動讓人工智能技術已經實現從不可用到可用,AI產品化時期,諸如智能語音識別技術、智能圖片處理技術、基于用戶興趣的算法引擎推薦、智能審核技術、AR/VR技術、5G技術等成為了AI落地的抓手,掀起了科技創新的新浪潮。京東集團副總裁梅濤表示,獲獎技術早已服務于京東云打造的虛擬數字人、拍照購、搭配購等多個產品,并開始在產業化、商業化項目中廣泛應用。
這些技術已大規模應用于正在如火如荼展開的京東11.11。如,基于計算機視覺以圖搜圖的搜索應用,輔助以語音對話交互技術的“拍照購”和“搭配購”功能已在剛剛拉開帷幕的京東11.11中大放異彩,通過拍照或截圖方式,直接匹配搭配好的時尚單品,打造“一站加購”、“一鍵買齊”的購物新體驗,幫助商家強種草、高轉化。
今年京東11.11期間,針對商品營銷內容推出的智能寫作服務“達人寫作”,形成一篇百余字商品文案僅需300毫秒,5分鐘可以創作出1000篇文案,覆蓋近3000個商品品類,累計生成3,000萬AI內容,相比于人工撰寫內容點擊轉化率超過40%,成本降低93.2%。
除京東內部應用之外,這些獲得國際學術界頂尖榮譽的領先技術正在通過京東云這個統一平臺輸出對外賦能各行各業。比如,基于多模態交互數字人技術研發的“虛擬數字人”能助力京東云智能客服產品提升智能接待、服務和虛擬助手的體驗。比如,京東云智能客服業務與某銀行合作,打造了全國第一個交互式數字人項目“數字柜員”,有別于播報式數字人,“數字柜員”涉及VTM虛擬坐席交互,利用AI技術,實現用虛擬人替代真人柜員辦理業務、把控風險。
可以看到,京東AI技術之所以能取得如此優異的成績,是其在真實復雜場景的有效實踐和千錘百煉。作為京東集團對外技術輸出的窗口,京東云不僅是政府、企業、家庭數字化轉型全生命周期合伙人,并基于人工智能、大數據、云計算、物聯網、區塊鏈、隱私計算等技術,通過數智化全鏈條技術服務,助力千行百業數字化轉型,激發產業無限可能。