AI大模型可能是走向強人工智能的必經之路,也或許只是過渡手段,但不管怎么說,它已經越來越清晰地呈現出了魅力。
AI落地初期,為了提升傳統行業的應用體驗,提高機器學習算法的效率,面向海量的、碎片化的應用場景,行業拼命“大煉模型”。
這從一定程度上確實助推了AI的落地,不過,為了進一步優化效果、提高精度,模型變得越來越復雜,數據越來越龐大,進一步提高了行業的應用門檻,特別是對小公司帶來挑戰。由于模型越復雜,所需的投入越大,訓練成本越高,很多企業不足以應對這種狀況,導致落地效率越來越低。
最“卷”的AI模型在語言領域。2020年夏天,OpenAI推出了GPT-3,它在自然語言處理方面展示出驚人的能力,能寫文章、做翻譯、生成代碼,甚至可以學習一個人的語言模式,并遵循這個模式與人進行談話。GPT-3的面市也使得全球范圍內AI大模型迎來大爆發,參與企業越來越多,參數級別越來越大,成為新一輪AI競賽的賽場。2021年,谷歌發布了萬億級模型Switch Transformer,微軟和英偉達也推出了包含5300億個參數的自然語言生成模型。國內的企業也不甘落后,華為、浪潮、百度、阿里巴巴等企業都競相推出了自己的大模型。
AI進入“煉大模型”時代。
AI“劇本殺”玩家
能解行業之痛嗎?
國內AI大模型的代表之一是“源1.0”,是浪潮在2021年9月發布的單體巨量自然語言處理模型。“源1.0”一發布就問鼎全球最大規模的中文AI模型,其參數規模高達2457億,訓練采用的中文數據集達5000GB,相比GPT-3模型1750億參數量和570GB訓練數據集,“源1.0”參數規模領先40%,訓練數據集規模領先近10倍。
一個有趣的應用是,源開發者社區的開發者基于“源1.0”開發出了“劇本殺”AI玩家。在游戲中,AI所扮演的角色不僅可以與其他玩家流暢對話,甚至會為了達成任務說謊去“套路”人類玩家。
它所憑借的,正是“源1.0”零樣本(Zero-Shot)和小樣本(Few-Shot)學習的優勢,AI模型可以很好地理解并實現交互式敘事的“對話策略”,能夠運用“舉一反三”的對話能力,讓劇本殺成為一部由玩家和AI在不知不覺中共同創造的全新故事。
開源社區產生的其他基于“源1.0”開發的應用也是五花八門,包括數字演員、正能量陪伴機器人、抬杠機器人、游戲NPC對話、文案寫作、金融文本分析等……并且,浪潮的源1.0大模型已落地智算中心、金融等多個企業,實現了智算中心模型即服務(MaaS)的產品模式創新,助力金融大模型的研發。
我們該如何看待這些應用?它們反映出了AI的哪些發展趨勢?
浪潮信息AI軟件研發總監吳韶華介紹,在大模型出現之前,如果要做一個類似劇本殺的游戲,需要很強大的模型和復雜的流程。首先,這個模型既要有對話能力,也要有邏輯推理能力,這對于模型算法、數據研發的門檻很高。其次,用戶要有自己的算法人員,需要從頭開始收集數據、標注數據,然后做模型等,經過復雜的研發流程,最后才能走到最核心的業務邏輯上。
而有了大模型,這些問題都可以得到解決或緩解,并對AI模型的構建及應用產生極大影響。在算法基礎設施層面,開源開放的大模型,使得開發者不需要關心底層搭建的技術,就能直接調用大模型的能力。這相當于把AI應用的開發向上推了一大步,讓開發者聚焦應用最核心的業務邏輯,把跟模型相關的內容放在模型層面或算法基礎設施的層面。基于源1.0搭建的“劇本殺”游戲,可以直接復用源1.0的開源代碼,開發過程基本不需要寫代碼和調試代碼,就完成了整個應用的構建,從而可以把更多精力放在劇情內容等創意的創作上。
從“三要素”到“大模型”
AI變了嗎?
人工智能從前幾年強調“算力、算法、數據”,到現在大模型越來越受推崇。這反映了AI的哪些發展規律?AI的核心要素是否發生了變化?
吳韶華認為,AI的核心要素并沒有發生變化,大模型訓練更需要在“算力、算法、數據”三個層面開展創新。以“源1.0”大模型為例,在算法層面,面向效率和精度優化的大模型結構協同設計方法,針對Attention層進行結構優化,改進注意力機制聚焦文章內部聯系的學習;創新小樣本學習精度改進方法,在業界權威數據集上取得精度領先。
在算力層面,圍繞深度學習框架、訓練集群I/O、通信開展了深入優化,在僅采用2x200G互聯的情況下,“源1.0”在2128顆異構加速器集群上的算力效率達到45%,超出MT-NLG與GPT-3等國際知名模型。面向多元異構芯片,研發了大模型推理軟件框架,并在400顆國產芯片集群上實現了大模型彈性部署,將模型推理性能提高了數10倍,形成大模型+大算力的算法基礎設施建設的實踐成果。
在數據層面,當前主要存在中文訓練海量數據難獲取、難清洗等問題,浪潮海量數據過濾系統(MDFS)建立了從數據采集、粗濾、質量分類、精濾的全自動化的端到端數據工作流程,通過清洗866TB海量數據獲得5TB大規模高質量中文數據集。該數據集已經開源,并已廣泛應用于產業用戶的模型訓練中。
解“困”AI大規模產業化難題
業界普遍認為AI大模型當前面臨的主要瓶頸包括:算力資源受限、訓練成本高昂、人力投入巨大等。
在燧原科技產品市場部總經理高平看來,算力資源不足和成本昂貴的根本問題,其實是AI算力市場競爭不充分,目前國內AI訓練算力市場基本被海外大廠獨家壟斷,成本與資源受限問題是壟斷下的必然結果;其次,AI算力的技術發展在逐漸邁向成熟,面向AI計算的DSA架構在AI大模型如火如荼的發展趨勢下,將會具備很好的規模經濟效益,進而隨著技術發展取得更好的成本優勢;第三,人力投入大的問題主要是缺乏相應的標準規范,將會在產業發展到某個程度的時候得到解決,減少重復投入。
吳韶華認為,應用的碎片化、尤其是長尾場景應用的碎片化,仍是AI落地的難題。碎片化就意味著不同場景需要有針對性地建模,每個小場景都要從數據到模型、應用整個流程走一遍。此外,隨著數據的更新,模型也要更新。設想對于一家維護著上百個模型的企業,要同時更新上百個模型及應用,投入無疑是巨大的。
而大模型的出現可以說是生逢其時,它能夠將傳統煙囪式的、碎片化的AI應用開發轉向集中式開發。一方面,AI大模型具備很好的泛化能力,一個模型可以支撐各類不同應用,有效緩解碎片化開發反復建模的困境;另一方面,圍繞AI大模型構建的算法基礎設施,比如開放的API、開源的應用代碼等,使開發者無需關心底層技術,設置無需配置編程環境,就可以直接將應用構建于AI大模型的能力之上,在降低開發門檻的同時,讓開發人員將更多的精力聚焦在核心業務邏輯上。
AI大模型有望重塑產業格局
高平認為,訓練大模型所需要的海量算力必須依靠AI算力集群來支撐,能否充分發揮集群的整體效能,讓成本昂貴的AI算力能算盡其用,是降低大模型訓練成本的關鍵。燧原科技打造了基于液冷技術的AI集群訓練產品“云燧智算機CloudBlazer POD”,通過軟件層面(模型和框架)與硬件基礎設施(計算、存儲、網絡)的協同優化,能最大化算力利用率,在實際部署的千卡訓練集群上實現了0.95的線性加速比。同時,使數據中心PUE可以達到1.1,從而大大降低了電力消耗,進一步降低了成本。
“AI大模型的投入是AI技術邁向新臺階的必經之路,是解決產業碎片化的一種很好的方式,AI大模型的技術發展與商業落地,也將會重塑目前的AI算力市場格局與AI應用市場格局”, 高平表示,“未來,大模型的數量將遠遠少于目前的模型數量,這也有利于AI芯片針對性的設計開發與優化,是AI算力企業生態建立的新機會,也可以預期,基于DSA架構的AI芯片會在大模型的發展下大放異彩。”
此外,他認為大模型應用會形成新的上下游產業鏈,同時掌握大規模算力與數據的大型企業會把握產業鏈的上游;下游小企業利用大模型的能力,結合對行業理解的優勢,能低成本地把AI技術應用到社會的各個方面。這將會是成熟的、進入良性循環的AI落地模式。
寫在最后
一直以來,AI的研發多數都依賴于模型:一是用數據訓練模型;二是基于數據得到更好的模型結果。這就離不開各個環節的分工,找數據、標注數據,AI專業人士調參……通過多個環節勞動成果的聚合,最終實現AI的落地。也正是這樣高度分散且具有壁壘的分工,對AI的大規模產業化帶來挑戰。從目前各大企業、研究機構對AI大模型的愿景,它將能夠很好地解決這些難題。
不過,也有人認為AI大模型本質上不過是深度學習的“加強版”,通過給模型“填喂”大數據提高其自學習能力,進而實現更強的智能程度。
但正如本文受訪者所介紹,通過在算法、數據等層面的創新,它可以通過零樣本、小樣本學習精度的提升、高質量數據集的優化等,進一步提升泛化能力和效率,這是AI產業全鏈條的創新,而不僅僅只是追求更大的模型。
它可能是走向強人工智能的必經之路,也或許只是過渡手段,但不管怎么說,它已經越來越清晰地呈現出了魅力。
更多信息可以來這里獲取==>>電子技術應用-AET<<