除了芯片設計產業,騰訊也將重點布局云渲染、生命科學等多個高性能計算賽道。
隨著上云和用云的需求逐漸深化,云廠商在積極往行業滲透,打造最佳客戶實踐。
不久前,騰訊云聯合速石科技為芯片設計企業燧原科技,打造了一個面向HPC(高性能計算)場景的行業解決方案。該方案基于騰訊和速石科技共建的一站式芯片設計研發云平臺,快速自動地調用騰訊云IaaS資源構建仿真環境,滿足了燧原科技的業務彈性需求,提升了整體的項目研發效率。
“它是一個可見的有巨大潛力的藍海”,騰訊云高性能計算行業高級經理Kevin說,騰訊云會在這方面加大投入。據數智前線獲悉,除了芯片設計產業,騰訊也將重點布局云渲染、生命科學等多個高性能計算賽道。
01
芯片設計產業上云正在成為趨勢
燧原科技作為國內領先的AI芯片設計企業,當初創造過僅用18個月就將技術門檻很高的AI訓練芯片一次性流片成功的紀錄。
但隨著工藝制程越來越先進,燧原也面臨著IT資源和效率無法滿足業務需要的矛盾。
芯片的研發周期通常都比較緊張,尤其是大芯片,中后期經常是按天來做任務排期。而行業內普遍采用的是自建IDC(數據中心),Kevin告訴數智前線,這么做主要是當時的芯片工藝沒那么先進,對算力的需求也沒那么大。
而且,燧原科技IT負責人Vincent透露,芯片項目在前期會做大量論證和規劃,包括需要多少算力和存儲。但問題在于,在項目推進過程中經常會有變更,包括制程的改進、功能變化及性能指標調整。這種變更會造成大量突發的算力需求。如果要通過采買服務器或者是租借服務器的方式來滿足需求,從部署、上線測試,需要相當長的一段時間業務團隊才能用上這些算力,影響研發進度。
這樣的效率顯然是無法接受的。尤其是這幾年的疫情導致采買硬件的周期不可控,但芯片項目周期是明確的,這就意味著,芯片設計企業要面臨一個不確定的IT資產的風險。比如一天之內要準備一兩百臺服務器,只有上云才能夠做到,如果是原有的IT流程,從確認服務器型號到采購,從安裝服務器上機柜到機房運維,最快要8到12周,而且IT資金占用成本太高。
“這是我們上云的一個契機吧。”Vincent提到。
大芯片設計周期超過12個月,包括產品定義、前端設計、IP驗證、SOC驗證、綜合、布局布線等多個階段,不同階段對算力的需求不相同。驗證環節是算力使用的高峰期。所以,燧原也選擇將部分仿真驗證搬到云上,“前端IP驗證的過程基本都上云了,后續我們肯定是希望把整個彈性的部分盡量都上云。”燧原科技項目負責人Eli說。
燧原有大量彈性作業的需求,比如需要在同一個時間配置數百臺的服務器,對穩定性和實時響應的要求非常高。目前,騰訊云聯合速石可以做到讓客戶在1小時內快速把仿真作業跑起來,讓客戶在有限時間更頻繁地去跑仿真和驗證任務,提高流片前的成功率。同時基于速石對業務場景優化和CAD方面的能力,幫助燧原整體Job運行時間降低了50%,加快了整個項目的研發進度。
而且,芯片設計行業如今已經進入到7nm甚至3nm時代,一顆芯片上會有幾百億級的晶體管,它對算力的需求會大大增加。這就意味著,芯片企業在高峰期的算力需求非常明顯,燧原等芯片設計企業開始向云廠商尋求彈性的算力解決方案。
“上云是一個行業趨勢。”Vincent說,“都在嘗試,但全部都上云還需要一些時間。”
02
安全、效率和成本的鐵三角
芯片設計企業最核心的是各種芯片代碼和知識產權,相比于很多行業,這個賽道對數據安全有著更高的要求。
燧原科技在上云的態度是,所有的數據要放在本地,只有彈性的部分在云上,中間不做數據存儲。所以,騰訊云和速石在燧原的建議和啟發下,大家探索出了“存算分離”的混合云計算架構,并且花了五六個月時間去驗證。
它能夠在保障核心數據、代碼存儲在本地的前提下,通過速石的調度平臺與本地計算集群打通,使得計算任務能夠靈活選取本地或云端算力隊列。
速石科技技術總監陳琳濤透露,此次采用的存算分離方案本質上是一個混合云方案,在燧原的項目中,該方案面臨進一步的技術挑戰,例如在整個混合云建設架構上,對網絡的時延、帶寬的吞吐率和效率的要求都非常高,這就要求三方共同在這個項目里尋求最優的架構布置方式。
Vincent坦言,因為做了存算分離的架構,數據在本地,所以企業對安全的擔憂會有降低。
以前的存算分離,是在同一自治域內,比如都在騰訊云上實現。但現在燧原的方案是在兩個自治域內,混合云部署,這增加了物理距離,而且各種接口的調度變得更加復雜,更加考驗云廠商和合作伙伴的能力。而速石平臺不改變用戶的使用習慣,讓使用者無感地調用云資源,對資源的調用更加便捷,減少上云的學習成本。
這也是云廠商在深入行業時經常遇到的難題。騰訊云和速石之前考慮的是直接把客戶的數據上云,方便高效。但溝通之后發現,芯片客戶對數據安全的要求,還是采用混合云存算分離的架構最為合適。騰訊云目前僅做算力的支撐,速石平臺提供自動化高效的環境構建,燧原的知識代碼等企業核心數據都是放在線下。不過,在Kevin看來,有些不敏感的數據理論上可以上云,通過緩存技術來提高仿真效率。
Kevin告訴數智前線,早期初創企業,存量數據和存量資產少,對安全沒那么大顧慮,使用全云方案是首選,但規模大了之后,很多企業則傾向采用混合云架構。
而且,很多芯片設計企業以前就有很多IDC資產,如何把原有的資源利用起來,也是企業的訴求,可以比較好的平衡既有資產的投資投入,同時又兼顧云的彈性、靈活、快捷、便捷。“所以從這個角度上來說,混合云是目前來看一個比較好的選擇。”
像燧原并沒有將全部業務搬到云上,其中一部分依然用到了本地的算力,比如項目前期運行還是更適合本地已有的算力。事實上,很多芯片設計企業還是以本地為主,云上做彈性的部分。
混合云的部署方式,對IT成本的節約也在逐漸成為共識。
燧原算過一筆賬,如果自己采買服務器、自建機房,按照三五年的周期財務進行對比,每個月均攤的成本會比每個月上云均攤的成本更低。但如果從節省時間和人力、提升效率以及整體的綜合成本考慮,上云的優勢還是非常明顯。因為云不需要水電,也不需要自己運維,這部分都是省下來的,而且快速部署和彈性擴容的能力,能讓昂貴的研發人員提高效率,縮短研發周期。
除了采用存算分離的架構,騰訊云聯合速石也為燧原等芯片設計客戶打造了從終端到云端的完整安全方案:在終端,騰訊云的零信任安全的iOA方案,可以保障燧原全國各地的研發人員,能無縫體驗一致的仿真環境,同時確保終端安全、信息保護以及一些漏洞的保護。
在云端,使用了騰訊的主機安全,保障整個計算環境是安全授信的,通過這個部分確保整個計算過程不會有入侵、數據泄露、勒索病毒等等的問題。甚至是傳輸層面,騰訊云與燧原之間有一條超大帶寬的網絡保障,確保了整個傳輸的通道安全可信。
不難發現,通過存算分離的架構和混合云的部署方案,既滿足了對彈性算力和效率的需要,又能滿足節約成本和數據安全的需要。而這些都是企業在上云和用云過程中最在意的東西,也是云廠商需要重視和解決的方面。
目前,“存算分離”的混合云架構已經幫助燧原節省了可觀的IT投入,任務并發量可以通過云端彈性同步提高,同時部分仿真周期縮短30%-50%。
當然,Eli也提到,現階段使用這一套三方共創的存算分離方案滿足了部分業務在彈性算力使用量上的需求去做的各種定義。而下一步我們還要進一步優化,提升使用效率,“如何更高效的利用云上機器,如何契合業務使用進行高效優化,并遷移更多的業務,這個是我們接下來要做的事情。”
不難發現,通過存算分離的架構和混合云的部署方案,既滿足了對彈性算力和效率的需要,又能滿足節約成本和數據安全的需要。
未來,GPU加速芯片仿真及提供智能芯片設計優化是行業的新方向,騰訊云也將與國內外EDA軟件合作共建加速仿真生態,為芯片仿真作業帶來數倍的加速并提供AI智能PPA優化能力。同時騰訊云也在嘗試探討云端開發,把芯片設計前流程部署云上,基于全云構建芯片設計流程,進一步提升大芯片研發設計效率。在高并發場景下,騰訊云通過遨馳云原生操作系統的海量大規模調度能力,及豐富多元的裸金屬實例、 GPU 實例,在芯片的仿真驗證和性能對比測試環節,可一站式完成多代次,多卡型的驗證工作,節省自建購買費用,極大提升部署效率和測試效率。
更多信息可以來這里獲取==>>電子技術應用-AET<<