近日,國際權威研究機構 IDC(國際數據公司)最新發布的《中國 AI 云服務市場(2020 上半年)跟蹤》報告顯示,華為云一站式 AI 開發平臺 ModelArts 位居機器學習公有云服務中國市場份額第一位,高達 29%。
報告指出:華為在國內市場具有先天的認知優勢,開發者對于華為的技術、產品、品牌有著天然的認知和信賴。其中,華為云一站式 AI 開發平臺 ModelArts 在行業用戶中的主動提及率非常高。可以見得,在 ModelArts 平臺學習 AI 技術已經成為越來越多開發者的偏愛,ModelArts 也正逐漸成為行業 AI 落地的首選。
數據來源:IDC《中國 AI 云服務市場半年度研究報告,2020H1》
眾所周知,市場份額是產品是否好用的一個忠實反應。對于用戶來說,「好用」的標準非常簡單,即你的產品到底有沒有解決我的問題?比如能否實現降本增效,產品是否安全可控等等。
作為一站式 AI 開發平臺,華為云 ModelArts 的用戶所關注的問題也在這一范疇之內。具體來說,他們會關心:這個平臺上手門檻高不高?成本、效率高不高?我的數據隱私能得到保護嗎?我的模型我自己能把關嗎?
接下來,我們就從這些問題入手,看看市場份額第一的華為云 ModelArts 有沒有解決這些問題。
開發者和企業所看中的,
華為云 ModelArts 都滿足了嗎?
1. 門檻、成本和效率
一位從傳統 IT 轉向 AI 軟件研發的技術總監曾表示,在早期的研發階段,他們遇到了不少棘手的問題,比如從數據收集、處理,模型訓練、管理到發布,AI 開發基本都處于一種「鄉間作坊」的工作模式。這種工作方式不僅效率低下,而且不利于新人的培養,讓人才培訓成本居高不下。同時,模型上線后的工作性能受物理硬件的限制,橫向擴展耗時耗力,資源利用率也無法有效保障。
這位技術總監提到的問題主要體現在門檻、成本和效率幾個方面。在門檻方面,推動 AI 發展的核心四要素——算法、算力、數據和知識,每一個都存在門檻。在成本方面,傳統的「鄉間作坊」工作模式開發流程冗長,涉及的人員較多,人力、物力成本居高不下;在效率方面,這種工作模式容易重復造輪子,資源復用率低。
在種種困境下,華為云 ModelArts 走進了這些開發團隊的視野。
為什么是 ModelArts?
在自然語言處理領域,BERT 的問世是一個里程碑事件。它讓整個社區嘗到了「預訓練」的甜頭:只需要簡單的遷移策略,就能讓模型在下游任務中獲得良好的性能,使該領域由原來的手工調參、依靠機器學習專家的階段,進入到大規模、可復制的大工業生產的階段。這一經驗同樣可以復制到其他領域,華為云 ModelArts 的通用預訓練模型架構——EI-Backbone 就是這一路徑的開拓者之一。
EI-Backbone 通過整合算法模型、算力、數據和知識,可以進行模型選擇自動設計、參數配置自動調優,在分鐘級內完成模型訓練,無需依仗專家經驗就能大幅提升模型精度,顯著降低 AI 使用門檻,縮短開發流程,提升開發性能。該架構提供了一種「預訓練模型 + 小樣本微調」的高效訓練模式,能夠讓開發者基于行業小樣本數據訓練高精度模型。這在醫療等優質數據稀缺的場景中尤其有用。以醫療影像分割為例,過去需要成百上千例標注數據才能進行的訓練,在 EI-Backbone 的加持下,只需要幾十例甚至十幾例標注數據即可完成,節省標注成本高達 90% 以上。
效率的提升和成本的節約還體現在算力方面。華為全聯接大會 2020 發布的最新版華為云 ModelArts 3.0 在集群規模、任務數量以及分布式訓練各個環節做了針對性優化,并支持彈性訓練。彈性訓練指的是華為云 ModelArts 提供的兩種模式:一是 Turbo 模式,可以充分利用空閑資源加速已有訓練作業,訓練速度可提升 10 倍以上,并且不影響模型的收斂精度;二是經濟模式,可以通過最大化資源利用率給開發者提供極致的性價比,在大多數典型場景下可以提升性價比 30% 以上。這種降本增效的成果在實際的業務場景中是非常可觀的,無論是對 AI 開發者的低成本快速上手的需求,還是對行業 AI 智能轉型升級來說,無疑都是最合適的選擇。
2. 對數據的掌控
AI 模型性能的提升離不開大量的多源數據。如果企業只用自己有限、單一來源的數據進行訓練,得到的模型可能不夠準確,或泛化性較差。在此背景下,各個數據擁有方不可避免地要進行合作。
但與之矛盾的是,很多行業的數據涉及用戶隱私、行業機密等問題,數據擁有者不愿或不能將數據上傳至一個數據中心進行模型訓練,從而形成了一個個的「煙囪」或「孤島」。
華為云 ModelArts 的用戶大多是這種類型,他們身處醫療、政務、金融等安全、隱私性要求極高的領域,因此必須對自己數據的流向進行嚴格把控,做到數據不出庫。
數據不能出庫,但模型的參數可以,這就是華為云 ModelArts 提供的聯邦學習解決思路。在華為云 ModelArts 3.0 下,用戶可以各自利用本地數據訓練模型,不交換數據本身,只用加密方式交換更新的模型參數,實現云邊協同訓練。此外,華為云 ModelArts 3.0 不僅支持橫向聯邦學習,處理對齊的數據,還支持縱向聯邦學習,可以輕松處理訓練樣本 ID 重疊多的數據。
對于使用華為云 ModelArts 實現行業 AI 落地的用戶來說,引入聯邦學習不僅解決了數據隱私問題,還節約了數據方面的成本。眾所周知,醫療、制藥等領域的數據標注難度非常大,需要領域專家的介入,因此成本非常高。通過聯邦學習,各個數據擁有方都可以在這一技術的保護下實現數據價值的交換,顯著降低成本。
3. 對模型的掌控
模型從實驗室走向生產環境是一個令人揪心的過程。開發者和企業會擔心這個模型精度不夠高、性能不夠好、可解釋性差、可信度低等問題。在這些都沒弄清楚之前,沒有人敢大規模部署這款模型。
華為云 ModelArts 的成功之處在于,它在一定程度上緩解了這種「不透明」所帶來的顧慮,將自動評估、診斷之后得到的模型精度、性能、可解釋性、可信度等信息展示在一塊「面板」上,讓用戶直觀地看到自己模型的基本情況。
而且,這種評估是非常精細的,僅精度方面就有準確率、精確率、召回率、F1 值、混淆矩陣、ROC 曲線、數據敏感度分析等多項指標。這些指標可以幫助用戶進行有針對性的調優,讓用戶做到「心中有數」,放心部署。
哪些行業已經用上了華為云 ModelArts?
當前,華為云 ModelArts 已經在金融、醫療、藥物研發、自動駕駛等多個領域得到了廣泛應用。
在金融領域,華為云 ModelArts 已經用于金融票據 OCR 識別。由于金融票據格式多樣,差別細微,需要 AI 專家進行長時間的票據 AI 訓練,因此業界識別準確率普遍不夠精準。針對票據模型開發訓練數據標注、模型訓練、調優和部署上的諸多難點,華為云 ModelArts 通過數據集分類、自動學習、遷移學習等方法,讓初級 AI 開發者無需調參等操作,輕松操作數據標注工具,完成部署。
在醫療領域,去年 11 月份,放射學領域國際頂級期刊《Radiology》發表了華為云 EI 創新孵化 lab、華中科技大學電信學院、華中科技大學同濟醫學院附屬協和醫院放射科聯合團隊的最新研究成果:運用華為云 ModelArts 開發的一套基于 CTA 影像的腦動脈瘤檢測算法。該算法靈敏度高達 97.5%,幫助醫生臨床診斷靈敏度提升約 10 個百分點,漏診率降低了 5 個百分點,同時有效縮短了醫生的診斷時間。
在藥物研發領域,2020 年,華為云 EI 與中國科學院上海藥物研究所簽署聯合創新合作協議,將華為自研的 FedAMP 算法和 AutoGenome 算法應用到藥物研發的 AI 任務中,精準預測藥物水溶解性、心臟毒性和激酶活性。中國科學院院士、中國科學院上海藥物研究所研究員蔣華良聯合華為云發布基于 ModelArts 平臺的藥物聯邦學習服務,以解決研發數據高壁壘、高成本以及高機密的問題。實踐證明,通過華為云 EI 聯邦學習訓練后的模型,準確度遠超傳統的聯邦學習和深度學習算法。
回顧過去的一年,華為云 ModelArts 在抗擊疫情方面也發揮了重要作用,其參與的聯合科研團隊在 2020 年 2 月份就篩選出了五種可能有效的新冠抗病毒藥物。此外,華為云還依托 AI 昇騰集群服務和 ModelArts 推出了 AI+CT 醫學影像分析服務,運用計算機視覺與醫學影像分析技術對患者肺部 CT 多發磨玻璃密度影(GGO)以及肺實變進行分割以及量化評價,并結合臨床信息和實驗室結果,輔助醫生更高效、精準地區分早期、進展期與重癥期,助力疫情防控工作。
技術賦能行業離不開一個低門檻、高效率同時又安全、可靠的工具。華為云 ModelArts 這類 AI 開發新工具的出現是實現技術普惠的重要條件,讓「學 AI,用 ModelArts」成為開發者群體的新風尚,亦將讓行業 AI 落地開拓者們親手觸碰到未來。