《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 面向數據共享的模型訓練服務系統
面向數據共享的模型訓練服務系統
網絡安全與數據治理 2期
魏宏原1,2,華 蓓1,2,林 飛1,2
(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027; 2.中國科學院無線光電通信重點實驗室,安徽 合肥230027)
摘要: 數據驅動的人工智能應用需要大數據支持,然而現實中因隱私保護等原因,數據往往互不流通,而以孤島形式存在。如何實現數據安全可用是當前亟待解決的問題。設計和實現了面向數據共享的模型訓練服務系統,通過向用戶提供數據功能服務接口而非數據本身,實現數據可用不可見。重點針對資源受限的數據共享平臺,設計了高效的資源分配和作業調度方法,特別是通過自動資源縮放來應對多變的工作負載,達到優化用戶體驗和提高資源利用的目的。實驗表明,相較于常規的作業調度方法,本系統在各種工作負載下都具有響應服務請求快、作業完成時間短的優點。
中圖分類號: TP14
文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.004
引用格式: 魏宏原,華蓓,林飛. 面向數據共享的模型訓練服務系統[J].網絡安全與數據治理,2022,41(2):20-29.
A model training service system for data sharing
Wei Hongyuan1,2,Hua Bei1,2,Lin Fei1,2
(1.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China; 2.CAS Key Laboratory of Wireless-Optical Communications,Hefei 230027,China)
Abstract: Data-driven artificial intelligence applications require the support of big data. However, in reality, most of the data do not circulate with each other due to privacy leakage. How to achieve data security and availability is an urgent problem to be solved. This paper designs and implements a data sharing-oriented model training service system. By providing users with data function service interfaces instead of the data itself, data availability is invisible. This paper focuses on resource-constrained data sharing platforms, and designs efficient resource allocation and job scheduling methods, especially through automatic resource scaling to cope with changing workloads, to optimize user experience and improve resource utilization. Experiments show that, compared with the conventional job scheduling method, the system has the advantages of fast response to service requests and short job completion time under various workloads.
Key words : data sharing;model training service;job schedule;resource allocation

0 引言

隨著物聯網、大數據、人工智能技術的發展,以及智慧城市、智慧醫療、電子商務等應用的廣泛普及,每天都有海量的數據產生,這些數據蘊涵了大量有價值的信息。但是另一方面,數據不足正成為當下制約人工智能發展的一大瓶頸。例如,深度神經網絡需要大量數據來訓練,但現實中大多數領域只有少量數據集可用,如自動駕駛只有數個公開數據集,醫學圖像領域不僅數據集少,且每個數據集僅包含數十或數百個病例。造成這種現象的原因主要有兩個方面,一是原始數據必須經過清洗和標注才能使用,而這一過程不僅費時費力,更可能需要專業人士的介入;二是目前各行各業的數據主要由政府和企業在收集,出于行業競爭、數據安全、管理制度等方面的考慮,這些數據不能被共享,形成了許許多多的數據孤島。如何在保護數據和使用數據之間取得平衡,是當下迫切需要解決的問題[1]。

一些企業和機構已經或正在建設數據共享和交易平臺來促進數據流通,如Exchange、數據堂、上海數據交易中心等。但目前這些平臺多以交易數據為主,用戶在付費之后擁有對數據的永久/指定期限訪問權,可以在數據上執行任意計算來挖掘感興趣的信息。這會帶來兩個問題,一是如果這些數據中包含敏感信息,直接開放給用戶下載會帶來數據安全問題;二是難以控制用戶對數據進行非法復制和傳播,數據可能被用于不正當用途。其實很多時候用戶只想利用數據來訓練他們需要的模型,對原始數據本身并不感興趣,向用戶提供數據的功能性服務而非直接提供數據,可以在一定程度上解決數據保護和數據使用之間的矛盾。比如,交通管理部門可在自有的城市出行數據上,為社會學研究人員訓練用于分析人群移動規律的數學模型。

本文提出面向數據共享的模型訓練服務系統,允許機構或企業利用自有數據集和自有計算資源,向用戶提供模型訓練服務(當然機構可以向用戶收費,但這不在本文討論的范圍內)。用戶只需指定需要的數據集并上傳自定義的模型結構(本系統主要考慮深度學習模型),系統可自動完成模型訓練作業,并向用戶返回訓練好的模型,真正實現“數據可用不可見”。提供數據的功能性服務接口而非數據本身,對于消除數據孤島、促進數據安全流通具有極為積極的作用




本文詳細內容請下載http://m.viuna.cn/resource/share/2000004854




作者信息:

魏宏原1,2,華  蓓1,2,林  飛1,2

(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027;

2.中國科學院無線光電通信重點實驗室,安徽 合肥230027)


微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 亚洲图片在线视频 | 国产拍拍视频 | aaa国产| 天天摸天天爽天天澡视频 | 日日摸日日碰夜夜爽视频网站 | 亚洲欧美高清视频 | 韩国福利视频一区二区 | 久久国产偷 | 国产高清美女一级a毛片久久 | 日本三级香港三级人妇gg在线 | 日本一区高清视频 | 欧美精品亚洲精品日韩专区 | 狠狠的撞进去嗯啊h女强男视频 | 最近中文字幕2019高清免费 | 第一国内永久免费福利视频 | 成人黄色一级视频 | 欧美极度极品另类 | 日本不卡免费高清一级视频 | 欧美高清视频一区 | 免费看h网站 | 91短视频官网| 丝袜网站在线观看 | 亚洲精品v欧美精品动漫精品 | 国产成人高清亚洲一区久久 | 黄色的网站免费 | 国产又黄又免费aaaa视频 | 波多野结衣视频免费在线观看 | 精品视频69v精品视频 | 全免费一级毛片在线播放 | 男女网站在线观看 | 久久在草 | 娇小被黑人爆出水黑人复古 | 亚洲毛片在线观看 | 永久免费看的啪啪网站 | 国产超级乱淫视频播放 | 成人动漫在线免费观看 | h视频在线免费观看 | 亚洲国产欧美一区 | 成年大片免费高清在线观看 | jizz视频护士 | 非洲精品性hd |