《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 一種多教師模型知識蒸餾深度神經網絡模型壓縮算法
一種多教師模型知識蒸餾深度神經網絡模型壓縮算法
2023年電子技術應用第8期
顧明珠1,2,明瑞成2,邱創一1,2,王新文1,2
(1.福州大學 先進制造學院,福建 泉州 362000;2.中國科學院海西研究院泉州裝備制造研究中心,福建 泉州 362000)
摘要: 為了能將龐大的深度學習模型壓縮后部署到算力和存儲能力有限的設備中時盡可能減小精度損失,對知識蒸餾模型壓縮方法進行研究,提出了一種改進后帶篩選的多教師模型知識蒸餾壓縮算法。利用多教師模型的集成優勢,以各教師模型的預測交叉熵為篩選的量化標準篩選出表現更好的教師模型對學生進行指導,并讓學生模型從教師模型的特征層開始提取信息,同時讓表現更好的教師模型在指導中更具有話語權。在CIFAR100數據集上的VGG13等分類模型實驗結果表明,與其他壓縮算法相比在最終得到的學生模型大小相同的情況下,精度上有著更好的表現。
中圖分類號:TP399 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.233812
中文引用格式: 顧明珠,明瑞成,邱創一,等. 一種多教師模型知識蒸餾深度神經網絡模型壓縮算法[J]. 電子技術應用,2023,49(8):7-12.
英文引用格式: Gu Mingzhu,Ming Ruicheng,Qiu Chuangyi,et al. A multi-teacher knowledge distillation model compression algorithm for deep neural network[J]. Application of Electronic Technique,2023,49(8):7-12.
A multi-teacher knowledge distillation model compression algorithm for deep neural network
Gu Mingzhu1,2,Ming Ruicheng2,Qiu Chuangyi1,2,Wang Xinwen1,2
(1.School of Advanced Manufacturing, Fuzhou University, Quanzhou 362000, China; 2.Quanzhou Institute of Equipment Manufacturing,Haixi Institutes Chinese Academy of Sciences,Quanzhou 362000, China)
Abstract: In order to minimize the accuracy loss when compressing huge deep learning models and deploying them to devices with limited computing power and storage capacity, a knowledge distillation model compression method is investigated and an improved multi-teacher model knowledge distillation compression algorithm with filtering is proposed. Taking advantage of the integration of multi-teacher models, the better-performing teacher models are screened for student instruction using the predicted cross-entropy of each teacher model as the quantitative criterion for screening, and the student models are allowed to extract information starting from the feature layer of the teacher models, while the better-performing teacher models are allowed to have more say in the instruction. The experimental results of classification models such as VGG13 on the CIFAR100 dataset show that the multi-teacher model compression method in this paper has better performance in terms of accuracy compared with other compression algorithms with the same size of the final obtained student models.
Key words : model compression;distillation of knowledge;multi-teacher model;cross entropy;feature layer

0 引言

隨著人工智能技術發展,要將越來越龐大的的模型部署到實際的工業社會中時,相應硬件的算力要求和存儲要求成為了最大障礙。因此,為加快人工智能技術在社會生活和工業的廣泛使用,越來越多的學者們對深度學習模型進行輕量化壓縮進行研究[1],而知識蒸餾方法已然成為比較主流的模型輕量化方法[2]。

知識蒸餾是指利用已經訓練好的大型深度學習模型輔助訓練出一個小型模型,其中大型模型稱為教師模型,起到監督和輔助小型模型訓練的作用。小型模型稱為學生模型,接受來自教師模型的知識,并最終用于實際部署。2015年Hinton[3]首次提出了知識蒸餾這一概念以來,研究者們開始對壓縮后如何保證學生模型精度這一問題進行研究。知識蒸餾從教師模型規模分為單教師模型的蒸餾和多教師模型知識蒸餾兩類。單教師模型即只使用一個教師模型對學生模型進行蒸餾,如Romero[4]將學生模型的網絡設計成較細且層數較深的形狀,并且將學生模型和教師模型的特征層連接,讓學生模型從教師模型的特征層提層知識。Chen[5]等在蒸餾中加入GAN結構,模擬原始數據集擴大數據量提供給新的模型進行知識蒸餾。Liu[6]等人將NAS引入知識蒸餾,根據教師模型結構從NAS中選擇最契合的學生網絡與之匹配以達到最佳蒸餾效果,但NAS需要巨大內存使該方法難以大面積推廣。Dai[7]等提出利用教師模型和學生模型預測實例的差異,提出實例差異的評估指標,并利用可區分的實例進行蒸餾。知識蒸餾中學生網絡的知識大部分來源于教師模型,因此由單個教師模型知識蒸餾得到的學生模型精度上限受限于對應的教師模型,難以有很大提升。



本文詳細內容請下載:http://m.viuna.cn/resource/share/2000005484




作者信息:

顧明珠1,2,明瑞成2,邱創一1,2,王新文1,2

(1.福州大學 先進制造學院,福建 泉州 362000;2.中國科學院海西研究院泉州裝備制造研究中心,福建 泉州 362000)

微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 欧美一级第一免费高清 | 国产精品成人免费视频99 | 欧美不卡精品中文字幕日韩 | 在线播放交视频 | 中文字幕日韩高清版毛片 | 亚洲福利一区二区三区 | 亚洲日本中文字幕区 | 日韩系列第一页 | 刺激花蒂抽搐视频在线看 | 久久成人免费观看全部免费 | 亚洲不卡一区二区三区 | 精品国产91乱码一区二区三区 | 国产精品国产精品国产三级普 | 欧美日本一区二区三区道 | 日本理论午夜中文字幕第一页 | 日本一区二区三区在线观看视频 | 在线播放性xxx欧美 在线播放你懂的 | 狠狠操网址 | 97在线 | 亚洲 | 制服 丝袜 亚洲 中文 综合 | 中文字幕日韩国产 | 中文字幕禁忌乱偷在线 | 99国产精品久久久久久久成人热 | 免费鲁丝片一级在线观看 | 午夜国产在线视频 | 日韩视频高清免费看 | 日韩欧美亚洲国产高清在线 | 免费一级毛片在线播放不收费 | 噜噜噜噜私人影院av线观看 | 狠狠大日本亚洲香蕉亚洲 | 在线你懂得| 国产无遮挡男女羞羞影院在线播放 | 1024人成网站色 | 久草手机在线观看视频 | 天天噜天天射 | 日韩在线第三页 | 免费观看成人www精品视频在线 | 无遮挡黄动漫在线观看播放 | 国产一区二卡三区四区 | 黄色免费毛片 | 草草在线视频 |