中文引用格式: 顧明珠,明瑞成,邱創一,等. 一種多教師模型知識蒸餾深度神經網絡模型壓縮算法[J]. 電子技術應用,2023,49(8):7-12.
英文引用格式: Gu Mingzhu,Ming Ruicheng,Qiu Chuangyi,et al. A multi-teacher knowledge distillation model compression algorithm for deep neural network[J]. Application of Electronic Technique,2023,49(8):7-12.
0 引言
隨著人工智能技術發展,要將越來越龐大的的模型部署到實際的工業社會中時,相應硬件的算力要求和存儲要求成為了最大障礙。因此,為加快人工智能技術在社會生活和工業的廣泛使用,越來越多的學者們對深度學習模型進行輕量化壓縮進行研究[1],而知識蒸餾方法已然成為比較主流的模型輕量化方法[2]。
知識蒸餾是指利用已經訓練好的大型深度學習模型輔助訓練出一個小型模型,其中大型模型稱為教師模型,起到監督和輔助小型模型訓練的作用。小型模型稱為學生模型,接受來自教師模型的知識,并最終用于實際部署。2015年Hinton[3]首次提出了知識蒸餾這一概念以來,研究者們開始對壓縮后如何保證學生模型精度這一問題進行研究。知識蒸餾從教師模型規模分為單教師模型的蒸餾和多教師模型知識蒸餾兩類。單教師模型即只使用一個教師模型對學生模型進行蒸餾,如Romero[4]將學生模型的網絡設計成較細且層數較深的形狀,并且將學生模型和教師模型的特征層連接,讓學生模型從教師模型的特征層提層知識。Chen[5]等在蒸餾中加入GAN結構,模擬原始數據集擴大數據量提供給新的模型進行知識蒸餾。Liu[6]等人將NAS引入知識蒸餾,根據教師模型結構從NAS中選擇最契合的學生網絡與之匹配以達到最佳蒸餾效果,但NAS需要巨大內存使該方法難以大面積推廣。Dai[7]等提出利用教師模型和學生模型預測實例的差異,提出實例差異的評估指標,并利用可區分的實例進行蒸餾。知識蒸餾中學生網絡的知識大部分來源于教師模型,因此由單個教師模型知識蒸餾得到的學生模型精度上限受限于對應的教師模型,難以有很大提升。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000005484
作者信息:
顧明珠1,2,明瑞成2,邱創一1,2,王新文1,2
(1.福州大學 先進制造學院,福建 泉州 362000;2.中國科學院海西研究院泉州裝備制造研究中心,福建 泉州 362000)