成品AV小说区在线观看_亚洲av午夜福利精品_久久精品久久91_中文字幕在线永久在线视频2018,亚洲日本本道a,亚洲六月丁香婷婷综合,亚洲色欲色欲WWW在线成人网

職稱論文咨詢網,專業提供留學生論文、職稱發表論文等各類論文學術咨詢服務的論文網站。

當前位置:首頁 > 論文百科

深度神經網絡壓縮與加速綜述-經濟職稱論文發表范文

來源:職稱論文咨詢網發布時間:2022-06-05 21:22:55
摘要:近年來,隨著圖形處理器性能的飛速提升,深度神經網絡取得了巨大的發展成就,在許多人工智能任務中屢創佳績。然而,主流的深度學習網絡模型由于存在計算復雜度高、內存占用較大、耗時長等缺陷,難以部署在計算資源受限的移動設備或時延要求嚴格的應用中。因此,在不顯著影響模型精度的前提下,通過對深度神經網絡進行壓縮和加速來輕量化模型逐漸引起研究者們的重視。本文回顧了近年來的深度神經網絡壓縮和加速技術。這些技術分為四類:參數量化、模型剪枝、輕量型卷積核設計和知識蒸餾。對于每個技術類別,本文首先分析了各自的性能及存在的缺陷。另外,本文總結了模型壓縮與加速的性能評估方法。最后,討論了模型壓縮與加速領域存在的挑戰和未來研究的可能方向。   關鍵詞:深度神經網絡壓縮與加速;深度學習;模型剪枝;知識蒸餾;參數量化   1引言   近年來,深度神經網絡DeepNeuralNetwork,DNN)受到了學術界和工業界的廣泛關注,被大量應用于人工智能各個領域。然而,深度神經網絡的成功很大程度上依賴于GPU(GraphicProcessingUnit,GPU)計算能力的發展。大型深度神經網絡存在結構復雜、層級較多、節點數量巨大等特點,例如早期在ILSVRC競賽中取得了重大突破的AlexNet是針對圖像分類任務而設計的卷積神經網絡,僅由個卷積層與個全連接層組成,所含參數量超過千萬,模型大小超過240MB。   此外,業界廣泛使用的模型VGG16則擁有1.44億個參數,模型大小超過00MB,ResNet152擁有0.57億個參數,模型大小達到230MB。采用上述模型對一幅224×224的彩色圖像進行分類,分別需要進行150億次和13億次浮點型計算。另外,由于ResNet系列模型具有復雜的分支結構,雖然其參數量相較于具有平坦結構的GG模型更小,但在實際訓練和推理中耗時更長。   神經網絡論文范例: 基于樹分類器神經網絡的雷暴預測方法   可見,主流深度學習模型的存儲和計算成本對于具有嚴格時延約束條件的實時應用來說過于高昂。隨著移動端設備的普及和市場規模的擴大,工業界迫切需要將深度學習模型部署到資源有限的邊緣設備上。然而嵌入式設備和現場可編程門陣列(FieldProgrammableGateArray,FPGA)所具有的內存容量、計算資源與GPU相差幾個數量級,面對龐大的神經網絡模型顯得捉襟見肘,因此模型壓縮及加速的工作變得至關重要。目前,根據不同壓縮與加速方法的性質,深度神經網絡的壓縮和加速方法可分為四類:參數量化、模型剪枝、輕量型卷積核設計和知識蒸餾。   其中,基于參數量化的方法是降低權重參數的存儲位數;基于參數剪枝的方法是通過去除權重參數中的非關鍵冗余部分來減少參數量;基于輕量型卷積核設計的方法從濾波結構乃至卷積方式的層面進行改進設計,從而降低計算復雜度;基于知識蒸餾的方法利用知識遷移來訓練一個緊湊的網絡模型且能復現大型網絡的性能。   我們將在下面的章節中分別對它們的特性和優缺點進行分析。具體地,我們將在后續章節中作進一步的介紹。本文剩余部分的安排如下:第節介紹模型壓縮的主流方法;第節介紹常用數據集與性能評價準則;第節給出未來研究方向的一些相關探討;第節給出總結。模型壓縮方法本節將按照參數量化、模型剪枝、輕量型卷積核設計以及知識蒸餾的順序進行介紹。   2.1參數量化   參數量化通過減少存儲權重參數及激活值所需的比特位數來壓縮原始網絡。通過該方法,網絡中權值和激活值都會被量化,并且浮點乘法累加操作(MultiplyAccumulate)可以被低比特的乘法累加操作代替。因此,使用降低比特數的方法可以顯著減少內存存儲占用和計算資源的耗費。Gong等人[1]和Wu等人[2]通過means聚類實現參數共享,只需要存儲作為權重索引值的個質心而不是所有權重值,顯著減少了內存開銷。   Gupta等人[3]在基于隨機舍入的CNN(ConvolutionalNeuralNetwork)訓練中采用了16位定點數表示,顯著減少了模型的內存占用和浮點運算,而分類精度幾乎沒有損失。進一步地,Han等人[4]提出的方法利用權值共享對權值進行量化,然后對量化后的權值和索引表進行霍夫曼編碼,以縮減模型大小。如圖所示,首先對原始網絡進行訓練,學習神經元間的連接(connection),將權重較小的連接剪除,然后對稀疏網絡進行重訓練,學習得到緊湊的新網絡。Choi等人[5]證明了利用Hessian權重來衡量網絡權值重要性的可行性,并提出了一種聚類參數,用于最小化Hessian加權量化誤差。Vanhoucke等人[6]的研究表明,將權重值量化至位,能夠顯著提升推理速度,同時保證最小的精度損失。   Jacob等人[7]提出一種量化框架,在訓練時保留位全精度存儲方式,而在前向推理時對權重值與激活值進行位量化,從而用整數運算替代浮點數運算,顯著降低了運算復雜度。目前位量化已經在工業界得到了廣泛應用,除上述方法外,英偉達Nvidia)公司推出了TensorRTint量化工具,對于正負分布均勻的權重值與激活值采用最大值映射,將取值范圍按一定比例映射至127,127),對于分布不均勻的值采用飽和截斷映射,即在映射前截斷部分區間,得到在正負區間對稱的截斷信息后再進行量化映射。值得一提的是,二值神經網絡是網絡量化的極端情況。   一般情況下,網絡模型中各項參數都采取32位單精度浮點數進行存儲,而二值網絡中將參數及特征圖激活值都以+1,形式存儲,每個值僅占用1比特內存,類似地,三值網絡[8]采用+1, 的組合來量化權重。早期對網絡二值化進行探索的幾項工作,如BinaryConnect[9],BinaryNet[10]和XNOR1]等都是在模型訓練過程中直接學習二值化權值或激活值。然而,由于大部分二值網絡設計在利用矩陣近似的思想時未能充分考慮二值化帶來的精度損失,并且網絡量化將參數離散化,加劇了訓練的不穩定性,在對諸如GoogleNet等大型CNN進行量化壓縮后,容易導致二值網絡在分類、檢測任務中的精度顯著降低。   為解決這個問題,ou等人[12]的工作提出了一種近似牛頓算法(proximalNewtonalgorithm),該算法利用對角Hessian近似將二值權重的損失最小化。iu等人[13]提出一種可求導的軟性量化(Differentiable SoftQuantization,DSQ),使網絡在反向傳播過程中獲得更精確的梯度,以彌補二值網絡前向傳播過程中的量化損失。   Lin等人[14]提出一種對權重進行隨機二值化處理的壓縮方法,隨機二值化不僅能夠減少浮點運算次數,還具有一定的正則化效果,能夠抑制二值化造成的精度損失。Zhang等人[15]認為,由于DNN的權重、激活值在各個卷積層的數值分布是不同的,因此對整個網絡采取統一標準的量化策略缺乏靈活性。他們提出一種可習得的量化器,即聯合訓練模型與其量化器,在訓練過程中逐層優化量化策略,以提升壓縮后的模型精度。   Cai等人[16]提出一種基于半波高斯量化(halfwaveGaussianQuantization)的近似方法,在二值化權重的基礎上,將激活函數ReLU(RectifiedLinearUnit)進行近似處理,以適應二值化網絡的反向傳播計算,使學習過程更加穩定,減小精度損失。Bethge等人[17]中提出一種二值化網絡結構MeliusNet,該結構采用雙塊設計,能夠連續地提升特征數量,此外該結構對一些保持32位存儲的卷積層進行重新設計,極大地減少了運算量。   2.2模型剪枝   模型剪枝是模型壓縮和加速中使用最為廣泛的研究方法。模型剪枝的基本思想是通過在預訓練的DNN模型中剪除冗余的、信息量少的權重,將網絡結構稀疏化,從而降低內存開銷,加速推理過程。剪枝方法包括非結構化剪枝和結構化剪枝。非結構化剪枝是最細粒度的方法,其操作對象是濾波(filter)中的每個權重;而結構化剪枝的操作對象是整個濾波,乃至整個卷積層這樣的結構化信息。   2.2.1非結構化剪枝   早期的剪枝方法大都基于非結構化剪枝,由于它裁剪的粒度為單個神經元,因此在對卷積核進行非結構化剪枝時,得到稀疏分布的卷積核,即存在較多元素為0的矩陣,因此可以有效減少內存占用,加速推理。   2.2.2結構化剪枝   目前,在基于結構化剪枝的研究工作當中已涌現出許多出色的研究成果,解決了無法對稀疏矩陣計算進行加速的問題。此類方法遵循濾波顯著性準則(即判別濾波對于模型性能重要性的準則),直接批量地剪除非顯著性濾波,達到壓縮目的。Wen等人[24]利用GroupLasso對模型中不同粒度的結構,包括濾波、通道、濾波形狀、層深度(filters,channels,filtershapes,layerdepth)進行正則化,并將此正則化項加入目標函數,進行結構化稀疏訓練。Zhou等人[25]向目標函數中加入稀疏性局限(sparseconstraints),然后在訓練階段通過稀疏限制減少神經元數量。   該方法針對其特殊的優化過程還提出前后項分裂法,其作用是在標準的反向傳播過程中,可以繞過不易求導的稀疏限制項。通過計算濾波的范數值,直接判斷濾波的重要性的方法也相繼被提出[26],該方法首先計算所有濾波的L1范數,逐層刪除范數值低于閾值的濾波,同時移除該濾波在當前層生成的特征圖(featuremap)以及該特征圖在下一層中對應的濾波通道,剪枝后再進行重訓練,恢復模型的精度。Liu等人[27]提出一種介于粗、細粒度之間的通道級別剪枝。   該方法向存在于每個卷積層的批量標準化(BatchNormalization)中的縮放因子γ添加稀疏正則限制,并將此正則項加入目標函數,與模型損失函數聯合訓練,受正則化限制,部分縮放因子將衰減至接近的區域。由于批量標準化中超參數γ的大小能夠直接改變特征圖的分布,進而影響模型的表達能力,因此較小的縮放因子對應著全局貢獻度較低的通道,對這些通道進行剪除,再通過微調(finetune)恢復模型精度,有效降低了網絡的復雜度。不同于前述方法,Luo等人[28]越過當前層濾波,著眼于下一層濾波通道的顯著性,建立了一個有效的通道選擇優化函數,實現對下一層卷積核中冗余通道及其對應當前層濾波的剪枝。   3數據集與性能評估準則   3.1性能評估準則   大多數研究都是采用每輪(epoch)訓練的平均訓練時間來衡量運行時間。對于不同的訓練集,一般都采用Top正確率和Top正確率兩種分類精度,其中Top正確率指概率最大的預測結果對應正確標簽的概率,Top正確率指概率最大的個預測結果中包含正確標簽的概率。   4總結和展望   本文首先概述了深度神經網絡壓縮與加速技術的研究背景;接著介紹了深度神經網絡模型壓縮及加速的四類主要方法,包括參數量化、模型剪枝、輕量型卷積核設計以及知識蒸餾;之后介紹分析了模型壓縮與加速領域常用的數據集與性能評估準則;接下來對各類方法進行優劣分析。   4.1方法優劣分析   1)參數量化:基于參數量化的壓縮方法在一定程度上縮減了模型大小,使得模型能夠在計算資源與存儲空間受限的移動端和嵌入式設備上高效運行。但量化后的權重和激活降低了網絡的容量和特征圖的質量,往往使得模型的表達能力大打折扣,另外,量化會向梯度信息中引入噪聲,導致基于梯度下降法的訓練過程收斂難度增加。這些缺陷會造成量化后網絡的精度低于原始網絡,二值化網絡中精度損失更加嚴重。因此基于網絡量化的壓縮方法具有一定局限性,但量化具有較好的兼容性,在實際應用中常與其他壓縮方法相結合。   2)模型剪枝:基于模型剪枝的壓縮方法具有直觀的物理意義,在實際應用中也展現出理想的壓縮性能,但該方法也存在一定缺陷。首先,相比于其他壓縮方法,基于L1或L2正則化的剪枝收斂較慢,需要更多次數的迭代訓練。其次,剪枝相當于優化網絡的整體結構,對具有不同結構特點的網絡模型往往不能采用完全相同的剪枝策略。對于不同類型網絡在不同訓練數據集下的剪枝方法還不能完全統一。   此外,人工設計的剪枝方法需要根據不同層級的敏感度,手動調節剪枝閾值,重復微調參數,實現過程繁瑣。而自動化剪枝能夠綜合評估多種剪枝方案,自動搜索最優結構,確定復雜的超參數,但對于大型網絡來說,搜索空間過于龐大,對算力要求極高,耗時較長。   3)輕量型卷積核設計:基于輕量型卷積核設計的壓縮方法對原始卷積核進行緊湊設計或直接采用運算量遠小于標準卷積的新式卷積計算方式,能夠有效降低參數量,大幅減少浮點運算次數。但囿于輕量型卷積核設計的獨特性,壓縮后的模型十分緊湊,較難在其中綜合應用其他壓縮技術來進一步提升效果。另外,相比于大而深的原始模型,基于輕量型卷積核設計的網絡模型由于容量受限,訓練得到的特征泛化能力稍弱。   4)知識蒸餾:基于知識蒸餾的壓縮方法相當于用一個神經網絡訓練另一個神經網絡,將大型復雜網絡的知識遷移至小型簡易網絡中,利用小型網絡來實現擁有與大型網絡相同優越的性能和良好的泛化能力,并且顯著降低了所需存儲空間和計算資源。知識蒸餾的缺陷之一是只能應用于具有softmax分類器及交叉熵損失函數的分類任務,應用場景較為局限。另一個缺點是與其他類型的方法相比,基于知識蒸餾的壓縮方法在大型數據集的表現略差。   4.2未來發展趨勢   綜合以上對近期研究成果的分析可以得知,深度神經網絡壓縮與加速的研究仍然具有巨大的潛力和研究空間,未來的研究工作不僅需要進一步提高模型壓縮效率與推理速度,并且應打破學術界與工業界之間的壁壘。以下介紹模型壓縮與加速領域需要進一步探索和開發的方向。   1)與硬件緊密結合。針對卷積神經網絡在不同硬件平臺上的使用,提出一些與硬件緊密結合的壓縮方法就是未來方向之一。具體包括基于硬件的自動量化以及將硬件加速器的反饋信息引入算法設計環中。與硬件密切結合的模型壓縮方法可以使CNN具有更強的硬件平臺適應性,以應對端設備部署帶來的挑戰。   參考文獻   [1]GONGYunchao,LIULiu,YANGMing,etal.Compressingdeepconvolutionalnetworksusingvectorquantization[EB/OL].2014   [2]WUJiaxiang,LENGCong,WANGYuhang,etal.Quantizedconvolutionalneuralnetworksformobiledevices[C]//2016IEEEConferenceonComputerVisionandPatternRecognition(CVPR).LasVegas,NV,USA.IEEE,2016:48204828.   [3]GUPTAS,AGRAWALA,GOPALAKRISHNANK,etal.Deeplearningwithlimitednumericalprecision[C]//InternationalConferenceonMachineLearning.2015:17371746.   [4]HANSong,MAOHuizi,DALLYWJ.Deepcompression:Compressingdeepneuralnetworkswithpruning,trainedquantizationandhuffmancoding[J].rXivreprintarXiv:1510.00149,2015.   作者:曾煥強1,2胡浩麟2林向偉2侯軍輝3蔡燦輝1
相關閱讀
學術咨詢服務
?
主站蜘蛛池模板: 湘乡市| 湖北省| 岚皋县| 略阳县| 姜堰市| 克拉玛依市| 和静县| 萝北县| 北流市| 田林县| 广宁县| 昭觉县| 吉隆县| 平原县| 大理市| 正宁县| 杭锦旗| 定南县| 天门市| 兴业县| 天长市| 平阳县| 三门峡市| 慈利县| 江源县| 涞源县| 黄大仙区| 绥德县| 武宁县| 永清县| 贵南县| 昭平县| 棋牌| 麻江县| 柘荣县| 临西县| 罗江县| 桐乡市| 肇庆市| 安西县| 长汀县|