高效深度學(xué)習(xí) 模型壓縮與設(shè)計(jì) 版權(quán)信息
- ISBN:9787121480591
- 條形碼:9787121480591 ; 978-7-121-48059-1
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無
- 重量:暫無
- 所屬分類:>
高效深度學(xué)習(xí) 模型壓縮與設(shè)計(jì) 本書特色
全彩印制 高效模塊設(shè)計(jì)、模型剪枝、模型量化、模型二值化、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索、知識(shí)蒸餾、定制化硬件加速器的設(shè)計(jì)及大語言模型的加速和壓縮 高效模型壓縮與設(shè)計(jì),釋放大模型潛能,賦能千行百業(yè) 清華大學(xué)電子工程系汪玉 寧雪妃 作品 權(quán)威:出自芯片領(lǐng)域著名專家之手 系統(tǒng):梳理模型壓縮與設(shè)計(jì)關(guān)鍵技術(shù) 經(jīng)驗(yàn):提供實(shí)踐中總結(jié)的分析思路和經(jīng)驗(yàn) 前沿:結(jié)合大模型壓縮與加速
高效深度學(xué)習(xí) 模型壓縮與設(shè)計(jì) 內(nèi)容簡(jiǎn)介
本書系統(tǒng)地介紹了高效模型壓縮和模型設(shè)計(jì)的方法,在編寫上兼顧理論和實(shí)踐。本書主體部分詳細(xì)介紹了模型壓縮的方法論,包括高效模塊設(shè)計(jì)、模型剪枝、模型量化、模型二值化、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索、知識(shí)蒸餾幾大部分。另外,簡(jiǎn)要介紹了定制化硬件加速器的設(shè)計(jì)及大語言模型的加速和壓縮。
高效深度學(xué)習(xí) 模型壓縮與設(shè)計(jì) 目錄
1 緒論 2
1.1 神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展 2
1.2 神經(jīng)網(wǎng)絡(luò)的高效化需求 3
1.3 神經(jīng)網(wǎng)絡(luò)的高效化路徑 4
1.4 本書主要內(nèi)容 6
2 基礎(chǔ)知識(shí) 7
2.1 優(yōu)化問題 7
2.1.1 優(yōu)化問題的定義和分類 7
2.1.2 優(yōu)化方法的分類 9
2.2 卷積神經(jīng)網(wǎng)絡(luò)模型 10
2.2.1 基礎(chǔ)模塊 10
2.2.2 代表性模型介紹 13
2.3 視覺Transformer 模型 15
2.3.1 基礎(chǔ)模塊 16
2.3.2 模型分類與總結(jié) 18
第2部分 高效模型壓縮方法論
3 高效模塊設(shè)計(jì) 20
3.1 概述 20
3.2 代表性模型介紹 21
3.2.1 SqueezeNet 21
3.2.2 MobileNet 系列 22
3.2.3 ShuffleNet 系列 24
3.2.4 GhostNet 26
3.2.5 ConvNeXt 27
3.2.6 VoVNet 系列 28
3.2.7 RepVGG 29
3.3 高效模塊的5 個(gè)設(shè)計(jì)維度 30
3.4 本章小結(jié) 31
4 模型剪枝 32
4.1 模型剪枝的定義和分類 32
4.2 模型敏感度分析方法 34
4.2.1 層內(nèi)和層間敏感度分析 34
4.2.2 層內(nèi)敏感度分析指標(biāo) 35
4.3 結(jié)構(gòu)化剪枝方法 37
4.3.1 基于權(quán)重正則的結(jié)構(gòu)化剪枝方法 37
4.3.2 基于搜索的結(jié)構(gòu)化剪枝方法 39
4.3.3 給定資源限制的條件下的結(jié)構(gòu)化剪枝方法 44
4.4 近似低秩分解方法 47
4.5 非結(jié)構(gòu)化剪枝方法 48
4.6 半結(jié)構(gòu)化剪枝方法 51
4.7 針對(duì)激活值的剪枝方法 53
4.8 剪枝方法的經(jīng)驗(yàn)性選擇 55
4.8.1 剪枝流程的選擇 55
4.8.2 剪枝稀疏模式的選擇 56
4.8.3 關(guān)于任務(wù)性能的經(jīng)驗(yàn) 56
4.9 Group Lasso 結(jié)構(gòu)化剪枝的實(shí)踐案例 57
4.10 本章小結(jié) 60
5 模型量化 61
5.1 模型量化的定義和分類 61
5.2 模型量化過程和量化推理過程 64
5.3 量化格式和操作 65
5.3.1 均勻量化格式 66
5.3.2 非均勻量化格式 68
5.3.3 三種量化操作 71
5.4 量化參數(shù) 73
5.4.1 縮放系數(shù) 73
5.4.2 零點(diǎn)位置 74
5.4.3 量化位寬 74
5.5 訓(xùn)練后量化75
5.5.1 訓(xùn)練后量化的流程 75
5.5.2 重參數(shù)化 76
5.5.3 縮放系數(shù)的選取方法 80
5.5.4 量化值調(diào)整 83
5.6 量化感知訓(xùn)練 87
5.6.1 基礎(chǔ)與流程 87
5.6.2 調(diào)整模型架構(gòu)的方法 90
5.6.3 量化器設(shè)計(jì)的技巧 92
5.6.4 常用的訓(xùn)練技巧 97
5.7 混合位寬量化 97
5.7.1 基于敏感度指標(biāo)的混合位寬量化 97
5.7.2 基于搜索的混合位寬量化 99
5.8 量化方法的經(jīng)驗(yàn)性選擇 100
5.8.1 量化流程的選擇 100
5.8.2 數(shù)據(jù)表示的設(shè)計(jì)和決定 100
5.8.3 算子的選擇與處理和計(jì)算圖的調(diào)整 102
5.8.4 關(guān)于任務(wù)性能的經(jīng)驗(yàn) 104
5.9 拓展:低比特推理硬件實(shí)現(xiàn) 104
5.9.1 定點(diǎn)計(jì)算的硬件效率 104
5.9.2 浮點(diǎn)計(jì)算轉(zhuǎn)定點(diǎn)計(jì)算的原理 105
5.9.3 非均勻量化格式的計(jì)算 111
5.9.4 典型的計(jì)算單元和加速器架構(gòu) 112
5.10 拓展:低比特訓(xùn)練簡(jiǎn)介 115
5.10.1 應(yīng)用背景 115
5.10.2 挑戰(zhàn)分析 116
5.10.3 相關(guān)工作 116
5.11 本章小結(jié) 117
6 模型二值化 118
6.1 模型二值化的定義和分類 118
6.2 模型二值化的基礎(chǔ):以XNOR-Net 為例 120
6.3 二值化方式 122
6.3.1 樸素二值化方式 123
6.3.2 間接二值化方式 127
6.4 訓(xùn)練技巧 131
6.4.1 修改損失函數(shù) 132
6.4.2 降低梯度估計(jì)誤差 133
6.4.3 多階段的訓(xùn)練方法 135
6.4.4 訓(xùn)練經(jīng)驗(yàn) 136
6.5 架構(gòu)設(shè)計(jì) 137
6.5.1 模型架構(gòu)的調(diào)整 138
6.5.2 模型架構(gòu)搜索 141
6.5.3 集成方法與動(dòng)態(tài)模型 142
6.6 模型二值化在其他任務(wù)與架構(gòu)中的應(yīng)用 142
6.7 本章小結(jié) 144
7 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索146
7.1 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的定義和分類 146
7.2 搜索空間 149
7.2.1 人工設(shè)計(jì)搜索空間 150
7.2.2 自動(dòng)設(shè)計(jì)搜索空間 154
7.2.3 總結(jié) 156
7.3 搜索策略 157
7.3.1 基于強(qiáng)化學(xué)習(xí)的搜索策略 157
7.3.2 基于進(jìn)化算法的搜索策略 159
7.3.3 隨機(jī)搜索策略 160
7.3.4 基于架構(gòu)性能預(yù)測(cè)器的搜索策略 160
7.3.5 總結(jié) 164
7.4 評(píng)估策略 165
7.4.1 獨(dú)立訓(xùn)練策略 166
7.4.2 基于權(quán)重共享的單次評(píng)估策略 167
7.4.3 基于權(quán)重生成的單次評(píng)估策略 172
7.4.4 零次評(píng)估策略 172
7.5 可微分神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索 175
7.5.1 連續(xù)松弛方法 175
7.5.2 優(yōu)化方法 176
7.5.3 搜索坍縮問題 177
7.5.4 更高效的可微分搜索算法 179
7.6 考慮硬件效率的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索 180
7.6.1 考慮硬件效率的搜索空間設(shè)計(jì) 181
7.6.2 硬件效率指標(biāo)的加速評(píng)估方法 182
7.6.3 考慮多種硬件效率目標(biāo)的搜索策略 184
7.6.4 面向多種硬件設(shè)備及約束的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法 186
7.7 本章小結(jié) 188
8 知識(shí)蒸餾 190
8.1 知識(shí)蒸餾的定義和分類 190
8.2 知識(shí)類型和知識(shí)分量:“學(xué)什么” 192
8.2.1 基于響應(yīng)的知識(shí) 192
8.2.2 基于特征的知識(shí) 194
8.2.3 基于關(guān)系的知識(shí) 197
8.3 知識(shí)來源:“向誰學(xué)” 199
8.3.1 離線蒸餾 199
8.3.2 互學(xué)習(xí) 199
8.3.3 自蒸餾200
8.4 本章小結(jié) 201
第3部分 拓展和前沿
9 相關(guān)領(lǐng)域:高效靈活的AI 推理硬件和系統(tǒng) 203
9.1 概述 203
9.2 硬件加速器設(shè)計(jì)和軟硬件協(xié)同優(yōu)化 204
9.2.1 從CPU 到硬件加速器 204
9.2.2 AI 加速器中的軟硬件協(xié)同優(yōu)化 206
9.2.3 Roofline 分析模型 207
9.2.4 基于指令集的AI 加速器 210
9.3 神經(jīng)網(wǎng)絡(luò)計(jì)算資源虛擬化 211
9.3.1 虛擬化的概念 211
9.3.2 AI 加速器的時(shí)分復(fù)用與空分復(fù)用虛擬化 212
9.3.3 相關(guān)工作簡(jiǎn)介 214
9.4 本章小結(jié) 215
10 前沿應(yīng)用:大語言模型的加速和壓縮 218
10.1 大語言模型的發(fā)展 218
10.2 大語言模型的架構(gòu)和推理過程 219
10.3 大語言模型的高效性分析 220
10.3.1 效率瓶頸 220
10.3.2 優(yōu)化路徑 221
10.4 典型的大語言模型的壓縮方法:量化 223
10.5 本章小結(jié) 226
后記 227
參考文獻(xiàn) 229
高效深度學(xué)習(xí) 模型壓縮與設(shè)計(jì) 作者簡(jiǎn)介
汪玉,清華大學(xué)電子工程系長聘教授、系主任,IEEE Fellow,國家自然科學(xué)基金杰出青年基金獲得者,清華大學(xué)信息科學(xué)技術(shù)學(xué)院副院長,清華大學(xué)天津電子信息研究院院長。長期從事智能芯片、高能效電路與系統(tǒng)的研究,曾獲得4次國際學(xué)術(shù)會(huì)議最佳論文獎(jiǎng)及12次最佳論文提名。曾獲CCF科學(xué)技術(shù)獎(jiǎng)技術(shù)發(fā)明一等獎(jiǎng)、國際設(shè)計(jì)自動(dòng)化會(huì)議40歲以下創(chuàng)新者獎(jiǎng)、CCF青竹獎(jiǎng)等榮譽(yù)。2016年,知識(shí)成果轉(zhuǎn)化入股深鑒科技,打造了世界一流的深度學(xué)習(xí)計(jì)算平臺(tái);2018年,深鑒科技被業(yè)內(nèi)龍頭企業(yè)賽靈思(現(xiàn)AMD)收購。2023年,推動(dòng)成立無問芯穹,形成面向大模型的軟硬件聯(lián)合優(yōu)化平臺(tái),在國內(nèi)外10余種芯片上實(shí)現(xiàn)了業(yè)界領(lǐng)先的大模型推理性能。 寧雪妃,清華大學(xué)電子工程系助理研究員。主要研究方向?yàn)楦咝疃葘W(xué)習(xí)。支撐深鑒科技、無問芯穹的早期模型壓縮和部署工具鏈工作;參與10余項(xiàng)高效深度學(xué)習(xí)相關(guān)項(xiàng)目;在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、設(shè)計(jì)自動(dòng)化領(lǐng)域發(fā)表學(xué)術(shù)論文40余篇,其中包含在NeurIPS、ICLR、ICML、CVPR、ICCV、ECCV、AAAI、TPAMI上發(fā)表的學(xué)術(shù)論文共20篇;帶領(lǐng)團(tuán)隊(duì)在NeurIPS18和CVPR20會(huì)議上獲得國際比賽獎(jiǎng)項(xiàng)。
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
自卑與超越
- >
二體千字文
- >
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
- >
我從未如此眷戀人間
- >
伯納黛特,你要去哪(2021新版)
- >
朝聞道
- >
中國歷史的瞬間