揭秘大模型:從原理到實戰 版權信息
- ISBN:9787115653352
- 條形碼:9787115653352 ; 978-7-115-65335-2
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:
揭秘大模型:從原理到實戰 本書特色
·涵蓋AIGC、大模型、擴散模型等熱點話題;
·以技術視角透徹解讀大模型底層技術;
·系統介紹GPT、LLaMa、GLM等主流大模型的技術原理;
·給出GPT的基本代碼實現,幫助讀者深入理解技術原理;
·介紹如何構建私有大模型,帶領讀者動手構建私有大模型。
揭秘大模型:從原理到實戰 內容簡介
本書從技術角度深度解析大模型的原理,從大模型的基礎概念及領域發展現狀入手,概述大模型的理論基礎,介紹OpenAI GPT、清華大學GLM、Meta Llama等主流大模型的技術原理,并從大模型參數高效微調、大模型指令微調、大模型訓練優化和大模型推理優化等多角度解析大模型背后的技術,帶領讀者全方位掌握大模型的原理和實踐方法。本書*后介紹私有大模型的構建,手把手指導讀者做技術選型并搭建自己的私有大模型。
本書適合人工智能領域有大模型開發需求或對大模型技術感興趣的技術人員閱讀,也適合普通用戶擴展了解大模型的前沿應用。
揭秘大模型:從原理到實戰 目錄
第 1章 大模型簡介 1 11 大模型初探 1 111 OpenAI大模型ChatGPT 1 112 國內大模型—360智腦 8 12 大模型的概念 9 13 百花齊放—大模型發展現狀 9 14 壓縮即智能—為什么ChatGPT擁有智能 11 第 1章 大模型簡介 1 11 大模型初探 1 111 OpenAI大模型ChatGPT 1 112 國內大模型—360智腦 8 12 大模型的概念 9 13 百花齊放—大模型發展現狀 9 14 壓縮即智能—為什么ChatGPT擁有智能 11 141 直觀理解通用人工智能 12 142 如何實現無損壓縮 13 143 GPT是對數據的無損壓縮 16 15 小結 19 16 參考文獻 19 第 2章 大模型理論基礎 20 21 什么是語言模型 20 22 傳統語言模型 21 221 循環神經網絡(RNN) 21 222 長短期記憶(LSTM)網絡 22 223 門控循環單元(GRU) 24 23 大模型基礎結構—Transformer 25 231 Transformer的模型結構 25 232 Transformer輸入表示 29 233 多頭注意力 30 234 編碼器結構 36 235 解碼器結構 40 236 Softmax輸出 44 24 Transformer應用實踐—機器 翻譯 46 241 葡萄牙文翻譯為英文 46 242 英文翻譯為中文 51 25 小結 52 26 參考文獻 53 第3章 OpenAI GPT系列大模型 54 31 GPT發展歷史— 從GPT-1到GPT-4 54 32 GPT-1技術原理 55 321 GPT-1的模型結構 56 322 GPT-1應用實踐—中文文本 分類 58 33 GPT-2技術原理 63 331 GPT-2的模型結構 64 332 GPT-2應用實踐—文本分類和 文本生成 66 34 GPT-3技術原理 69 341 GPT-3的模型結構 70 342 GPT-3多項任務評估 71 35 橫空出世—ChatGPT 74 351 真正的通用人工智能— ChatGPT 74 352 有監督微調 75 353 訓練獎勵模型 77 354 使用強化學習微調預訓練 模型 78 355 ChatGPT應用 79 36 GPT-4 80 361 GPT-4的涌現能力 80 362 大模型預測擴展 81 363 GPT-4性能分析 82 364 GPT-4應用 84 37 小結 84 38 參考文獻 84 第4章 清華大學通用預訓練 模型—GLM 86 41 GLM簡介 87 42 GLM技術原理 89 421 預訓練目標 91 422 GLM的模型結構 92 423 微調GLM 93 424 效果評估 94 43 ChatGLM-6B全參數微調實踐 94 431 環境搭建 95 432 全參數微調 96 433 效果評估 101 44 GLM-10B全參數微調實踐 101 441 代碼結構 102 442 全參數微調 103 443 效果評估 108 45 小結 109 46 參考文獻 109 第5章 Meta開源大模型 —Llama 110 51 Llama簡介 110 52 Llama技術原理 111 521 Llama預訓練數據 111 522 Llama的模型結構 113 523 Llama優化器 114 53 Llama改進版—Llama 2 114 531 Llama 2簡介 115 532 Llama 2預訓練 116 533 Llama 2有監督微調 118 534 基于人類反饋的強化學習 119 54 Llama 2應用實踐 121 541 Hugging Face玩轉Llama 2 122 542 微調Llama 2 122 55 小結 124 56 參考文獻 124 第6章 大模型參數高效 微調 125 61 LoRA—低秩矩陣分解 125 611 LoRA基本原理 125 612 LoRA低秩矩陣初始化 127 613 LoRA開源實現 127 62 谷歌參數高效微調— Adapter Tuning 128 63 斯坦福輕量級微調— Prefix-Tuning 129 64 谷歌微調方法— Prompt Tuning 130 65 清華大學參數微調— P-Tuning 131 66 P-Tuning改進版— P-Tuning v2 132 67 大模型參數高效微調實踐 134 671 安裝ChatGLM2-6B環境依賴 134 672 安裝P-Tuning v2環境依賴 135 68 小結 136 69 參考文獻 137 第7章 大模型指令微調 138 71 指令微調 138 72 指令微調和提示的異同 139 73 大模型思維鏈—優化模型 推理能力 139 731 思維鏈的開山之作— 思維鏈提示 140 732 零樣本提示思維鏈 142 733 多數投票—自洽性 144 734 *少到*多提示過程 144 735 大模型微調 146 736 微調思維鏈 148 737 思維鏈的局限 149 74 谷歌指令微調數據集—Flan 2022 150 75 小結 152 76 參考文獻 152 第8章 大模型訓練優化 153 81 稀疏Transformer 153 811 稀疏Transformer提出背景 154 812 稀疏Transformer實現原理 155 82 旋轉位置編碼 159 821 傳統位置編碼—絕對位置 編碼 160 822 二維旋轉位置編碼 160 823 多維旋轉位置編碼 161 824 旋轉位置編碼的高效計算 161 825 旋轉位置編碼的遠程衰減 162 826 Llama和ChatGLM中的旋轉位置編碼實現 164 827 旋轉位置編碼的外推性 167 83 大模型混合精度訓練 168 831 浮點數據類型 168 832 使用FP16訓練神經網絡的 問題 169 833 混合精度訓練相關技術 170 84 樣本拼接 173 85 大模型并行訓練 175 86 小結 175 87 參考文獻 176 第9章 大模型推理優化 177 91 大模型量化 177 911 量化的優勢 178 912 對稱量化和非對稱量化 178 92 大模型文本生成的解碼策略 180 921 束搜索 182 922 top-k采樣 183 923 top-p采樣 184 924 溫度采樣 186 925 聯合采樣 187 93 小結 188 第 10章 AIGC和大模型 結合 189 101 AIGC引來新一輪投資熱 189 102 生成對抗網絡 191 1021 生成對抗網絡的模型結構 191 1022 生成對抗網絡的訓練過程 193 1023 生成對抗網絡實戰—生成 手寫體數字圖像 194 103 AIGC主流模型—去噪擴散 概率模型 198 1031 去噪擴散概率模型的原理 198 1032 去噪擴散概率模型的訓練 過程 200 1033 去噪擴散概率模型實戰—生成 手寫體數字圖像 201 104 引入文字的去噪擴散概率模型 214 1041 去噪擴散概率模型的文字生成 圖像過程 215 1042 利用CLIP模型生成文本 向量 216 1043 在U-Net模型中使用文本 向量 217 1044 引入文字的去噪擴散概率模型的 訓練過程 218 105 去噪擴散概率模型改進版— Stable Diffusion 220 1051 Stable Diffusion的文字生成圖像過程 221 1052 Stable Diffusion前向擴散過程優化 221 1053 Stable Diffusion反向去噪過程優化 222 1054 Stable Diffusion的完整流程 224 1055 Stable Diffusion應用場景 224 106 小結 226 107 參考文獻 226 第 11章 大模型和推薦系統結合 228 111 大模型和推薦系統的異同 228 112 大模型和推薦系統的3種不同結合方法 229 1121 基于大模型構建特征 229 1122 基于大模型建模行為序列 230 1123 基于行為序列微調大模型 231 113 大模型和推薦系統的結合效果 232 1131 兩階段模式 232 1132 端到端模式 233 1133 預訓練 兩階段/端到端模式 233 1134 預訓練 兩階段/端到端 ID特征模式 234 114 小結 235 115 參考文獻 235 第 12章 構建私有大模型 236 121 大模型百花齊放 236 122 選擇基座模型 238 123 環境安裝 238 124 模型加載 239 1241 代碼調用 239 1242 網頁版示例 240 1243 命令行示例 241 125 低成本部署 242 1251 模型量化 242 1252 CPU部署 242 1253 Mac部署 242 1254 多卡部署 242 126 構建自己的私有大模型 243 1261 數據準備 244 1262 有監督微調 244 1263 部署私有大模型 248 1264 災難性遺忘問題 249 1265 程序思維提示—解決復雜數值推理 252 127 小結 258 128 參考文獻 258
展開全部
揭秘大模型:從原理到實戰 作者簡介
文亮 碩士畢業于電子科技大學,奇虎360智腦團隊資深算法專家,參與過千億參數級別大模型的訓練與優化,擁有超過8年的人工智能模型優化經驗,目前主要負責大模型后訓練、COT優化以及通用技能優化等工作,著有《推薦系統技術原理與實踐》一書。 江維 電子科技大學教授、博士生導師,主要研究可信人工智能、安全關鍵嵌入式系統、移動智能、大數據加速等領域,發表相關高水平論文100余篇。