-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
多模態大模型:算法、應用與微調 版權信息
- ISBN:9787111754886
- 條形碼:9787111754886 ; 978-7-111-75488-6
- 裝幀:簡裝本
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
多模態大模型:算法、應用與微調 本書特色
(1)內容權威:作者為一線的LLM研究及實踐者,本書受到多位研究專家、科技公司管理者的好評及推薦。全面覆蓋了多模態大模型的算法原理和應用實戰,從基礎到高級,涵蓋Transformer、GPT系列、深度生成模型等前沿技術,詳盡介紹了預訓練模型、分布式訓練等重要內容。
(2)質量可靠:書中包含豐富的項目案例。通過具體實戰項目,如Stable Diffusion進行圖像生成和Code Llama進行代碼生成,展示了大模型的實際部署和優化過程,并強調了微調技術的細節,確保讀者能夠在實際操作中有效應用所學知識。
(3)收獲切實:通過閱讀本書,你將:1)深入了解多模態大模型的架構、原理及應用;2)掌握大模型的實際部署和優化技巧;3)獲得詳細的微調技術指導,提升在深度學習模型領域的實戰能力和職業競爭力。
多模態大模型:算法、應用與微調 內容簡介
本書詳盡地覆蓋了多模態大模型的算法原理和應用實戰,提供了豐富的微調技術細節和實際案例,適合對多模態大模型有興趣的技術人員深入學習及應用。
本書分為兩篇:
算法原理篇 詳細介紹了優選的深度學習模型,包括Transformer、GPT系列、深度生成模型,從基本架構、訓練方法到特定應用,包括但不限于Seq2Seq結構、位置編碼、注意力機制、殘差連接、變分自編碼器、GAN、ViT、CLIP、Stable Diffusion、各模型訓練實踐的知識點。此外,探討了預訓練模型的涌現能力、模型參數和通信數據量的估算,以及分布式訓練的各種技術,如數據并行、模型并行和混合精度訓練等。
應用實戰篇 聚焦于深度學習模型的實際應用,特別是文本和圖像生成,以及代碼生成的應用實戰。通過具體實戰項目,如利用Stable Diffusion進行圖像生成和Code Llama進行代碼生成,提供了微調技術的詳細細節,介紹了LangChain等大模型應用框架。
多模態大模型:算法、應用與微調 目錄
前言
**篇 算法原理
第1章 Transformer模型 2
1.1 Seq2Seq結構 2
1.1.1 分詞器 2
1.1.2 編碼器–解碼器結構 6
1.1.3 注意力機制 9
1.1.4 實戰:日期轉換 13
1.2 Transformer模型介紹 18
1.2.1 位置編碼 18
1.2.2 模型架構 24
1.2.3 標準化和殘差連接 32
1.2.4 線性層和softmax層 36
1.2.5 損失函數 36
1.2.6 實戰:日期轉換 37
1.2.7 小結 45
1.3 ViT模型介紹 46
1.3.1 注意力機制在圖像上的
應用 47
1.3.2 ViT模型架構 48
1.3.3 大數據預訓練 50
1.3.4 ViT模型訓練實踐 52
1.4 本章總結 54
第2章 GPT系列模型 55
2.1 GPT-1 55
2.1.1 語言模型 56
2.1.2 訓練框架 56
2.1.3 模型效果分析 62
2.2 GPT-2 63
2.2.1 模型架構分析 64
2.2.2 構造訓練數據集 65
2.2.3 模型效果分析 65
2.3 GPT-3 66
2.3.1 上下文學習 67
2.3.2 構造訓練數據集 67
2.3.3 訓練停止判定 69
2.3.4 重要潛力 69
2.4 GPT-3.5 70
2.4.1 代碼生成模型Codex 71
2.4.2 強化學習 76
2.4.3 ChatGPT的“孿生兄弟”:InstructGPT 85
2.4.4 RLAIF 96
2.5 GPT-4 97
2.5.1 GPT-4的非凡表現 98
2.5.2 基于規則的獎勵模型 99
2.5.3 多模態架構 101
2.5.4 訓練流程 103
2.5.5 局限性 104
2.6 語言模型的未來 104
2.6.1 自我學習與自我核實 105
2.6.2 稀疏專家模型 106
2.7 GPT系列的其他應用 107
2.7.1 MiniGPT-4 107
2.7.2 minGPT與nanoGPT 108
2.7.3 AutoGPT與AgentGPT 109
2.8 本章總結 109
第3章 深度生成模型 111
3.1 從自編碼器到變分自編碼器 111
3.1.1 自編碼器 111
3.1.2 變分自編碼器 116
3.2 生成對抗網絡 119
3.2.1 網絡架構 119
3.2.2 算法描述 120
3.2.3 實戰:手寫數字圖像
生成 122
3.2.4 衍生應用 125
3.3 文本與圖像的橋梁:CLIP 129
3.3.1 介紹 129
3.3.2 訓練與推理 129
3.3.3 實戰:圖像文本匹配 132
3.3.4 CLIP的局限性 134
3.4 穩定擴散模型:Stable Diffusion 135
3.4.1 基本組件 135
3.4.2 擴散原理 136
3.4.3 數據集構建 139
3.4.4 流程梳理 141
3.4.5 實戰:圖像生成 144
3.4.6 Stable Diffusion升級 147
3.5 本章總結 148
第4章 預訓練模型 150
4.1 大模型的涌現能力 151
4.1.1 縮放法則 151
4.1.2 涌現能力 152
4.2 模型參數量估算 153
4.3 通信數據量分析 155
4.3.1 點對點通信 156
4.3.2 集群通信 157
4.4 分布式訓練 161
4.4.1 基本概念 161
4.4.2 數據并行 163
4.4.3 模型并行 171
4.4.4 混合并行 177
4.4.5 混合精度訓練 178
4.5 DeepSpeed 180
4.5.1 ZeRO 181
4.5.2 ZeRO-Offload 185
4.5.3 ZeRO-Infinity 189
4.6 模型即服務平臺 190
4.6.1 ModelScope 191
4.6.2 Hugging Face 192
4.7 本章總結 196
第二篇 應用實戰
第5章 文本生成應用實戰:利用ChatPDF與文件對話 198
5.1 大模型的落地應用 198
5.1.1 外部增強:領域工具
增強 200
5.1.2 提示詞工程 201
5.1.3 模型微調 207
5.2 GLM系列模型 207
5.2.1 GLM與GLM-130B 209
5.2.2 ChatGLM、ChatGLM-6B
和ChatGLM2-6B 211
5.2.3 ChatGLM與ChatGPT的
區別 212
5.3 參數高效微調 213
5.3.1 Adapter Tuning 213
5.3.2 Prompt Tuning 214
5.3.3 Prefix-Tuning 215
5.3.4 P-Tuning 218
5.3.5 P-Tuning v2 219
5.3.6 ChatGLM2-6B的
P-Tuning v2微調 220
5.4 大語言模型應用框架:
LangChain 222
5.4.1 快速開始 223
5.4.2 基本概念 226
5.5 ChatGLM金融大模型挑戰賽 232
5.5.1 任務目標 232
5.5.2 環境準備:SQLite 234
5.5.3 問題分析 235
5.5.4 NL2SQL 245
5.5.5 DocTree 261
5.5.6 集成 271
5.6 本章總結 275
第6章 文本生成算法實戰:DeepSpeed-Chat 276
6.1 ZeRO 276
6.1.1 權重量化 277
6.1.2 分層切片 278
6.1.3 梯度量化 278
6.1.4 ZeRO 與DeepSpeed-Chat結合 279
6.2 DeepSpeed-Chat快速開始 280
6.3 DeepSpeed-Chat的RLHF訓練 281
6.3.1 數據收集與整理 282
6.3.2 有監督微調 284
6.3.3 獎勵模型微調 287
6.3.4 RLHF微調 288
6.3.5 模型部署與測試 290
6.4 DeepSpeed混合引擎 290
6.5 本章總結 291
第7章 圖像生成算法實戰:Stable Diffusion微調 293
7.1 LoRA參數高效微調技術 293
7.1.1 奇異值分解 294
7.1.2 LoRA詳解 295
7.2 用于Diffusers的LoRA微調 297
7.2.1 數據收集 297
7.2.2 訓練參數配置 300
7.2.3 模型訓練與測試 300
7.3 Stable Diffusion WebUI 302
7.3.1 安裝 304
7.3.2 模型介紹 304
7.3.3 參數介紹 307
7.3.4 其他應用 310
7.4 可控擴散模型:ControlNet 313
7.4.1 原理介紹 314
7.4.2 安裝插件并使用 316
7.5 本章總結 321
第8章 代碼生成算法實戰:
Code Llama微調 322
8.1 任務介紹 322
8.1.1 代碼生成模型的應用
場景 323
8.1.2 相關模型介紹 327
8.1.3 常用代碼數據集 331
8.2 Llama 2 336
8.2.1 模型介紹 336
8.2.2 預訓練 336
8.2.3 有監督微調 337
8.2.4 獎勵模型訓練 338
8.2.5 迭代微調 339
8.2.6 多輪對話一致性 339
8.3 算法競賽大語言模型 340
8.3.1 數據獲取 340
8.3.2 數據清洗 348
8.3.3 text-dedup 351
8.3.4 模型訓練 353
8.4 本章總結 358
第9章 綜合應用實戰:構建“漫畫家”生成多模態漫畫 360
9.1 應用介紹 361
9.1.1 需求分析 361
9.1.2 功能設計 363
9.2 功能實現選型 365
9.2.1 相關AI模型 365
9.2.2 后端技術棧 372
9.2.3 小結 377
9.3 相關模型部署 378
9.3.1 Stable Diffusion WebUI
部署 378
9.3.2 語音識別模型:Whisper 381
9.3.3 語音合成模型:
Sambert-Hifigan 383
9.4 后端應用搭建 386
9.4.1 創建項目 387
9.4.2 配置應用 388
9.4.3 基本功能開發 390
9.5 本章總結 403
多模態大模型:算法、應用與微調 相關資料
這本書詳細介紹了從基礎到高級的多模態大模型的技術原理,并通過豐富的項目案例展示了實際部署和模型優化的實踐過程。對于希望應用最新大模型的技術人員,或者對AI技術充滿好奇的技術愛好者,本書提供了實用的理論指導和深入的系統實踐。這本書將成為你在AI探索之路上的得力助手,為你開啟前沿技術的新篇章。
—— 蘇靜教授 天津科技大學 教務處副處長
本書深入探討了多模態大模型的技術全景,分為算法原理和應用實戰兩篇,涵蓋了Transformer、GPT系列等模型的架構及原理,并聚焦于文本、圖像生成以及代碼生成等實際應用。無論是想深入研究模型原理,還是在實踐中應用模型,都能在本書中找到指導和啟發。
—— 張賢坤教授 天津科技大學 人工智能學院院長
這本書從算法原理到實戰應用,深入淺出地介紹了Transformer、GPT系列、Stable Diffusion等大模型。不僅從技術視角為讀者呈現了大模型整體架構,還呈現了大量實戰應用案例。對于想要深入了解和應用多模態大模型的讀者來說,這是一本不可多得的指南和參考。
—— 楊勇教授 天津工業大學 計算機科學與技術學院院長
本書從學習者和實踐者的雙重視角,探討展現了多模態大模型的算法原理和技術實踐,既有嚴謹的理論,又有生動的實踐,極適合工程師、技術愛好者、學生閱讀學習,強烈推薦。
—— 王嫄副教授 天津科技大學 人工智能學院
這本書全面解析了多模態大模型的核心技術和應用實踐,從算法原理到模型微調,從理論講解到案例演示,每一部分都展現了作者對多模態大模型的深入研究和扎實經驗。這本書不僅適用于對AI技術感興趣的初學者,還適用于希望進一步提升技術水平的資深從業者。通過閱讀本書,讀者可以系統地掌握多模態大模型的理論知識,同時了解其在各個領域的實際應用。
—— 王剛 易商數科科技有限公司 總裁
這本書全面介紹了多模態大模型技術棧,系統地講解了從基礎到高級的大模型結構,并輔以具體的應用案例和代碼段,圖文并茂,為讀者提供了有效的實戰參考。大模型是當前眾多企業的技術研究重點,企業力求利用大模型提升營銷、銷售、運營、服務等環節的效率,甚至改變現有的經營模式。這本書的面世恰好滿足相應的學習需求,為技術人員提供了詳盡的理論體系和實戰指導,具有重要的意義。
—— 陳瑋 泰康在線財產保險股份有限公司 副總經理
—— 蘇靜教授 天津科技大學 教務處副處長
本書深入探討了多模態大模型的技術全景,分為算法原理和應用實戰兩篇,涵蓋了Transformer、GPT系列等模型的架構及原理,并聚焦于文本、圖像生成以及代碼生成等實際應用。無論是想深入研究模型原理,還是在實踐中應用模型,都能在本書中找到指導和啟發。
—— 張賢坤教授 天津科技大學 人工智能學院院長
這本書從算法原理到實戰應用,深入淺出地介紹了Transformer、GPT系列、Stable Diffusion等大模型。不僅從技術視角為讀者呈現了大模型整體架構,還呈現了大量實戰應用案例。對于想要深入了解和應用多模態大模型的讀者來說,這是一本不可多得的指南和參考。
—— 楊勇教授 天津工業大學 計算機科學與技術學院院長
本書從學習者和實踐者的雙重視角,探討展現了多模態大模型的算法原理和技術實踐,既有嚴謹的理論,又有生動的實踐,極適合工程師、技術愛好者、學生閱讀學習,強烈推薦。
—— 王嫄副教授 天津科技大學 人工智能學院
這本書全面解析了多模態大模型的核心技術和應用實踐,從算法原理到模型微調,從理論講解到案例演示,每一部分都展現了作者對多模態大模型的深入研究和扎實經驗。這本書不僅適用于對AI技術感興趣的初學者,還適用于希望進一步提升技術水平的資深從業者。通過閱讀本書,讀者可以系統地掌握多模態大模型的理論知識,同時了解其在各個領域的實際應用。
—— 王剛 易商數科科技有限公司 總裁
這本書既是一本技術專業書,也是一份引領你走進多模態大模型領域的重要指南。書中深入剖析了多模態大模型的原理和應用,通過生動的案例,讓讀者深刻感受到AI技術的魅力和潛力。無論是初學者還是資深從業者,都能從這本書中汲取到寶貴的知識和經驗。它不僅能夠幫助你掌握多模態大模型的核心技術,還能夠激發你對未來科技發展的無限想象。
—— 陳瑋 泰康在線財產保險股份有限公司 副總經理
多模態大模型:算法、應用與微調 作者簡介
劉兆峰
中國電信多模態算法工程師,基于多模態大模型提升長尾業務能力。天津科技大學人工智能專業碩士研究生。曾在京東科技擔任算法工程師,從事京東白條申請評分卡開發。后加入創業公司,從事大規模預訓練語言模型的分布式微調和AIGC相關衍生產品的系統開發,對LLM的訓練和推理有深厚的理論基礎和實戰經驗。
現主要研究方向為多模態大模型與Agent以及AGI系統研究,聚焦于多模態大模型的行業場景落地。工作期間技術成果豐碩,發表多篇論文,有多個軟件著作權。
- >
隨園食單
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
唐代進士錄
- >
推拿
- >
伯納黛特,你要去哪(2021新版)
- >
我與地壇
- >
月亮虎
- >
大紅狗在馬戲團-大紅狗克里弗-助人