-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
多模態(tài)大模型:從理論到實踐 版權(quán)信息
- ISBN:9787302686927
- 條形碼:9787302686927 ; 978-7-302-68692-7
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
多模態(tài)大模型:從理論到實踐 本書特色
《多模態(tài)大模型:從理論到實踐》這本書,內(nèi)容全面且條理清晰。該書精心規(guī)劃為兩部分,共12章。**部分(第1~5章)主要聚焦于多模態(tài)大模型的理論基礎(chǔ)與技術(shù)解析。它先是追溯了多模態(tài)大模型的發(fā)展歷程,使讀者能明晰該領(lǐng)域的演進路徑;接著對機器學(xué)習(xí)與深度學(xué)習(xí)的核心技術(shù)進行剖析,為后續(xù)學(xué)習(xí)筑牢根基;隨后詳細(xì)闡述Transformer架構(gòu)、跨模態(tài)對齊和模態(tài)融合等關(guān)鍵技術(shù),凸顯其在多模態(tài)大模型里的關(guān)鍵作用;此外,還介紹預(yù)訓(xùn)練方法、自監(jiān)督學(xué)習(xí)與提示學(xué)習(xí)、模型微調(diào)與優(yōu)化等內(nèi)容,助力讀者全面掌握多模態(tài)大模型的理論框架與技術(shù)細(xì)節(jié)。
第二部分(第6~12章)著重于多模態(tài)大模型的高級應(yīng)用與場景實現(xiàn)。此部分呈現(xiàn)了主流視覺語言模型(如CLIP、BLIP - 2等)的實現(xiàn)過程,讓讀者深入了解其構(gòu)建原理;深入探究跨模態(tài)推理與生成的技術(shù)應(yīng)用,彰顯其在復(fù)雜任務(wù)中的卓越效能;詳細(xì)介紹多模態(tài)大模型的推理優(yōu)化方法,以提升模型的效率和性能;同時關(guān)注模型的安全性與可信性問題,確保其在實際應(yīng)用中的可靠性。更為重要的是,通過多模態(tài)檢索與推薦系統(tǒng)、多模態(tài)語言理解系統(tǒng)、多模態(tài)問答系統(tǒng)的端到端開發(fā)實踐,清晰展示多模態(tài)大模型的實際落地路徑,幫助讀者將所學(xué)知識切實應(yīng)用到實際場景中,推動技術(shù)的拓展與創(chuàng)新。
《多模態(tài)大模型:從理論到實踐》內(nèi)容全面系統(tǒng),從理論層面到實踐應(yīng)用,全方位覆蓋多模態(tài)大模型的主要技術(shù)點。在技術(shù)細(xì)節(jié)呈現(xiàn)上十分用心,結(jié)合大量豐富詳實的案例與深入淺出的代碼解析,為讀者提供切實可行的實踐指導(dǎo)。而且兼具深度與實用性,無論是初學(xué)者還是有一定經(jīng)驗的研發(fā)人員和從業(yè)者,都能從中受益。此外,《多模態(tài)大模型:從理論到實踐》還及時總結(jié)多模態(tài)大模型的*新進展,為讀者提供*具前沿性的技術(shù)視角。
《多模態(tài)大模型:從理論到實踐》適合大模型和AI研發(fā)人員、人工智能領(lǐng)域的從業(yè)者以及高校師生閱讀使用,也可作為高校人工智能及相關(guān)專業(yè)的教材或參考書。
多模態(tài)大模型:從理論到實踐 內(nèi)容簡介
"《多模態(tài)大模型:從理論到實踐》系統(tǒng)地介紹多模態(tài)大模型的理論基礎(chǔ)、關(guān)鍵技術(shù)與實際應(yīng)用。全書分為兩部分12章,第1部分(第1~5章)圍繞基礎(chǔ)理論與技術(shù)解析展開論述,包括基本概念、Transformer架構(gòu)、跨模態(tài)對齊、模態(tài)融合,以及多模態(tài)大模型的預(yù)訓(xùn)練方法、模型微調(diào)與優(yōu)化等,為理解多模態(tài)大模型的構(gòu)建邏輯奠定基礎(chǔ)。第2部分(第6~12章)聚集于多模態(tài)大模型的高級應(yīng)用與場景實現(xiàn),包括主流視覺語言模型(如CLIP、BLIP-2等)的實現(xiàn)、跨模態(tài)推理與生成的技術(shù)應(yīng)用、多模態(tài)大模型的推理與優(yōu)化方法、模型的安全與可信性問題,并通過多模態(tài)檢索與推薦系統(tǒng)、多模態(tài)語義理解系統(tǒng)和多模態(tài)問答系統(tǒng)的端到端開發(fā)實踐,展示了多模態(tài)大模型的實際落地路徑。 《多模態(tài)大模型:從理論到實踐》兼具理論深度與實際應(yīng)用價值,適合大模型和AI研發(fā)人員、人工智能領(lǐng)域的從業(yè)者以及高校師生閱讀使用,也可作為培訓(xùn)機構(gòu)和高校人工智能及相關(guān)專業(yè)的教材或參考書。"
多模態(tài)大模型:從理論到實踐多模態(tài)大模型:從理論到實踐 前言
在當(dāng)今科技飛速發(fā)展的時代,人工智能領(lǐng)域正以前所未有的速度向前邁進,而其中以大模型為核心的技術(shù)突破更是備受矚目。大模型憑借對海量數(shù)據(jù)的高效訓(xùn)練能力,展現(xiàn)出了卓越的泛化能力和強大的通用性,猶如一股強大的推動力,為自然語言處理、計算機視覺以及多模態(tài)學(xué)習(xí)等多個關(guān)鍵領(lǐng)域帶來了革命性的變革。尤其是多模態(tài)大模型,它具備整合文本、圖像、視頻等豐富多樣的多模態(tài)數(shù)據(jù)的獨特能力,在信息理解、生成以及廣泛的應(yīng)用場景中釋放出了前所未有的巨大潛力,已然成為推動人工智能邁向更高層次的核心驅(qū)動力。
多模態(tài)大模型之所以具有如此突出的優(yōu)勢,關(guān)鍵在于其卓越的語義融合與信息對齊能力。這種能力使得它在跨模態(tài)檢索、視覺生成以及復(fù)雜場景理解等諸多前沿領(lǐng)域展現(xiàn)出了極為廣泛的適應(yīng)性。然而,我們也必須清醒地認(rèn)識到,這一充滿活力與潛力的領(lǐng)域在研究與開發(fā)過程中仍面臨著諸多嚴(yán)峻的挑戰(zhàn)。例如,如何更加高效地利用海量且復(fù)雜的多模態(tài)數(shù)據(jù),如何精心設(shè)計出科學(xué)合理、性能優(yōu)越的模型架構(gòu),以及如何在保證推理效率的同時實現(xiàn)性能的優(yōu)化等問題,都亟待我們?nèi)ド钊胩剿骱徒鉀Q。正是基于這樣的背景,全面、系統(tǒng)地深入探究多模態(tài)大模型的基礎(chǔ)理論與實踐路徑,便顯得尤為重要且刻不容緩。
多模態(tài)大模型:從理論到實踐 目錄
第1部分 基礎(chǔ)理論與技術(shù)解析
第 1 章 緒論 3
1.1 多模態(tài)與大模型簡介 3
1.1.1 多模態(tài)數(shù)據(jù)的種類與特點 3
1.1.2 大模型的核心能力與應(yīng)用領(lǐng)域 6
1.2 表征學(xué)習(xí)與遷移學(xué)習(xí) 7
1.2.1 表征學(xué)習(xí) 8
1.2.2 遷移學(xué)習(xí) 11
1.3 內(nèi)容生成與模態(tài)對齊 12
1.3.1 模態(tài)對齊的實現(xiàn)方法與技術(shù)難點 12
1.3.2 多模態(tài)生成任務(wù)的典型案例 14
1.4 多模態(tài)大模型發(fā)展歷程 16
1.4.1 單模態(tài)到多模態(tài)的發(fā)展路徑 16
1.4.2 多模態(tài)大模型的技術(shù)里程碑匯總 18
1.5 本章小結(jié) 19
1.6 思考題 19
第 2 章 基礎(chǔ)知識 21
2.1 機器學(xué)習(xí)關(guān)鍵技術(shù)詳解 21
2.1.1 特征工程與模型選擇 21
2.1.2 集成學(xué)習(xí)在多模態(tài)中的應(yīng)用 23
2.2 深度學(xué)習(xí)基本原理與常用技術(shù)點 26
2.2.1 卷積神經(jīng)網(wǎng)絡(luò) 26
2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 29
2.2.3 分類器與多層感知機 32
2.2.4 激活函數(shù) 34
2.3 梯度下降與反向傳播算法的原理與實現(xiàn) 37
2.3.1 梯度下降算法原理與實現(xiàn) 37
2.3.2 反向傳播算法原理與實現(xiàn) 41
2.4 大模型在文本與圖像處理中的應(yīng)用 43
2.4.1 文本處理中的生成與理解任務(wù) 43
2.4.2 圖像處理中的分割與檢測 45
2.5 本章小結(jié) 48
2.6 思考題 49
第 3 章 多模態(tài)大模型核心架構(gòu) 50
3.1 Transformer基本原理剖析 50
3.1.1 自注意力機制 50
3.1.2 編碼器-解碼器架構(gòu) 53
3.2 跨模態(tài)對齊技術(shù):注意力機制與嵌入對齊 58
3.2.1 嵌入空間的對齊方法與損失函數(shù)優(yōu)化 58
3.2.2 多頭注意力機制在對齊中的應(yīng)用 62
3.3 模態(tài)融合數(shù)據(jù)級、特征級與目標(biāo)級 64
3.3.1 數(shù)據(jù)級融合的實現(xiàn)與場景應(yīng)用 64
3.3.2 特征級融合的建模方法與優(yōu)化 66
3.4 模態(tài)解耦與共享學(xué)習(xí)框架 70
3.4.1 模態(tài)解耦的多任務(wù)學(xué)習(xí)策略 70
3.4.2 參數(shù)共享框架的設(shè)計與優(yōu)化 74
3.5 本章小結(jié) 78
3.6 思考題 78
第 4 章 多模態(tài)大模型的預(yù)訓(xùn)練方法 80
4.1 文本與視覺聯(lián)合預(yù)訓(xùn)練任務(wù)設(shè)計 80
4.1.1 文本任務(wù)的掩碼建模與生成任務(wù) 80
4.1.2 視覺任務(wù)的特征提取與目標(biāo)檢測 82
4.2 自監(jiān)督學(xué)習(xí)與多模態(tài)預(yù)訓(xùn)練 85
4.2.1 對比學(xué)習(xí)在多模態(tài)中的實現(xiàn)方法 85
4.2.2 重建任務(wù)的自監(jiān)督學(xué)習(xí)實現(xiàn) 88
4.3 提示學(xué)習(xí)與指令微調(diào) 91
4.3.1 提示模板設(shè)計與輸入增強技術(shù) 91
4.3.2 指令微調(diào)的適配流程與效果分析 94
4.4 數(shù)據(jù)高效利用遷移學(xué)習(xí)與混合監(jiān)督 96
4.4.1 遷移學(xué)習(xí)的小樣本適配技術(shù) 96
4.4.2 半監(jiān)督學(xué)習(xí)的聯(lián)合訓(xùn)練方法 98
4.5 本章小結(jié) 101
4.6 思考題 101
第 5 章 多模態(tài)大模型微調(diào)與優(yōu)化 103
5.1 基于LoRA的輕量化微調(diào) 103
5.1.1 LoRA:參數(shù)凍結(jié)與動態(tài)注入技術(shù) 103
5.1.2 輕量化微調(diào) 106
5.2 參數(shù)高效微調(diào) 109
5.2.1 PEFT的技術(shù)原理與實現(xiàn) 109
5.2.2 微調(diào)效果的對比與性能評價 115
5.3 RLHF原理及實現(xiàn) 118
5.3.1 RLHF與獎勵建模 118
5.3.2 RLHF在多模態(tài)任務(wù)中的實現(xiàn) 123
5.4 多任務(wù)學(xué)習(xí)與領(lǐng)域適配 125
5.4.1 多任務(wù)共享學(xué)習(xí) 125
5.4.2 領(lǐng)域適配與標(biāo)注數(shù)據(jù)增強技術(shù) 128
5.5 本章小結(jié) 130
5.6 思考題 131
第 2 部分 高級應(yīng)用與實踐探索
第 6 章 視覺語言模型的實現(xiàn) 135
6.1 CLIP模型的原理與實現(xiàn) 135
6.1.1 文本視覺聯(lián)合嵌入的實現(xiàn)技術(shù) 135
6.1.2 CLIP模型的預(yù)訓(xùn)練目標(biāo)與任務(wù)遷移 139
6.2 BLIP-2模型在多模態(tài)生成中的應(yīng)用 142
6.2.1 圖像到文本生成的模型設(shè)計 142
6.2.2 多模態(tài)生成任務(wù)的優(yōu)化策略 145
6.3 SAM模型在視覺任務(wù)中的實現(xiàn) 148
6.3.1 SAM模型的特征提取與訓(xùn)練方法 148
6.3.2 分割任務(wù)中的應(yīng)用與性能分析 151
6.4 視頻與語言多模態(tài)模型融合 153
6.4.1 視頻嵌入與文本生成的聯(lián)合建模 154
6.4.2 多模態(tài)視頻任務(wù)的優(yōu)化實踐 157
6.5 本章小結(jié) 159
6.6 思考題 160
第 7 章 跨模態(tài)推理與生成 161
7.1 視覺問答與視覺常識推理 161
7.1.1 視覺問答模型的任務(wù)建模方法 161
7.1.2 常識推理中的視覺語義問題 164
7.2 跨模態(tài)文本生成:從圖像到描述 166
7.2.1 圖像描述生成模型訓(xùn)練方法 167
7.2.2 跨模態(tài)文本生成的關(guān)鍵技術(shù) 170
7.3 復(fù)雜場景中的視頻生成與理解 172
7.3.1 視頻生成任務(wù) 173
7.3.2 復(fù)雜場景的視頻理解技術(shù) 176
7.4 跨模態(tài)對話與導(dǎo)航任務(wù) 179
7.4.1 對話系統(tǒng)中的多模態(tài)交互設(shè)計 179
7.4.2 導(dǎo)航任務(wù)的視覺與語義聯(lián)合優(yōu)化 182
7.5 本章小結(jié) 185
7.6 思考題 185
第 8 章 多模態(tài)大模型的推理優(yōu)化 187
8.1 ONNX與TensorRT在多模態(tài)推理中的應(yīng)用 187
8.1.1 ONNX模型的優(yōu)化與轉(zhuǎn)換流程 187
8.1.2 TensorRT的推理加速與量化技術(shù) 192
8.2 動態(tài)批量與自定義算子優(yōu)化 196
8.2.1 動態(tài)批量推理的實現(xiàn)與性能分析 196
8.2.2 自定義算子的設(shè)計與任務(wù)適配 198
8.3 混合精度推理與內(nèi)存優(yōu)化技術(shù) 201
8.3.1 混合精度訓(xùn)練的實現(xiàn)與性能提升 201
8.3.2 內(nèi)存優(yōu)化技術(shù)在推理中的應(yīng)用 204
8.3.3 多GPU的分布式推理任務(wù)調(diào)度 206
8.4 本章小結(jié) 208
8.5 思考題 208
第 9 章 多模態(tài)大模型的安全問題與可信問題 210
9.1 模型的可解釋性與注意力可視化 210
9.1.1 注意力機制的可視化技術(shù)實現(xiàn) 210
9.1.2 模型行為的解釋性方法 214
9.2 多模態(tài)大模型中的魯棒性與偏見問題 216
9.2.1 模型魯棒性提升的優(yōu)化策略 216
9.2.2 偏見檢測與緩解技術(shù)的應(yīng)用 219
9.3 隱私保護與數(shù)據(jù)安全技術(shù) 222
9.3.1 模態(tài)分離與隱私保護框架設(shè)計 223
9.3.2 數(shù)據(jù)加密與安全分發(fā)技術(shù)實現(xiàn) 226
9.4 本章小結(jié) 228
9.5 思考題 228
第 10 章 多模態(tài)檢索與推薦系統(tǒng) 230
10.1 跨模態(tài)檢索算法與實現(xiàn) 230
10.1.1 跨模態(tài)檢索中的嵌入空間設(shè)計 230
10.1.2 檢索任務(wù)的多模態(tài)優(yōu)化 232
10.2 圖像視頻與文本的聯(lián)合檢索 235
10.2.1 圖文聯(lián)合檢索的模型實現(xiàn) 235
10.2.2 視頻檢索中的特征聯(lián)合與優(yōu)化 237
10.3 基于多模態(tài)的推薦系統(tǒng) 243
10.3.1 多模態(tài)嵌入在推薦任務(wù)中的應(yīng)用 243
10.3.2 推薦系統(tǒng)的動態(tài)適配與更新 249
10.4 本章小結(jié) 256
10.5 思考題 257
第 11 章 多模態(tài)語義理解系統(tǒng) 258
11.1 系統(tǒng)架構(gòu)與功能規(guī)劃 258
11.1.1 系統(tǒng)核心模塊的架構(gòu)設(shè)計 258
11.1.2 功能規(guī)劃與數(shù)據(jù)流轉(zhuǎn)流程 259
11.2 使用開源框架實現(xiàn)跨模態(tài)生成 260
11.2.1 跨模態(tài)開發(fā)框架簡介 261
11.2.2 模塊實現(xiàn) 262
11.2.3 模塊綜合測試 279
11.3 模型優(yōu)化與推理性能提升 282
11.3.1 生成任務(wù)中的模型優(yōu)化 282
11.3.2 推理性能的加速與內(nèi)存優(yōu)化 284
11.3.3 系統(tǒng)部署 286
11.3.4 系統(tǒng)性能監(jiān)控 288
11.4 本章小結(jié) 291
11.5 思考題 292
第 12 章 多模態(tài)問答系統(tǒng) 293
12.1 數(shù)據(jù)集準(zhǔn)備與預(yù)處理 293
12.1.1 問答數(shù)據(jù)集的構(gòu)建與清洗方法 293
12.1.2 數(shù)據(jù)增強技術(shù)在問答任務(wù)中的應(yīng)用 299
12.2 視覺與文本問答模型的訓(xùn)練及API開發(fā) 305
12.2.1 跨模態(tài)問答模型的多任務(wù)訓(xùn)練 305
12.2.2 API接口設(shè)計與服務(wù)化集成 313
12.2.3 模型輸出的解析與后處理實現(xiàn) 315
12.3 性能測試與部署實踐 317
12.3.1 系統(tǒng)測試的指標(biāo)與性能分析 318
12.3.2 部署優(yōu)化與線上環(huán)境監(jiān)控技術(shù) 320
12.4 本章小結(jié) 322
12.5 思考題 323
多模態(tài)大模型:從理論到實踐 作者簡介
韓曉晨,博士,長期從事高性能計算與大模型訓(xùn)練算力優(yōu)化研究。近十年來,專注于智能計算架構(gòu)優(yōu)化及大規(guī)模數(shù)據(jù)處理,深耕控制算法、機器視覺等領(lǐng)域。近年來,重點研究大模型訓(xùn)練加速、算力調(diào)度與異構(gòu)計算優(yōu)化,致力于提升計算效率與資源利用率,推動大規(guī)模人工智能模型的高效部署與應(yīng)用。
- >
自卑與超越
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
- >
朝聞道
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述
- >
姑媽的寶刀
- >
唐代進士錄
- >
山海經(jīng)