中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
>
多模態大模型技術與開發實戰

包郵 多模態大模型技術與開發實戰

作者:薛棟 著
出版社:人民郵電出版社出版時間:2025-02-01
開本: 16開 頁數: 359
中 圖 價:¥76.9(7.0折) 定價  ¥109.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

多模態大模型技術與開發實戰 版權信息

  • ISBN:9787115655387
  • 條形碼:9787115655387 ; 978-7-115-65538-7
  • 裝幀:平裝
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:

多模態大模型技術與開發實戰 本書特色

本書用三個案例講解多模態大模型的落地實踐



系統地講解了多模態技術的基礎理論、發展歷程及其廣泛的應用場景,深入地介紹了圖像、文本、音頻和視頻等多模態數據的處理方法。



內容涵蓋主流深度學習框架和多模態模型的核心原理,并配以實際開發中的應用案例與完整實例代碼。



詳細講解了多模態數據的預處理、數據增強和特征提取方法,系統地闡述了多模態表示學習的關鍵技術,并提供全面的模型評估與驗證方法。



通過實用案例介紹了多模態翻譯系統的開發過程、基于多模態大模型的音視頻廣義零樣本學習系統的實現,以及文生圖生成系統的設計思路,為讀者提供豐富的實戰案例與開發指導。
本書用三個案例講解多模態大模型的落地實踐



系統地講解了多模態技術的基礎理論、發展歷程及其廣泛的應用場景,深入地介紹了圖像、文本、音頻和視頻等多模態數據的處理方法。



內容涵蓋主流深度學習框架和多模態模型的核心原理,并配以實際開發中的應用案例與完整實例代碼。



詳細講解了多模態數據的預處理、數據增強和特征提取方法,系統地闡述了多模態表示學習的關鍵技術,并提供全面的模型評估與驗證方法。



通過實用案例介紹了多模態翻譯系統的開發過程、基于多模態大模型的音視頻廣義零樣本學習系統的實現,以及文生圖生成系統的設計思路,為讀者提供豐富的實戰案例與開發指導。



作者主導多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉),以及通用多模態大模型KarmaVLM(相生),所主持的 GitHub 項目累計獲得超過 4000 次 Star。

多模態大模型技術與開發實戰 內容簡介

本書循序漸進地闡述了多模態大模型的核心開發技術與應用實戰的知識。全書共10章,分別講解了多模態技術概述、多模態模型與框架、多模態數據處理、多模態表示學習、多模態嵌入表示、多模態大模型的訓練、多模態大模型的評估與驗證、基于多模態大模型的翻譯系統、基于多模態大模型的音視頻廣義零樣本學習系統、基于Diffusion Transformer的文生圖系統。全書簡潔而不失技術深度,內容豐富全面,案例翔實,以通俗易懂的文字介紹了復雜的知識體系,易于閱讀,是學習多模態大模型開發的實用教程。 本書適用于已經了解了Python語言基礎語法,想進一步學習大模型開發、自然語言處理、計算機視覺處理、機器學習、深度學習技術的讀者,還可以作為各類院校相關專業師生的學習用書和培訓學校的教材。

多模態大模型技術與開發實戰 目錄

第 1 章 多模態技術概述 1

1.1 多模態技術簡介 1

1.1.1 什么是多模態 1

1.1.2 多模態技術的發展歷史 2

1.1.3 多模態技術的應用場景 3

1.2 多模態數據類型 4

1.2.1 常見的多模態類型 4

1.2.2 圖像數據 4

1.2.3 文本數據 5

1.2.4 音頻數據 5

1.2.5 視頻數據 6

1.3 多模態技術的基本原理 6

1.3.1 數據融合與對齊 6

1.3.2 多模態表示學習 7

1.3.3 多模態推理 8

第 2 章 多模態模型與框架 10

2.1 常用的深度學習框架 10

2.1.1 Tensor Flow 10

2.1.2 PyTorch 11

2.1.3 Keras 11

2.1.4 Transformer 12

2.2 多模態模型技術 13

2.2.1 ViLBERT 模型 13

2.2.2 VisualBERT 模型 14

2.2.3 OpenAI CLIP 模型 15

2.2.4 UNITER 模型 16

2.2.5 LXMERT 模型 17

2.2.6 SigLIP 模型 18

2.2.7 LoRA 微調技術 18

2.2.8 LLaVA 模型 18

2.3 預訓練模型 19

2.3.1 預訓練模型簡介 19

2.3.2 使用預訓練模型 20

2.3.3 預訓練模型的微調 24

第 3 章 多模態數據處理 28

3.1 數據預處理 28

3.1.1 文本預處理 28

3.1.2 圖像預處理 39

3.1.3 音頻預處理 43

3.1.4 視頻預處理 50

3.2 數據增強 51

3.2.1 文本數據增強 51

3.2.2 圖像數據增強 54

3.2.3 音頻數據增強 55

3.2.4 視頻數據增強 57

3.3 特征提取 59

3.3.1 特征在大模型中的關鍵作用 60

3.3.2 文本特征提取 60

3.3.3 圖像特征提取 64

3.3.4 音頻特征提取 67

3.3.5 視頻特征提取 68

第 4 章 多模態表示學習 71

4.1 多模態表示學習介紹 71

4.1.1 多模態表示學習簡介 71

4.1.2 多模態表示學習的主要方法 71

4.2 多模態表示學習方法 72

4.2.1 表示融合 72

4.2.2 聯合學習 76

4.2.3 表示對齊 79

4.2.4 模態間關系建模 83

4.3 基于 S3D MIL-NCE 的多模態文本到視頻檢索 86

4.3.1 項目介紹 86

4.3.2 準備工作 87

4.3.3 視頻加載和可視化 87

4.3.4 加載視頻并定義文本查詢 89

4.3.5 預處理視頻和查詢 90

4.3.6 展示結果 90

第 5 章 多模態嵌入模式 92

5.1 多模態嵌入基礎 92

5.1.1 多模態嵌入介紹 92

5.1.2 多模態嵌入的應用 92

5.2 圖像嵌入 93

5.2.1 圖像嵌入介紹 93

5.2.2 圖像特征提取 94

5.2.3 模態對齊 97

5.2.4 CLIP 模型 100

5.3 文本嵌入 101

5.3.1 多模態模型中的文本嵌入 101

5.3.2 基于 CLIP 模型的文本嵌入 103

5.4 音頻嵌入 105

5.4.1 音頻特征提取 105

5.4.2 常用音頻嵌入模型 107

5.5 多模態圖像搜索引擎 109

5.5.1 項目介紹 109

5.5.2 CLIP 模型的配置參數 110

5.5.3 數據集處理 111

5.5.4 實現 Bangla CLIP 模型 115

5.5.5 基于文本的圖像搜索 117

5.5.6 基于 Streamlit 的 Web客戶端 118

第 6 章 多模態大模型的訓練 121

6.1 模型訓練的過程 121

6.2 訓練策略 122

6.2.1 預訓練與微調 122

6.2.2 多任務學習 125

6.2.3 全量微調 127

6.2.4 對比學習 129

6.2.5 參數高效微調 131

6.2.6 遷移學習 133

6.2.7 人類反饋強化學習 135

6.2.8 動態學習率調整 137

6.2.9 SFT 微調 138

6.3 CLIP 模型訓練與微調 141

6.3.1 項目介紹 141

6.3.2 創建文本和圖像配對數據集 142

6.3.3 構建多模態模型 145

6.3.4 訓練模型 161

6.3.5 模型微調 162

6.3.6 調試運 162

第 7 章 多模態大模型的評估與驗證 164

7.1 模型評估 164

7.1.1 模型評估的必要性 164

7.1.2 評估指標 165

7.1.3 單模態性能評估 168

7.1.4 多模態融合性能評估 170

7.1.5 效率與資源使用 171

7.1.6 定性評估和復雜場景評估 172

7.1.7 語音命令識別系統 173

7.2 模型驗證 183

7.2.1 模型驗證的必要性 183

7.2.2 數據準備和分割 184

7.2.3 交叉驗證 185

7.2.4 嵌套交叉驗證 188

7.2.5 模態間一致性驗證 189

7.2.6 模型魯棒性驗證 190

7.2.7 驗證指標 192

7.3 多模態大模型評估基準 195

7.3.1 MM-Vet 195

7.3.2 MMEvalPro 196

7.3.3 MMT-Bench 197

7.4 CLIP 模型的增強訓練與評估 197

7.4.1 項目介紹 197

7.4.2 定義數據集 198

7.4.3 創建模型 201

7.4.4 分詞器 207

7.4.5 損失函數 209

7.4.6 模型訓練 210

7.4.7 模型評估 218

7.4.8 文本重寫 221

第 8 章 基于多模態大模型的翻譯系統 225

8.1 背景介紹 225

8.2 系統分析 225

8.2.1 系統需求分析 225

8.2.2 技術架構分析 226

8.2.3 項目介紹 226

8.3 準備數據集 227

8.3.1 Multi30k 數據集介紹 227

8.3.2 下載 Multi30k 數據集 227

8.3.3 下載 WIT 數據集中的圖像數據 229

8.4 數據集處理 230

8.4.1 PyTorch 數據集類 230

8.4.2 數據處理和后處理 233

8.4.3 數據集填充 236

8.4.4 獲取 Multi30k 數據集的數據 237

8.4.5 獲取 WIT 數據集的數據 239

8.4.6 獲取 WMT 數據集的文本數據 241

8.5 多模態大模型 243

8.5.1 功能函數 243

8.5.2 適配器模型 244

8.5.3 獲取文本輸入的嵌入表示 245

8.5.4 多模態模型類 246

8.5.5 多模態文本生成任務模型 247

8.5.6 分布式訓練 248

8.5.7 模型訓練和測試 250

8.5.8 主程序 253

第 9 章 基于多模態大模型的音視頻廣義零樣本學習系統 256

9.1 背景介紹 256

9.2 系統分析 256

9.2.1 系統需求分析 256

9.2.2 功能分析 257

9.3 系統配置 258

9.3.1 命令行接口 258

9.3.2 數據集處理 260

9.3.3 輔助函數 267

9.4 特征提取 275

9.4.1 從 ActivityNet 數據集提取特征 275

9.4.2 從 UCF101 數據集提取特征 278

9.4.3 從 VGGSound 數據集提取特征 280

9.5 多模態模型 283

9.5.1 多模態數據學習模型 283

9.5.2 性能評估指標 289

9.5.3 模型優化器 295

9.5.4 模型訓練和驗證 296

9.5.5 模型的評估 300

9.5.6 主文件 302

9.6 調試運行 307

第 10 章 基于 Diffusion Transformer 的文生圖系統 310

10.1 Diffusion Transformer 介紹 310

10.1.1 Diffusion Transformer 的特點 310

10.1.2 Stable Diffusion 和 DiffusionTransformer 的區別和聯系 310

10.2 項目介紹 311

10.3 準備預訓練模型 312

10.4 擴散模型核心模塊 313

10.4.1 計算高斯分布概率 313

10.4.2 實現擴散模型 314

10.4.3 模型擴展 328

10.4.4 采樣器調度 330

10.5 訓練模型 333

10.5.1 定義不同配置的 DiT模型 333

10.5.2 *小訓練腳本 341

10.5.3 實現 DiT 模型 343

10.5.4 DiT 模型的標準訓練 344

10.5.5 DiT 模型的全精度訓練 347

10.5.6 DiT 模型的特征預訓練 352

10.5.7 DiT 模型的特原始訓練 352

10.5.8 DiT 模型的禁用 TF32 模式訓練 352

10.6 生成圖像 353

10.6.1 預訓練生成 353

10.6.2 基于 DDP 的圖像生成 354

10.7 調試運行 357
展開全部

多模態大模型技術與開發實戰 作者簡介

薛棟,華東理工大學信息科學與技術學院副教授/碩士生導師,德國慕尼黑工業大學工學博士,“上海市高層次青年人才計劃”、“浦江人才計劃”、華理“青年英才培育計劃”獲得者。長期從事基于人工智能與大數據相關研究,其中包括自然語言處理與大語言模型、工業互聯網與工業軟件、復雜網絡與多智能體系統等課題。主導多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉),以及通用多模態大模型KarmaVLM(相生),所主持的 GitHub 項目累計獲得超過 4000 次 Star。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 地埋式垃圾站厂家【佳星环保】小区压缩垃圾中转站转运站 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 便民信息网_家电维修,家电清洗,开锁换锁,本地家政公司 | 青岛侦探调查_青岛侦探事务所_青岛调查事务所_青岛婚外情取证-青岛狄仁杰国际侦探公司 | 不锈钢反应釜,不锈钢反应釜厂家-价格-威海鑫泰化工机械有限公司 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | ASA膜,ASA共挤料,篷布色母料-青岛未来化学有限公司 | 氢氧化钾厂家直销批发-济南金昊化工有限公司 | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 | 超声骨密度仪,双能X射线骨密度仪【起草单位】,骨密度检测仪厂家 - 品源医疗(江苏)有限公司 | 长春网站建设,五合一网站设计制作,免费优化推广-长春网站建设 | 水质监测站_水质在线分析仪_水质自动监测系统_多参数水质在线监测仪_水质传感器-山东万象环境科技有限公司 | 储气罐,真空罐,缓冲罐,隔膜气压罐厂家批发价格,空压机储气罐规格型号-上海申容压力容器集团有限公司 | 玖容气动液压设备有限公司-气液增压缸_压力机_增压机_铆接机_增压器 | BAUER减速机|ROSSI-MERSEN熔断器-APTECH调压阀-上海爱泽工业设备有限公司 | 药品仓库用除湿机-变电站用防爆空调-油漆房用防爆空调-杭州特奥环保科技有限公司 | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 全国国际学校排名_国际学校招生入学及学费-学校大全网 | 广州物流公司_广州货运公司_广州回程车运输 - 万信物流 | C形臂_动态平板DR_动态平板胃肠机生产厂家制造商-普爱医疗 | 济南ISO9000认证咨询代理公司,ISO9001认证,CMA实验室认证,ISO/TS16949认证,服务体系认证,资产管理体系认证,SC食品生产许可证- 济南创远企业管理咨询有限公司 郑州电线电缆厂家-防火|低压|低烟无卤电缆-河南明星电缆 | 专注氟塑料泵_衬氟泵_磁力泵_卧龙泵阀_化工泵专业品牌 - 梭川泵阀 | 烽火安全网_加密软件、神盾软件官网 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 | 深圳成考网-深圳成人高考报名网| 工业淬火油烟净化器,北京油烟净化器厂家,热处理油烟净化器-北京众鑫百科 | 粉末冶金注射成型厂家|MIM厂家|粉末冶金齿轮|MIM零件-深圳市新泰兴精密科技 | LED太阳能中国结|发光红灯笼|灯杆造型灯|节日灯|太阳能灯笼|LED路灯杆装饰造型灯-北京中海轩光电 | 大型多片锯,圆木多片锯,方木多片锯,板材多片锯-祥富机械有限公司 | 全自动翻转振荡器-浸出式水平振荡器厂家-土壤干燥箱价格-常州普天仪器 | 361°官方网站| 大行程影像测量仪-探针型影像测量仪-增强型影像测量仪|首丰百科 大通天成企业资质代办_承装修试电力设施许可证_增值电信业务经营许可证_无人机运营合格证_广播电视节目制作许可证 | 早报网 | 快速门厂家-快速卷帘门-工业快速门-硬质快速门-西朗门业 | 手板_手板模型制作_cnc手板加工厂-东莞天泓 | 十字轴_十字轴万向节_十字轴总成-南京万传机械有限公司 | 奥运星-汽车性能网评-提供个性化汽车资讯 | 济南轻型钢结构/济南铁艺护栏/济南铁艺大门-济南燕翔铁艺制品有限公司 | 上海阳光泵业制造有限公司 -【官方网站】 | SMC-SMC电磁阀-日本SMC气缸-SMC气动元件展示网 | 矿用履带式平板车|探水钻机|气动架柱式钻机|架柱式液压回转钻机|履带式钻机-启睿探水钻机厂家 |