中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
>
多模態大模型技術與開發實戰

包郵 多模態大模型技術與開發實戰

作者:薛棟 著
出版社:人民郵電出版社出版時間:2025-02-01
開本: 16開 頁數: 359
中 圖 價:¥81.3(7.4折) 定價  ¥109.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

多模態大模型技術與開發實戰 版權信息

  • ISBN:9787115655387
  • 條形碼:9787115655387 ; 978-7-115-65538-7
  • 裝幀:平裝
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:

多模態大模型技術與開發實戰 本書特色

本書用三個案例講解多模態大模型的落地實踐



系統地講解了多模態技術的基礎理論、發展歷程及其廣泛的應用場景,深入地介紹了圖像、文本、音頻和視頻等多模態數據的處理方法。



內容涵蓋主流深度學習框架和多模態模型的核心原理,并配以實際開發中的應用案例與完整實例代碼。



詳細講解了多模態數據的預處理、數據增強和特征提取方法,系統地闡述了多模態表示學習的關鍵技術,并提供全面的模型評估與驗證方法。



通過實用案例介紹了多模態翻譯系統的開發過程、基于多模態大模型的音視頻廣義零樣本學習系統的實現,以及文生圖生成系統的設計思路,為讀者提供豐富的實戰案例與開發指導。
本書用三個案例講解多模態大模型的落地實踐



系統地講解了多模態技術的基礎理論、發展歷程及其廣泛的應用場景,深入地介紹了圖像、文本、音頻和視頻等多模態數據的處理方法。



內容涵蓋主流深度學習框架和多模態模型的核心原理,并配以實際開發中的應用案例與完整實例代碼。



詳細講解了多模態數據的預處理、數據增強和特征提取方法,系統地闡述了多模態表示學習的關鍵技術,并提供全面的模型評估與驗證方法。



通過實用案例介紹了多模態翻譯系統的開發過程、基于多模態大模型的音視頻廣義零樣本學習系統的實現,以及文生圖生成系統的設計思路,為讀者提供豐富的實戰案例與開發指導。



作者主導多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉),以及通用多模態大模型KarmaVLM(相生),所主持的 GitHub 項目累計獲得超過 4000 次 Star。

多模態大模型技術與開發實戰 內容簡介

本書循序漸進地闡述了多模態大模型的核心開發技術與應用實戰的知識。全書共10章,分別講解了多模態技術概述、多模態模型與框架、多模態數據處理、多模態表示學習、多模態嵌入表示、多模態大模型的訓練、多模態大模型的評估與驗證、基于多模態大模型的翻譯系統、基于多模態大模型的音視頻廣義零樣本學習系統、基于Diffusion Transformer的文生圖系統。全書簡潔而不失技術深度,內容豐富全面,案例翔實,以通俗易懂的文字介紹了復雜的知識體系,易于閱讀,是學習多模態大模型開發的實用教程。 本書適用于已經了解了Python語言基礎語法,想進一步學習大模型開發、自然語言處理、計算機視覺處理、機器學習、深度學習技術的讀者,還可以作為各類院校相關專業師生的學習用書和培訓學校的教材。

多模態大模型技術與開發實戰 目錄

第 1 章 多模態技術概述 1

1.1 多模態技術簡介 1

1.1.1 什么是多模態 1

1.1.2 多模態技術的發展歷史 2

1.1.3 多模態技術的應用場景 3

1.2 多模態數據類型 4

1.2.1 常見的多模態類型 4

1.2.2 圖像數據 4

1.2.3 文本數據 5

1.2.4 音頻數據 5

1.2.5 視頻數據 6

1.3 多模態技術的基本原理 6

1.3.1 數據融合與對齊 6

1.3.2 多模態表示學習 7

1.3.3 多模態推理 8

第 2 章 多模態模型與框架 10

2.1 常用的深度學習框架 10

2.1.1 Tensor Flow 10

2.1.2 PyTorch 11

2.1.3 Keras 11

2.1.4 Transformer 12

2.2 多模態模型技術 13

2.2.1 ViLBERT 模型 13

2.2.2 VisualBERT 模型 14

2.2.3 OpenAI CLIP 模型 15

2.2.4 UNITER 模型 16

2.2.5 LXMERT 模型 17

2.2.6 SigLIP 模型 18

2.2.7 LoRA 微調技術 18

2.2.8 LLaVA 模型 18

2.3 預訓練模型 19

2.3.1 預訓練模型簡介 19

2.3.2 使用預訓練模型 20

2.3.3 預訓練模型的微調 24

第 3 章 多模態數據處理 28

3.1 數據預處理 28

3.1.1 文本預處理 28

3.1.2 圖像預處理 39

3.1.3 音頻預處理 43

3.1.4 視頻預處理 50

3.2 數據增強 51

3.2.1 文本數據增強 51

3.2.2 圖像數據增強 54

3.2.3 音頻數據增強 55

3.2.4 視頻數據增強 57

3.3 特征提取 59

3.3.1 特征在大模型中的關鍵作用 60

3.3.2 文本特征提取 60

3.3.3 圖像特征提取 64

3.3.4 音頻特征提取 67

3.3.5 視頻特征提取 68

第 4 章 多模態表示學習 71

4.1 多模態表示學習介紹 71

4.1.1 多模態表示學習簡介 71

4.1.2 多模態表示學習的主要方法 71

4.2 多模態表示學習方法 72

4.2.1 表示融合 72

4.2.2 聯合學習 76

4.2.3 表示對齊 79

4.2.4 模態間關系建模 83

4.3 基于 S3D MIL-NCE 的多模態文本到視頻檢索 86

4.3.1 項目介紹 86

4.3.2 準備工作 87

4.3.3 視頻加載和可視化 87

4.3.4 加載視頻并定義文本查詢 89

4.3.5 預處理視頻和查詢 90

4.3.6 展示結果 90

第 5 章 多模態嵌入模式 92

5.1 多模態嵌入基礎 92

5.1.1 多模態嵌入介紹 92

5.1.2 多模態嵌入的應用 92

5.2 圖像嵌入 93

5.2.1 圖像嵌入介紹 93

5.2.2 圖像特征提取 94

5.2.3 模態對齊 97

5.2.4 CLIP 模型 100

5.3 文本嵌入 101

5.3.1 多模態模型中的文本嵌入 101

5.3.2 基于 CLIP 模型的文本嵌入 103

5.4 音頻嵌入 105

5.4.1 音頻特征提取 105

5.4.2 常用音頻嵌入模型 107

5.5 多模態圖像搜索引擎 109

5.5.1 項目介紹 109

5.5.2 CLIP 模型的配置參數 110

5.5.3 數據集處理 111

5.5.4 實現 Bangla CLIP 模型 115

5.5.5 基于文本的圖像搜索 117

5.5.6 基于 Streamlit 的 Web客戶端 118

第 6 章 多模態大模型的訓練 121

6.1 模型訓練的過程 121

6.2 訓練策略 122

6.2.1 預訓練與微調 122

6.2.2 多任務學習 125

6.2.3 全量微調 127

6.2.4 對比學習 129

6.2.5 參數高效微調 131

6.2.6 遷移學習 133

6.2.7 人類反饋強化學習 135

6.2.8 動態學習率調整 137

6.2.9 SFT 微調 138

6.3 CLIP 模型訓練與微調 141

6.3.1 項目介紹 141

6.3.2 創建文本和圖像配對數據集 142

6.3.3 構建多模態模型 145

6.3.4 訓練模型 161

6.3.5 模型微調 162

6.3.6 調試運 162

第 7 章 多模態大模型的評估與驗證 164

7.1 模型評估 164

7.1.1 模型評估的必要性 164

7.1.2 評估指標 165

7.1.3 單模態性能評估 168

7.1.4 多模態融合性能評估 170

7.1.5 效率與資源使用 171

7.1.6 定性評估和復雜場景評估 172

7.1.7 語音命令識別系統 173

7.2 模型驗證 183

7.2.1 模型驗證的必要性 183

7.2.2 數據準備和分割 184

7.2.3 交叉驗證 185

7.2.4 嵌套交叉驗證 188

7.2.5 模態間一致性驗證 189

7.2.6 模型魯棒性驗證 190

7.2.7 驗證指標 192

7.3 多模態大模型評估基準 195

7.3.1 MM-Vet 195

7.3.2 MMEvalPro 196

7.3.3 MMT-Bench 197

7.4 CLIP 模型的增強訓練與評估 197

7.4.1 項目介紹 197

7.4.2 定義數據集 198

7.4.3 創建模型 201

7.4.4 分詞器 207

7.4.5 損失函數 209

7.4.6 模型訓練 210

7.4.7 模型評估 218

7.4.8 文本重寫 221

第 8 章 基于多模態大模型的翻譯系統 225

8.1 背景介紹 225

8.2 系統分析 225

8.2.1 系統需求分析 225

8.2.2 技術架構分析 226

8.2.3 項目介紹 226

8.3 準備數據集 227

8.3.1 Multi30k 數據集介紹 227

8.3.2 下載 Multi30k 數據集 227

8.3.3 下載 WIT 數據集中的圖像數據 229

8.4 數據集處理 230

8.4.1 PyTorch 數據集類 230

8.4.2 數據處理和后處理 233

8.4.3 數據集填充 236

8.4.4 獲取 Multi30k 數據集的數據 237

8.4.5 獲取 WIT 數據集的數據 239

8.4.6 獲取 WMT 數據集的文本數據 241

8.5 多模態大模型 243

8.5.1 功能函數 243

8.5.2 適配器模型 244

8.5.3 獲取文本輸入的嵌入表示 245

8.5.4 多模態模型類 246

8.5.5 多模態文本生成任務模型 247

8.5.6 分布式訓練 248

8.5.7 模型訓練和測試 250

8.5.8 主程序 253

第 9 章 基于多模態大模型的音視頻廣義零樣本學習系統 256

9.1 背景介紹 256

9.2 系統分析 256

9.2.1 系統需求分析 256

9.2.2 功能分析 257

9.3 系統配置 258

9.3.1 命令行接口 258

9.3.2 數據集處理 260

9.3.3 輔助函數 267

9.4 特征提取 275

9.4.1 從 ActivityNet 數據集提取特征 275

9.4.2 從 UCF101 數據集提取特征 278

9.4.3 從 VGGSound 數據集提取特征 280

9.5 多模態模型 283

9.5.1 多模態數據學習模型 283

9.5.2 性能評估指標 289

9.5.3 模型優化器 295

9.5.4 模型訓練和驗證 296

9.5.5 模型的評估 300

9.5.6 主文件 302

9.6 調試運行 307

第 10 章 基于 Diffusion Transformer 的文生圖系統 310

10.1 Diffusion Transformer 介紹 310

10.1.1 Diffusion Transformer 的特點 310

10.1.2 Stable Diffusion 和 DiffusionTransformer 的區別和聯系 310

10.2 項目介紹 311

10.3 準備預訓練模型 312

10.4 擴散模型核心模塊 313

10.4.1 計算高斯分布概率 313

10.4.2 實現擴散模型 314

10.4.3 模型擴展 328

10.4.4 采樣器調度 330

10.5 訓練模型 333

10.5.1 定義不同配置的 DiT模型 333

10.5.2 *小訓練腳本 341

10.5.3 實現 DiT 模型 343

10.5.4 DiT 模型的標準訓練 344

10.5.5 DiT 模型的全精度訓練 347

10.5.6 DiT 模型的特征預訓練 352

10.5.7 DiT 模型的特原始訓練 352

10.5.8 DiT 模型的禁用 TF32 模式訓練 352

10.6 生成圖像 353

10.6.1 預訓練生成 353

10.6.2 基于 DDP 的圖像生成 354

10.7 調試運行 357
展開全部

多模態大模型技術與開發實戰 作者簡介

薛棟,華東理工大學信息科學與技術學院副教授/碩士生導師,德國慕尼黑工業大學工學博士,“上海市高層次青年人才計劃”、“浦江人才計劃”、華理“青年英才培育計劃”獲得者。長期從事基于人工智能與大數據相關研究,其中包括自然語言處理與大語言模型、工業互聯網與工業軟件、復雜網絡與多智能體系統等課題。主導多個垂直領域的大模型項目,包括心理領域的MindChat(漫談)、醫療領域的 Sunsimiao(孫思邈)、教育領域的 GradChat(錦鯉),以及通用多模態大模型KarmaVLM(相生),所主持的 GitHub 項目累計獲得超過 4000 次 Star。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 北京康百特科技有限公司-分子蒸馏-短程分子蒸馏设备-实验室分子蒸馏设备 | 动物麻醉机-数显脑立体定位仪-北京易则佳科技有限公司 | 同学聚会纪念册制作_毕业相册制作-成都顺时针宣传画册设计公司 | 打包钢带,铁皮打包带,烤蓝打包带-高密市金和金属制品厂 | 大米加工设备|大米加工机械|碾米成套设备|大米加工成套设备-河南成立粮油机械有限公司 | 东莞螺杆空压机_永磁变频空压机_节能空压机_空压机工厂批发_深圳螺杆空压机_广州螺杆空压机_东莞空压机_空压机批发_东莞空压机工厂批发_东莞市文颖设备科技有限公司 | 【法利莱住人集装箱厂家】—活动集装箱房,集装箱租赁_大品牌,更放心 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 干洗加盟网-洗衣店品牌排行-干洗设备价格-干洗连锁加盟指南 | 苏州防水公司_厂房屋面外墙防水_地下室卫生间防水堵漏-苏州伊诺尔防水工程有限公司 | 磁力轮,磁力联轴器,磁齿轮,钕铁硼磁铁-北京磁运达厂家 | 中红外QCL激光器-其他连续-半导体连续激光器-筱晓光子 | 硬质合金模具_硬质合金非标定制_硬面加工「生产厂家」-西迪技术股份有限公司 | 电动不锈钢套筒阀-球面偏置气动钟阀-三通换向阀止回阀-永嘉鸿宇阀门有限公司 | 扬州汇丰仪表有限公司| 玉米加工设备,玉米深加工机械,玉米糁加工设备.玉米脱皮制糁机 华豫万通粮机 | 阁楼货架_阁楼平台_仓库仓储设备_重型货架_广州金铁牛货架厂 | 行业分析:提及郑州火车站附近真有 特殊按摩 ?2025实地踩坑指南 新手如何避坑不踩雷 | 合肥礼品公司-合肥礼品定制-商务礼品定制公司-安徽柏榽商贸有限公司 | 低粘度纤维素|混凝土灌浆料|有机硅憎水粉|聚羧酸减水剂-南京斯泰宝 | 大巴租车平台承接包车,通勤班车,巴士租赁业务 - 鸿鸣巴士 | 赛尔特智能移动阳光房-阳光房厂家-赛尔特建筑科技(广东)有限公司 | 神超官网_焊接圆锯片_高速钢锯片_硬质合金锯片_浙江神超锯业制造有限公司 | 信阳网站建设专家-信阳时代网联-【信阳网站建设百度推广优质服务提供商】信阳网站建设|信阳网络公司|信阳网络营销推广 | 水热合成反应釜-防爆高压消解罐-西安常仪仪器设备有限公司 | 环球电气之家-中国专业电气电子产品行业服务网站! | 有机肥设备生产制造厂家,BB掺混肥搅拌机、复合肥设备生产线,有机肥料全部加工设备多少钱,对辊挤压造粒机,有机肥造粒设备 -- 郑州程翔重工机械有限公司 | 加热制冷恒温循环器-加热制冷循环油浴-杭州庚雨仪器有限公司 | 磁力抛光研磨机_超声波清洗机厂家_去毛刺设备-中锐达数控 | 天津中都白癜风医院_天津白癜风医院_天津治疗白癜风 | 北京发电车出租-发电机租赁公司-柴油发电机厂家 - 北京明旺盛安机电设备有限公司 | 沈阳庭院景观设计_私家花园_别墅庭院设计_阳台楼顶花园设计施工公司-【沈阳现代时园艺景观工程有限公司】 | 舞台木地板厂家_体育运动木地板_室内篮球馆木地板_实木运动地板厂家_欧氏篮球地板推荐 | HV全空气系统_杭州暖通公司—杭州斯培尔冷暖设备有限公司 | 百度关键词优化_网站优化_SEO价格 - 云无限好排名 | 首页-恒温恒湿试验箱_恒温恒湿箱_高低温试验箱_高低温交变湿热试验箱_苏州正合 | 翻斗式矿车|固定式矿车|曲轨侧卸式矿车|梭式矿车|矿车配件-山东卓力矿车生产厂家 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 超声波破碎仪-均质乳化机(供应杭州,上海,北京,广州,深圳,成都等地)-上海沪析实业有限公司 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 杭州代理记账多少钱-注册公司代办-公司注销流程及费用-杭州福道财务管理咨询有限公司 |