-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
數據科學與工程算法基礎 版權信息
- ISBN:9787302680161
- 條形碼:9787302680161 ; 978-7-302-68016-1
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據科學與工程算法基礎 本書特色
本書是新興領域“十四五”高等教育教材,系統地介紹了特征工程、多類型數據表征、數據抽樣、圖計算、隨機優化算法、相似性度量、關聯性分析等相關知識與方法,涵蓋數據表征、數據計算和數據挖掘等多方面的內容。本書從數據科學與工程的基本概念和流程出發,逐步引領讀者進入數據科學的核心領域,全面理解和掌握數據科學的精髓,為進一步深入學習機器學習算法建立扎實的算法基礎。
數據科學與工程算法基礎 內容簡介
"本書對數據科學與工程中的算法基礎進行了全面的論述,把讀者引入數據科學的大門,為進一步學習和掌握大數據分析算法提供有力的支撐。本書介紹的數據科學與工程中的算法基礎包括特征工程、數據表征、數據抽樣、隨機優化算法和關聯性分析等,側重內容的科學性、實用性和前沿性。本書結構上注重理論與實踐并重,各章通過案例引出問題,并深入介紹回答類似問題需要的知識,*后通過實際案例串聯本章知識點,可以使讀者感受到算法的價值及其在解決實際問題中的實用性。 本書可以作為高等學校大數據、計算機等相關專業的教學用書,對科研機構的研究人員、工程技術人員也有一定的參考價值。 "
數據科學與工程算法基礎數據科學與工程算法基礎 前言
信息技術的飛速發展使數據的產生、存儲和處理能力達到了前所未有的高度。數據的豐富性和復雜性帶來了巨大的挑戰,同時也蘊藏著巨大的機遇。如何挖掘不同類型數據中蘊藏的豐富信息,已經成為大數據時代面臨的重要問題之一。數據科學與工程,作為一門新興的交叉學科,正是為了應對這一挑戰而誕生的。數據科學與工程以數據為研究對象,通過綜合運用數學、統計學、計算機技術等方法對數據進行處理和分析,以實現數據的價值。數據科學與工程的核心是算法,它們是處理數據、提取信息、發現模式和預測未來的強大引擎。
本書旨在培養新工科背景下具備數據科學思維,掌握數據科學與工程算法的大數據專業人才。本書系統地介紹了特征工程、多類型數據表征、數據抽樣、圖計算、隨機優化算法、相似性度量、關聯性分析等相關知識與方法,涵蓋數據表征、數據計算和數據挖掘等多方面的內容。本書從數據科學與工程的基本概念和流程出發,逐步引領讀者進入數據科學的核心領域,全面理解和掌握數據科學的精髓,為進一步深入學習機器學習算法打下扎實的基礎。
全書共8章,內容包括緒論、特征工程、多類型數據表征、數據抽樣、圖計算、隨機優化算法、相似性度量、關聯性分析,不僅覆蓋了傳統數據科學領域的重要算法,還涉及*新的研究進展,如圖計算、因果分析、多模態數據融合等前沿技術,使得本書既具有廣度又具有深度。同時,本書內容結構遵循學習規律: 首先通過“問題導入”,建立現實問題與數據科學與工程相關技術的關系,明確學習目標,激發學生學習數據科學與工程相關技術的興趣; 然后,構建相關的知識體系,介紹算法及其演化,提高學生描述問題的表達能力、解決問題的算法思維能力; 在此基礎上,通過剖析典型案例,有力提高學生對知識和方法的掌握與綜合運用能力,并提升學生對復雜工程問題的分析能力、綜合處理能力和創新探究能力; *后對本章內容進行總結,并提供選擇題、計算題、思考題等供讀者練習。
本書由徐明華、陳志剛、羅俊如擔任主編,官威博士和郝亞東博士擔任副主編。研究生丁言瑞、汪池和徐昕瑜參與了本書部分案例的編寫,并參與了書稿的校對工作,徐守坤教授、石林教授、邵輝教授、胡超副教授等對本書提出了許多寶貴意見,這里一并表示感謝。
本書在編寫過程中參考和引用了許多專家和學者的資料,在此表示衷心的感謝。*后也要感謝所有為本書的編寫、審校和出版付出辛勤勞動的工作人員。由于編者水平有限,時間倉促,書中難免存在不足之處,敬請讀者批評指正。
編者
2024年12月
數據科學與工程算法基礎 目錄
第1章緒論
1.1概況
1.2數據分析
1.2.1流程
1.2.2算法分類
1.2.3基本原則
1.3算法基礎
1.4本章小結
習題
第2章特征工程
2.1問題導入
2.2特征提取
2.3特征探索性分析
2.3.1單變量分析
2.3.2多變量分析
2.4特征預處理
2.4.1缺失值處理
2.4.2異常值處理
2.4.3特征變換
2.5特征選擇
2.5.1過濾法
2.5.2封裝法
2.5.3嵌入法
2.6案例: 工業設備信號特征工程
2.7本章小結
習題
第3章多類型數據表征
3.1問題導入
3.2時序數據表征
3.2.1頻域特征
3.2.2時頻域特征
3.3文本數據表征
3.3.1詞袋模型
3.3.2TFIDF特征
3.3.3詞向量嵌入
3.4圖像數據表征
3.4.1圖像處理基礎
3.4.2SIFT
3.4.3HOG
3.4.4深度特征表示
3.4.5多模態特征融合
3.5案例: 農作物病蟲害圖像表征
3.6本章小結
習題
第4章數據抽樣
4.1問題導入
4.2概率抽樣
4.3非均衡抽樣
4.3.1樣本分布不均衡問題
4.3.2過采樣
4.3.3欠采樣
4.4數據流抽樣
4.4.1數據流抽樣問題
4.4.2蓄水池抽樣
4.5蒙特卡洛抽樣
4.5.1直接采樣
4.5.2接受拒絕采樣
4.5.3重要性采樣
4.6案例: 基于SMOTE的信用卡交易欺詐數據采樣
4.7本章小結
習題
第5章圖計算
5.1問題導入
5.2圖網絡
5.2.1圖網絡表示
5.2.2網絡結構分類
5.2.3網絡描述性統計
5.3圖基礎算法
5.3.1圖遍歷
5.3.2圖分割
5.4社區發現
5.4.1模塊度
5.4.2GN算法
5.4.3譜方法
5.5GraphScope簡介
5.6案例: 基于譜聚類的圖像分割
5.7本章小結
習題
第6章隨機優化算法
6.1問題導入
6.2梯度下降算法
6.3隨機梯度下降算法
6.4梯度加速方法
6.4.1動量法
6.4.2Nesterov梯度加速
6.4.3自適學習率加速方法
6.5方差縮減
6.5.1方差縮減技術
6.5.2方差縮減算法
6.6案例: 邏輯回歸模型優化算法
6.7本章小結
習題
第7章相似性度量
7.1問題導入
7.2相關系數
7.2.1皮爾遜相關系數
7.2.2余弦相似度
7.2.3Jaccard相似系數
7.3距離度量
7.3.1歐氏空間的距離度量
7.3.2流形空間的距離度量
7.3.3時間序列的距離度量
7.4概率散度
7.4.1f散度
7.4.2積分概率度量
7.5案例: 金融時間序列數據分析
7.6本章小結
習題
第8章關聯性分析
8.1問題導入
8.2非線性相關性分析
8.3典型關聯分析
8.4關聯規則
8.4.1關聯規則描述
8.4.2關聯規則挖掘
8.4.3數值型關聯規則挖掘
8.5因果分析
8.5.1結構因果模型與圖模型
8.5.2因果效應評估
8.6案例: 購物車數據挖掘
8.7本章小結
習題
參考文獻
- >
羅庸西南聯大授課錄
- >
唐代進士錄
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
李白與唐代文化
- >
有舍有得是人生
- >
中國歷史的瞬間
- >
推拿
- >
大紅狗在馬戲團-大紅狗克里弗-助人