-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據分析實用教程 版權信息
- ISBN:9787121408137
- 條形碼:9787121408137 ; 978-7-121-40813-7
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
數據分析實用教程 本書特色
SAS中國團隊作品,清華、北大等高校之選,高校選此書作為教材可免費使用軟件、數據集、課件等資源SAS中國團隊作品,清華、北大等高校之選,高校選此書作為教材可免費使用軟件、數據集、課件等資源推薦者序一在剛剛進入21 世紀的第二個十年,我們有一位研究生畢業以后加入了SAS 中國研發中心文本分析團隊,由此,建立起了北京大學和SAS 之間的合作。我們經常會組織一些學術交流。SAS 總部領導到了北京以后,也會邀請我一同交流與溝通。那時候,社會上剛剛興起大數據熱,我們交流的題目都很熱門,與以往其他企業的交流完全不一樣。SAS 是世界領先的數據分析廠商,在這個領域已經有了幾十年的歷史,很多產品都是世界領先的。 經過一段時間的交流,我們之間有了很多的了解,我也在考慮為北京大學引入一門數據分析課程,把SAS 過去幾十年的經驗分享給同學們。2012 年上半年,我跟SAS 中國研發中心總經理劉政博士商量由他們在北京大學開設一門數據分析課程。劉政博士是SAS 中國研發中心總經理,負責SAS 全球三大研發中心之一的整體運作。劉政博士于2002 年回國,一直致力于提高中國高校在信息技術方面的教育水平。從 2003 年起,劉政博士參與了中國科學技術大學在北京的軟件工程碩士項目的教學工作;在2012 年,他又積極推動開啟了SAS 軟件在中國高校的免費項目。當時,SAS 還沒有為中國的大學提供免費的軟件。 劉政博士開始跟美國總部進行溝通,經過幾個月的不懈努力,SAS **個中國大學校園項目落戶北京大學。 2012 年秋季學期,由SAS 中國研發中心總經理劉政博士帶領的團隊正式在北京大學信息科學技術學院開設研究生和本科生合上的公選課程“統計分析與商務智能”。這是SAS 公司首次與中國高校聯合開設課程。該課程由一線高級工程師介紹前沿的大數據分析技術,受到了來自信息學院、數學學院、元培學院、光華管理學院、工學院等選課學生的廣泛好評。2020 年已經是這門課程開設的第九個年頭。隨著大數據和人工智能的發展,會有越來越多的學生選修這門課程。 大數據是計算機應用和互聯網發展帶來的時代產物。它的出現讓一切都有跡可循,有源可溯。我們每天都在生產和使用數據,而且我們一直都生活在一個大數據時代里,只是我們渾然不覺。由于技術的局限性,人們在很長一段時間里沒有辦法使用這些集容量大、種類多、增長速度快等特征于一身的全量數據。隨著技術的發展與創新,大數據分析正在成為各行各業的**技能,以及企業管理和決策的重要依據。因此,大數據分析在生產活動中扮演著越來越重要的角色,很多新興行業,譬如物聯網、人工智能、金融科技、生命科學等都是建立在這一基礎之上的。電商等互聯網企業在擁有了海量的用戶數據之后,開始著手開展各類數據分析工作,以支撐自身的電子商務、定向廣告和影視娛樂等業務。面對快速增長的個人貸業務及不斷變化的個貸市場環境和政策,某銀行基于大數據分析突破了傳統審批流程和風險控制過程中的業務發展“瓶頸”,在市場競爭中迅速準確地制定相關的貸款政策,量化控制風險率、批準率。零售企業通過大數據建立用戶畫像,并監控營銷活動的實時數據,確定*佳營銷方案,實現精準營銷。制造行業通過收集流水線上各種儀器的參數數據,找到更優的工藝參數,從而降低生產成本,提高生產效率。這些具有大數據分析戰略和能力的企業終將在市場上占據主動。 大數據分析戰略著眼于對數據進行專業化處理,其重點應在“分析”二字,而不僅僅是獲取海量數據。當前有關大數據的信息繁多,談的問題都不太系統,談技術的多,談分析的少。如何進行有效的數據處理、分析,找出數據內部蘊含的模式和規律才是大數據分析的根本。而數據分析能力的強弱將直接影響一個企業對數據的使用情況,也能反映其在市場上的競爭力。獵聘2019 年大數據人才就業趨勢報告顯示:中國大數據人才缺口高達150 萬人,其中需要具備行業背景知識的大數據分析行業,如金融領域的數據分析行業,尚未完全開啟的人工智能、物聯網、智慧城市等新興行業,未來將有大量的人才需求。海量信息的搜索、實時通信工具的信息傳遞、引發億級流量的電商購物、億萬游戲玩家的數據信息處理、互聯網金融的風險控制等,都需要大量的數據分析人才。所以數據分析人才正在成為這個時代的寵兒。 大數據分析不僅涉及計算機軟件開發領域的專業技能,還涉及數學和統計相關學科的理論知識。在時代需求的背景下,北京大學信息科學技術學院與SAS 中國研發中心自2012 年起展開合作,成功開設了運用SAS 進行數據處理、數據分析的課程,為北京大學各專業的學生提供了學習并實踐數據分析的機會。SAS 公司專門為該課程提供了免費使用的商業軟件。該課程很好地結合了數據分析的理論知識、實用案例分析、軟件使用和程序編寫,給學生創造了一個深入淺出的學習曲線。借此契機,SAS 中國研發中心的教師秉持SAS 在數據分析領域的專注和嚴謹,通過總結日常學生的課堂反饋和學習成果,不斷改進課程內容編排并適時地與當前大數據分析的趨勢相結合,經過幾個月的精心編寫,完成了《數據分析實用教程》一書。 本書著眼于實戰,匯集了統計學、多元統計學和SAS 編程分析技術的核心要點,以清晰的學習脈絡為引導,并輔以貫穿各種分析案例的簡潔的分析代碼。本書開篇生動有趣地介紹了統計學代表人物的故事,向讀者描繪了一幅清晰完整的統計學發展歷程,對多種統計思維模式做了集中介紹,為接下來的統計學基本概念、描述性統計、推斷性統計等內容的講解奠定了基礎。本書以方差分析、相關分析與回歸分析、Logistic 回歸、主成分分析與因子分析、聚類分析、判別分析、時間序列分析為重點,介紹了各類分析的基本思想和概念;結合實際案例數據和詳細的分析過程,對分析思想進行了全面細致的介紹,使統計分析的理論知識和現實應用相呼應,具有很強的可操作性,易于理解和研習。 作者融入了多年的統計分析經驗,總結了不同分析方法之間的特點,對各方法的應用場景和注意事項提出了獨到的見解,通過大量統計分析圖形和細致的分析報告展示了重點內容,并輔以SAS 程序的分析結果對前面的知識點進行了印證。更難能可貴的是,即使沒有任何SAS 編程經驗的初學者,也能通過自學開始一段奇妙的SAS 數據分析之旅。 本書配套提供了完整的課件、練習數據和課后實踐代碼,為使用本書的授課教師節省了大量時間。同時授課高校可以獲得SAS 公司的軟件支持,方便師生使用。對于自學的讀者,該書提供了SAS 免費軟件SAS University Edition 的專題介紹,讀者可以按照操作步驟自行搭建SAS 軟件的運行環境,通過運行教程中的SAS 程序或自行編寫的程序,真正做到理論與實踐相結合。 本書用翔實的內容、獨到的實踐總結和完備的課件,充分展現了作者的誠意和對推動數據分析人才建設的初心,旨在為有志成為新一代數據分析人才的讀者提供一本高效實用的學習教程,幫助他們在大數據分析的浪潮中積蓄力量。根據我八年來與SAS 團隊的合作經驗,這是一本值得推薦的好書。 北京大學教授張銘博士 推薦者序二談到“統計學”一詞的由來,人們往往會追溯到300 多年前歐洲對國勢學的研究,但如果討論廣義統計概念(包括計數、匯總等含義)的應用,其歷史應該遠早于城邦的出現,甚至可以追至遠古。統計伴隨著人類計數記事的需求,一路走來成為人們生產和生活中不可或缺的工具。四大文明古國都無一例外地留下了運用統計方法治國理政的印跡。隨著回歸分析和相關分析、假設檢驗、? 2分布和t 分布等理論的出現,現代數理統計學逐漸發展成為一門完整的學科。人們的關注點也從計數統計、描述統計逐漸轉向推理統計、預測統計。根據不同應用對象的特征,統計學又衍生出社會統計學、生物統計學等不同分支。 與其他學科一樣,統計學一直在發現和研究現實世界(自然的、社會的)的規律,并逐漸向學術研究和實踐應用兩個方向發展。與其他學科不一樣的是,統計學以概率論為基礎,從誕生起就有著定性“精準”、定量“模糊”的特征。在小數據時代,數據采集成本很高,計算能力受限,人們不得不探索用部分樣本數據來推斷整體,用科學的手段減少樣本選擇偏差,不斷提高置信度。 21 世紀初,大數據技術浪潮撲面而來,計算能力、傳輸能力、存儲能力都有了大幅度提高,數據的采集成本、傳輸成本、存儲成本及計算成本都在迅速降低,對社會生活中的數據規律的探究也迎來了新的機遇與挑戰。曾一度有人議論,既然我們已經有能力關注全量數據而不再只是關注抽樣數據,那就不再需要統計學了。事實并非如此。宇宙是無限的,而人類的認識是有限的。人類一直在試圖用數據逼近事實真相,大數據時代只是賦予了人們增加數據維度和細化數據顆粒度的能力,使人們有機會更接近事實真相而已。哪有什么絕對的全量數據!人們能采集、能計算的數據不論是維度還是顆粒度永遠都是有限的。人類的計算能力永遠趕不上數據的增長速度,統計學通過對有限的數據進行分析,用以呈現更大范圍內有統計意義的事實,其方法論在大數據時代依然有學習、借鑒和應用的價值。特別是對統計學中建模思想的借鑒,是未來大數據分析師的基本技能。 在過去一段時間里,由于政策導向,學院派以發表學術文章為目的的統計學和應用統計日漸脫節,從高校統計學教科書的內容組織上看也是重理論、輕實踐。近年來,國家越來越重視“產教融合”“產研融合”,旨在改變學術脫離實踐的現象。科技是**生產力,越是經濟下行壓力大的時候,越要讓學術為生產力服務,為實業賦能。在我國,人才短缺是困擾大數據發展的問題之一。傳統教學內容跟不上科技的發展,跟不上社會的需求,學生的能力結構就出現了偏差。因此,需要在教授統計學的一招一式時與實踐相結合。《數據分析實用教程》正是在這樣一個背景下面世的。 本書由劉政博士領銜組織撰寫。劉政博士的應用統計學功底深厚,任職SAS 軟件研究開發(北京)有限公司總經理多年。我有幸邀請劉政博士擔任清華大學大數據碩士項目教育指導委員會主任,并請他為跨專業跨領域的大數據碩士項目學生講授“數據分析與優化建模”課程。這是一項極具挑戰性的任務,因為大數據碩士項目的學生來自不同的專業(相關統計數據顯示全校44 個院系都有學生參加該項目),有著不同的教育背景和知識結構,而且這個項目要求突顯實踐應用,教學難度很大。 劉政博士及其團隊在面對北大、清華兩所高校不同教學要求的情況下,積累了高校的統計學教學經驗,加之對產業應用的深刻理解,確立了本書的定位。本書不僅較為全面地涵蓋了統計分析的相關內容,而且附以豐富的應用案例,有理論、有實踐,讓讀者能夠學以致用。本書既可以作為教科書,也可以當成工具書。 為本書寫推薦者序時,正值新冠肺炎猖獗,居家隔離,思緒萬千。我們以為大數據可以把我們武裝起來,變得無敵。突如其來的災害告訴了我們自身的脆弱,人類還有很多未知的東西等待我們探索。同17 年前的SARS 相比,隨著城鎮化的推進,交通的發達,同是以空氣傳播為主的傳染病,但其擴散模型一定是不同的,相應的防控措施也要有所不同。有很多災中、災后的寶貴數據等著我們去分析、去利用。 大數據時代無疑為人類帶來了觀察事物的全新視角,給各產業、各領域的發展帶來了新的機遇。大數據人才知識結構中重要的組成部分就是數理統計能力和數據建模能力。對于想在大數據時代“建功立業”的在校學生或已走上社會的新生代,學習本書都將大有裨益。 清華大學數據科學研究院原執行副院長韓亦舜
數據分析實用教程 內容簡介
本書共 14 章,內容涵蓋:統計學的基本概念、推斷性統計的相關理論和實例、方差分析、相關分析與回歸分析、Logistic 回歸、主成分分析與因子分析、聚類分析、判別分析、時間序列分析、SAS 編程基礎、宏的概念和應用原理及上機練習指導。本書內容全面,匯集了統計學、多元統計學和 SAS 編程技術的核心內容。本書針對不同的實戰案例進行分析和總結,并展示了程序運行的結果,使之具有較強的可操作性,便于讀者理解和研習。本書可作為各行業數據分析師的應用參考書、開設數據分析課程的高校中的教師講義,以及希望進入數據分析領域的人員的自學讀物。
數據分析實用教程 目錄
第1 章 描述性統計 . 1
1.1 統計學的發展歷史 1
1.2 統計學的基礎知識 4
1.3 連續型隨機變量的概率分布 18
1.4 概率與二項分布 26
1.5 兩大極限定理 33
1.6 數據類型與圖示 38
第2 章 推斷性統計:參數估計 45
2.1 推斷性統計概述 45
2.2 點估計 46
2.3 區間估計 54
第3 章 推斷性統計:假設檢驗 69
3.1 假設檢驗 69
3.2 參數檢驗 76
3.3 置信區間檢驗和P 值檢驗 91
3.4 非參數檢驗 94
3.5 非參數檢驗——符號檢驗法 95
3.6 非參數檢驗——秩和檢驗 98
第4 章 方差分析 108
4.1 方差分析的提出 108
4.2 單因素方差分析 111
4.3 雙因素方差分析的概念及其基本假定 123
4.4 多因素方差分析 132
第5 章 相關分析與回歸分析 140
5.1 相關分析 140
5.2 回歸分析 150
5.3 簡單線性回歸 150
5.4 多元線性回歸 159
5.5 可變換為線性回歸的曲線回歸 174
第6 章 Logistic 回歸 175
6.1 交叉表分析 175
6.2 一元Logistic 回歸 184
6.3 多元Logistic 回歸 192
6.4 有交互效應的多元Logistic 回歸 196
第7 章 主成分分析與因子分析 202
7.1 主成分分析的概念與原理 202
7.2 主成分分析SAS 實例 209
7.3 因子分析 219
7.4 因子分析SAS 實例 227
第8 章 聚類分析 234
8.1 聚類與分類的區別 234
8.2 案例:消費者分類問題 234
8.3 聚類分析概述 235
8.4 層次聚類 240
8.5 K 均值聚類 246
8.6 確定聚類數 256
第9 章 判別分析 266
9.1 判別分析基礎 266
9.2 距離判別法 269
9.3 貝葉斯判別法 279
9.4 Fisher 判別法 301
第10 章 時間序列分析 310
10.1 時間序列基礎 310
10.2 描述性分析與預測方法 315
10.3 平穩序列的預測 327
10.4 趨勢序列的預測 335
10.5 復合序列的預測 351
第11 章 SAS 編程基礎 375
11.1 SAS 基礎 375
11.2 使用SAS 分析數據 387
11.3 SAS 處理數據集原理 413
第12 章 SAS 編程進階 423
12.1 讀取原始數據(文本)文件 423
12.2 訪問Excel 工作表 436
12.3 創建自定義格式 438
12.4 使用SAS 函數 440
12.5 有條件處理 451
12.6 PROC SQL 簡介 453
第13 章 SAS 宏編程 458
13.1 SAS 宏簡介 458
13.2 熟悉SAS 宏變量 459
13.3 如何編譯宏語言 469
13.4 宏程序簡介 474
13.5 在數據操作中使用宏(案例研究) 479
13.6 間接引用宏變量 494
第14 章 SAS Enterprise Guide 操作應用 497
14.1 SAS Enterprise Guide 簡介 497
14.2 SAS Enterprise Guide 上機練習 498
數據分析實用教程 節選
推薦者序二 談到“統計學”一詞的由來,人們往往會追溯到300 多年前歐洲對國勢學的研究,但如果討論廣義統計概念(包括計數、匯總等含義)的應用,其歷史應該遠早于城邦的出現,甚至可以追至遠古。統計伴隨著人類計數記事的需求,一路走來成為人們生產和生活中不可或缺的工具。四大文明古國都無一例外地留下了運用統計方法治國理政的印跡。隨著回歸分析和相關分析、假設檢驗、c 2分布和t 分布等理論的出現,現代數理統計學逐漸發展成為一門完整的學科。人們的關注點也從計數統計、描述統計逐漸轉向推理統計、預測統計。根據不同應用對象的特征,統計學又衍生出社會統計學、生物統計學等不同分支。 與其他學科一樣,統計學一直在發現和研究現實世界(自然的、社會的)的規律,并逐漸向學術研究和實踐應用兩個方向發展。與其他學科不一樣的是,統計學以概率論為基礎,從誕生起就有著定性“精準”、定量“模糊”的特征。在小數據時代,數據采集成本很高,計算能力受限,人們不得不探索用部分樣本數據來推斷整體,用科學的手段減少樣本選擇偏差,不斷提高置信度。 21 世紀初,大數據技術浪潮撲面而來,計算能力、傳輸能力、存儲能力都有了大幅度提高,數據的采集成本、傳輸成本、存儲成本及計算成本都在迅速降低,對社會生活中的數據規律的探究也迎來了新的機遇與挑戰。曾一度有人議論,既然我們已經有能力關注全量數據而不再只是關注抽樣數據,那就不再需要統計學了。事實并非如此。宇宙是無限的,而人類的認識是有限的。人類一直在試圖用數據逼近事實真相,大數據時代只是賦予了人們增加數據維度和細化數據顆粒度的能力,使人們有機會更接近事實真相而已。哪有什么絕對的全量數據!人們能采集、能計算的數據不論是維度還是顆粒度永遠都是有限的。人類的計算能力永遠趕不上數據的增長速度,統計學通過對有限的數據進行分析,用以呈現更大范圍內有統計意義的事實,其方法論在大數據時代依然有學習、借鑒和應用的價值。特別是對統計學中建模思想的借鑒,是未來大數據分析師的基本技能。 在過去一段時間里,由于政策導向,學院派以發表學術文章為目的的統計學和應用統 計日漸脫節,從高校統計學教科書的內容組織上看也是重理論、輕實踐。近年來,國家越來越重視“產教融合”“產研融合”,旨在改變學術脫離實踐的現象。科技是**生產力,越是經濟下行壓力大的時候,越要讓學術為生產力服務,為實業賦能。在我國,人才短缺是困擾大數據發展的問題之一。傳統教學內容跟不上科技的發展,跟不上社會的需求,學生的能力結構就出現了偏差。因此,需要在教授統計學的一招一式時與實踐相結合。《數據分析實用教程》正是在這樣一個背景下面世的。 本書由劉政博士領銜組織撰寫。劉政博士的應用統計學功底深厚,任職SAS 軟件研究開發(北京)有限公司總經理多年。我有幸邀請劉政博士擔任清華大學大數據碩士項目教育指導委員會主任,并請他為跨專業跨領域的大數據碩士項目學生講授“數據分析與優化建模”課程。這是一項極具挑戰性的任務,因為大數據碩士項目的學生來自不同的專業(相關統計數據顯示全校44 個院系都有學生參加該項目),有著不同的教育背景和知識結構,而且這個項目要求突顯實踐應用,教學難度很大。 劉政博士及其團隊在面對北大、清華兩所高校不同教學要求的情況下,積累了高校的統計學教學經驗,加之對產業應用的深刻理解,確立了本書的定位。本書不僅較為全面地涵蓋了統計分析的相關內容,而且附以豐富的應用案例,有理論、有實踐,讓讀者能夠學以致用。本書既可以作為教科書,也可以當成工具書。 為本書寫推薦者序時,正值新冠肺炎猖獗,居家隔離,思緒萬千。我們以為大數據可以把我們武裝起來,變得無敵。突如其來的災害告訴了我們自身的脆弱,人類還有很多未知的東西等待我們探索。同17 年前的SARS 相比,隨著城鎮化的推進,交通的發達,同是以空氣傳播為主的傳染病,但其擴散模型一定是不同的,相應的防控措施也要有所不同。有很多災中、災后的寶貴數據等著我們去分析、去利用。 大數據時代無疑為人類帶來了觀察事物的全新視角,給各產業、各領域的發展帶來了新的機遇。大數據人才知識結構中重要的組成部分就是數理統計能力和數據建模能力。對于想在大數據時代“建功立業”的在校學生或已走上社會的新生代,學習本書都將大有裨益。 清華大學數據科學研究院原執行副院長 韓亦舜
數據分析實用教程 作者簡介
劉政博士 SAS中國研發中心總經理,負責此全球研發中心的整體運作;19年的外資企業經營和項目管理經驗,豐富的信息技術和數據科學教育經驗;中國軟件行業協會理事,中國計算機學會大數據專家委員,清華大學大數據碩士項目教育指導委員會主任,中科院深圳先進技術研究院碩士研究生導師,北京大學、清華大學、中國科學技術大學講席教授。 巫銀良 SAS 中國研發中心技術總監,主要負責SAS 可視化分析(VA)、可視化數據挖掘與機器學習(VDMML)、商業智能和移動應用等產品線的研發管理。擁有近20年的計算機行業研發和管理經驗,在企業應用和商業數據分析領域有著深厚的技術功底,著有《SAS技術內幕:從程序員到數據科學家》(2018)一書。北京大學《統計分析與商務智能》課程主講。 左春琦 SAS中國研發中心自然語言處理軟件開發工程師。北京大學、清華大學數據分析課程助理講師。SAS中國數據分析大賽出題委員會委員。 李嵐 SAS中國研發中心測試經理。十余年軟件研發測試經驗,涉及商業智能、數據分析、可視化展現、機器學習等各領域。北京大學《統計分析與商務智能》課程SAS編程講師。 馬曉麗 SAS 中國研發中心項目經理。十余年軟件開發和項目管理經驗,熟悉SAS風險管理解決方案以及SAS編程。清華大學《數據分析與優化建模》課程SAS編程講師。參與SAS Little Book中文版翻譯。
- >
月亮虎
- >
回憶愛瑪儂
- >
推拿
- >
我與地壇
- >
龍榆生:詞曲概論/大家小書
- >
我從未如此眷戀人間
- >
姑媽的寶刀
- >
中國人在烏蘇里邊疆區:歷史與人類學概述