-
>
宇宙、量子和人類心靈
-
>
氣候文明史
-
>
南極100天
-
>
考研數學專題練1200題
-
>
希格斯:“上帝粒子”的發明與發現
-
>
神農架疊層石:10多億年前遠古海洋微生物建造的大堡礁
-
>
聲音簡史
應用非參數統計(第2版)/統計與數據科學叢書 版權信息
- ISBN:9787030687401
- 條形碼:9787030687401 ; 978-7-03-068740-1
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
應用非參數統計(第2版)/統計與數據科學叢書 內容簡介
本書介紹非參數統計的基本概念和方法,其內容包括預備知識、U統計量、基于二項分布的檢驗、列聯分析、秩檢驗、檢驗的功效與漸近相對效率、概率密度估計、非參數回歸。每一章內容都著重闡述非參數統計推斷的一般處理技術和原則,并給出一些典型例子各章后面的習題側重于應用。本書的特點是側重于介紹非參數統計在各應用領域中的常用方法,盡可能簡化公式推導并淡化理論證明。此外,本書有選擇地安排一些模擬計算和實際數據分析,其主要程序放在附錄A中。 讀者只需具有高等數學和概率統計的基本知識即可讀懂本書的主要內容。本書可以作為大學高年級本科生或碩士研究生的教材,也可以作為科研工作者自學的參考書。
應用非參數統計(第2版)/統計與數據科學叢書 目錄
“統計與數據科學叢書”序
第二版前言
**版前言
第1章預備知識1
1.1非參數統計概述1
1.2數據類型3
1.3檢驗的p值4
1.4次序統計量及其分布5
1.5分位數的估計6
1.5.1分位數的點估計6
1.5.2分位數的區間估計7
習題1 10
第2章U統計量11
2.1單樣本U統計量11
2.1.1基本概念11
2.1.2U統計量的方差13
2.1.3U統計量的相合性15
2.1.4U統計量的漸近正態性16
2.2兩樣本U統計量18
2.3U統計量檢驗19
2.3.1對稱中心的檢驗19
2.3.2位置參數的檢驗20
習題2 24
第3章基于二項分布的檢驗26
3.1二項檢驗26
3.2分位數檢驗29
3.3符號檢驗32
3.3.1基本方法32
3.3.2中位數的符號檢驗35
3.3.3兩樣本符號檢驗37
習題3 38
第4章列聯分析40
4.12×2列聯表及其檢驗40
4.1.12×2列聯表40
4.1.2Fisher精確檢驗41
4.1.3Mantel-Haenszel檢驗44
4.1.4Simpson悖論45
4.2r×s列聯表及χ2檢驗48
4.2.1r×s列聯表48
4.2.2χ2統計量48
4.2.3擬合優度檢驗49
4.2.4獨立性檢驗52
4.2.5中位數檢驗53
4.2.6χ2分布的期望值準則55
4.3列聯表中的相關測量56
4.3.1φ相關系數56
4.3.2列聯相關系數57
4.3.3V相關系數58
4.4對數線性模型58
習題4 64
第5章秩檢驗68
5.1線性秩統計量68
5.1.1定義及基本性質68
5.1.2漸近正態性72
5.2符號秩檢驗74
5.2.1符號秩統計量及其性質74
5.2.2Wilcoxon符號秩檢驗78
5.3位置參數的檢驗85
5.3.1Wilcoxon秩和檢驗85
5.3.2Mann-Whitney檢驗91
5.4尺度參數的檢驗92
5.4.1Mood檢驗93
5.4.2平方秩檢驗95
5.5多個獨立樣本問題97
5.5.1Kruskal-Wallis檢驗97
5.5.2Jonckheere-Terpstra檢驗102
5.6區組設計104
5.6.1Friedman檢驗105
5.6.2Page檢驗110
5.6.3Cochran檢驗111
5.6.4Durbin檢驗114
5.7相關分析115
5.7.1Spearman秩相關檢驗115
5.7.2Kendallτ相關檢驗118
5.7.3多變量Kendall協同系數檢驗122
5.8線性回歸的非參數方法124
習題5 128
第6章檢驗的功效函數與漸近相對效率133
6.1功效函數133
6.1.1基本概念133
6.1.2功效函數的統計模擬134
6.2局部*優秩檢驗137
6.3Pitman漸近相對效率142
6.4單樣本位置問題的線性符號秩檢驗的漸近相對效率146
6.5兩樣本位置問題的線性秩檢驗的漸近相對效率150
習題6 156
第7章概率密度估計157
7.1若干密度估計157
7.1.1直方圖157
7.1.2Rosenblatt估計159
7.1.3核密度估計160
7.1.4*近鄰密度估計162
7.2估計精度的度量164
7.3交叉驗證法167
7.4密度估計的大樣本性質169
7.4.1基本概念169
7.4.2核密度估計的大樣本性質170
7.4.3*近鄰密度估計的大樣本性質171
7.5密度估計的應用171
習題7 174
第8章非參數回歸175
8.1引言175
8.2回歸函數的核估計176
8.2.1核估計的定義176
8.2.2帶寬的選擇177
8.2.3核函數的選擇179
8.2.4核估計的性質180
8.2.5模擬計算181
8.3回歸函數的局部多項式估計183
8.4回歸函數的近鄰估計186
8.5實例分析189
習題8 192
參考文獻194
附錄A主要程序197
A.1若干自定義函數197
A.2幾個主要圖形的程序203
附錄B附表212
附表1標準正態分布表212
附表2二項分布表213
附表3χ2檢驗的臨界值表222
附表4符號檢驗的臨界值表223
附表5Wilcoxon符號秩檢驗的臨界值表223
附表6Wilcoxon秩和檢驗的臨界值表224
附表7平方秩檢驗的臨界值表226
附表8Kruskal-Wallis檢驗的臨界值表228
附表9Jonckheere-Terpstra檢驗的臨界值表229
附表10Friedman檢驗的臨界值表230
附表11Page檢驗的臨界值表230
附表12Spearman秩相關檢驗的臨界值表231
附表13Kendallτ相關檢驗的臨界值表234
應用非參數統計(第2版)/統計與數據科學叢書 節選
第 1 章 預 備 知 識 本章主要介紹一些預備知識, 其內容包括非參數統計概述、數據類型、檢驗的 p 值、次序統計量及其分布、分位數的估計. 1.1 非參數統計概述 非參數統計是統計學的一個重要分支. 在學習這門課程之前, 首先要明白什么是 “非參數統計”, 了解這個分支的一些基本特點, 從而可以對它有初步的認識,對學習這門課程產生興趣. 在統計學中, 統計推斷的兩個*基本的形式是: 參數估計和假設檢驗, 其大部分內容是和正態理論相關的, 人們稱之為參數統計. 在參數統計中, 總體分布的形式或分布族往往是給定的, 而諸如均值和方差的參數是未知的. 人們的任務就是對這些參數進行估計或檢驗. 當假定分布為真時, 其推斷有較高的精度. 然而, 在實際問題中, 對總體分布的假定并不是總成立的, 也就是說, 有時數據并不是來自所假定分布的總體. 因此, 在假定的總體分布下進行推斷, 其結果可能會背離實際.于是, 人們希望在不假定總體分布的情況下, 盡量從數據本身獲得所需要的信息.這就是非參數統計的初衷. 看下面的例子. 例 1.1.1 (概率密度估計) 設隨機變量 X 有概率密度函數 f(x), 它屬于某個確定的密度族 F. 令 X1, ,Xn 為來自總體 X 的樣本, 要通過樣本來估計 f(x).如果 F 的形式已知, 如正態分布族 {N(μ, σ2),.∞ 0}, 則只需對分布中的參數 μ 和 σ2 作出估計, 就可得到概率密度函數 f(x) 的估計, 這是一個參數統計問題. 我們可以利用極大似然估計法來估計 μ 和 σ2. 如果對 F 只施加一般性的假定, 如 f(x) 對稱, 且具有連續的二階導數等, 則這是一個非參數統計問題. 我們可以利用多種方法對非參數概率密度函數 f(x)進行估計, 例如, 核估計法、*近鄰估計法、小波估計法等. 這些估計方法已成為現代非參數統計的重要內容. 例 1.1.2 (回歸函數估計) 設隨機變量 Y 與 X 之間存在著某種相關關系,這里 X 可以是控制或可以精確觀測的變量. 如果在 X = x 的條件下, Y 的數學期望 E(Y |X = x) 存在, 記為 m(x), 則稱 m(x) 為 Y 關于 X 的回歸函數. 設 (X1, Y1), , (Xn, Yn) 為來自 (X, Y ) 的樣本, 要通過樣本來估計 m(x).在一元線性回歸模型中, 假定 m(x) 為 x 的線性函數, 即 m(x) = a + bx, 且在給定 X = x 的條件下, Y 的分布為正態分布 N(a + bx, σ2). 這個模型由三個實參數 a, b 和 σ2 所刻畫, 而要估計的回歸函數 m(x), 實際上只依賴于參數 a 和 b,因而它是一個典型的參數統計問題. 我們可以利用*小二乘法對 a 和 b 進行估計.然而, 如果對 Y 的分布不作任何假定, 或只作一般性假定 (如 Y 的方差有限),則問題就成為非參數性的, 稱為非參數回歸. 我們可以利用多種方法對非參數回歸函數 m(x) 進行估計, 例如, 核估計法、*近鄰估計法、局部多項式估計法、小波估計法等. 這些估計方法是現代非參數統計的重要組成部分. 綜上所述, 我們可提出下面的定義: 如果一個統計問題的模型所涉及的分布族不能用有限個實參數去刻畫, 則稱該問題為非參數統計問題. 非參數統計是統計學研究非參數統計問題的一個分支學科. 非參數方法是處理與分布無關的問題的方法. 所謂與分布無關, 意味著它的推斷方法不假定總體服從確定的分布, 并不是脫離總體的分布. 與參數方法相比,非參數方法具有如下特點. (1) 具有廣泛的適用性. 非參數方法不假定具體的總體分布, 從而它適用于來自任何總體分布未知的數據, 可進行定量數據和定性數據的統計分析, 能用來描述更多的問題, 故適用面廣. 由于非參數方法沒有利用關于總體分布的信息, 因此就是在對總體分布沒有任何了解的情況下, 它也能獲得可靠的結論. 在這一點上,非參數方法優于參數方法. 然而, 在總體的分布族已知的情況下, 它沒有像極大似然估計那樣充分利用總體分布的信息, 于是所得出的結論就不如參數方法那樣精確, 一般來說效率偏低. 在第 6 章可以看到, 有的非參數方法與相應的參數方法相比, 效率上的損失也很小. 參數方法往往對設定的模型有更大的針對性: 一旦模型改變, 方法也就隨之改變. 非參數方法則不然, 由于它對模型的限定少, 以致人們只能用很一般的方式去使用樣本中的信息來進行統計推斷. (2) 具有穩健性. 穩健性 (robustness) 反映統計方法這樣一種性質: 當真實模型與設定模型的偏離不大時, 這種統計方法仍能保持良好的性質, 至少不至于變得很差. 非參數方法對總體分布的限制相對較少, 不致因為對總體分布的假定不當而導致統計推斷結果與實際不符, 所以它具有較好的穩健性. 而參數方法是建立在分布已知的基礎上, 當總體分布發生改變時, 其推斷的正確性就大打折扣, 甚至可能產生錯誤的結論. 關于參數方法的論述可參見薛留根 (2015a) 的著作. (3) 以大樣本理論為主導. 由于對總體分布的假定條件寬松, 因而大樣本理論在非參數統計中占據了主導地位. 可以說, 絕大多數常用的非參數方法都是基于有關統計量的某種漸近性質. 非參數統計更多地依賴于大樣本方法這一特點, 可以從其模型的廣泛性上來理解: 統計量的分布依賴于總體的分布. 如果我們對總體的分布了解很少, 則就難以得出有關統計量的確切分布. 而很多小樣本方法是基于這種確切分布的. 例如, 在總體方差 σ2 未知的條件下去推斷總體的期望 μ, 人們就用樣本方差 S2 去代替 σ2, 然后構造出統計量 T = √n(X . μ)/S. 由于當n → ∞ 時, T 依分布收斂于標準正態分布 N(0, 1), 因此這是一個大樣本方法. 然而, 如果總體服從正態分布, 則由 Fisher 基本定理可知: T 服從自由度為 n.1 的t 分布. 因此, 關于 μ 的統計推斷可以建立在這個確切分布的基礎上, 這就成為一種小樣本方法. 1.2 數 據 類 型 在對某個總體進行統計推斷時, 首先要從該總體中抽取樣本, 然后利用樣本構造出統計量, 由此就可以解決參數估計和假設檢驗問題. 數據是樣本的觀測值,是樣本的實現. 統計工作的主要內容是數據收集和數據處理, 其中數據處理是統計的核心內容, 它是將數據轉化為有用信息的過程. 在科學實驗和生產實踐中, 人們遇到各種各樣的數據, 這就為統計分析提供了保障. 然而, 為正確處理和分析數據, 就必須先了解數據, 這樣才能有針對性地選用統計分析方法. 在統計學中, 統計數據主要可分為四種類型, 分別是定類數據、定序數據、定距數據和定比數據.定類數據和定序數據稱為定性數據; 定距數據和定比數據稱為定量數據. 下面我們對這四種類型的數據分別加以介紹. (1) 定類數據. 某項指標的觀測值不是數, 而是事物的屬性. 有時, 為了識別不同的類別, 也可以用特定的數字和符號表示某類事物. 例如, 人的性別 (男、女),職業 (教師、醫生、工人), 物體的顏色、樣式等, 它們的異同是按照事物的某些特征來劃分和辨別的. 人們常用數表示屬性的分類, 如用數 “1” 和 “0” 分別表示 “男” 和 “女”, 這僅僅是人們賦予的識別代碼, 并不說明事物的數量; 它不能進行算術運算, 也沒有大小關系, 而只能進行 “=” 或 ‘‘ .= ” 的邏輯運算. 定類數據的描述性統計量有頻數、眾數等. (2) 定序數據. 事物的屬性具有順序關系. 為方便起見, 有時也用數字表示. 例如, 家庭經濟狀況分為高收入、中等收入、低收入三類, 可分別用 3, 2, 1 表示.這些數只起一個順序作用, 不能作算術運算, 即這里的 “3 . 2” 是沒有意義的. 也就是說, “高收入” 比 “中等收入” 的經濟狀況好, 但 “好多少” 不能計算, 只能比較類別之間的次序關系. 定序數據可以進行 “=” “.=” “>” “” “” “<” “+” “.” 的運算, 而且可以進行 “×” 和“÷” 的運算. 反映定比數據集中趨勢和離散程度的描述性統計量不僅有均值、中位數、眾數、方差、標準差, 還有變異系數等.從上述介紹可知: 定性數據描述事物的性質, 其 0 只有相對意義; 定量數據描述事物的數量, 其 0 具有實際意義. 定類數據是*低級別的數據, 定比數據是**級別的數據, 中間兩個級別依次為定序數據和定距數據. 數據的級別越高, 所包含的運算性質就越多. 參數方法所分析的數據主要是定量數據. 非參數方法不但可以用來分析定量數據, 而且還可以用來分析定性數據. 例如, 利用問卷調查資料分析用戶對幾種商品的喜愛程度是否相等; 利用民意測驗分析職工對公司的幾種改革方案的支持率是否有差異等. 這方面的研究是參數方法做不到的, 只能應用非參數方法. 這一點又說明了非參數方法應用面廣. 當手中有了數據集后, 首先要對它有一個直觀的認識. 在數據來自一個總體時, 需要看它的大致分布形狀. 利用直方圖和 Q-Q 圖可以做到這一點. 直方圖可以用來看該分布是否呈現出對稱性, 是否有很長的尾部. Q-Q 圖是按升序重新排列的樣本觀測值和標準正態分布的分位數 (通常用 Φ.1((i.3/8)/(n+1/4))) 來作散點圖. 如果原來的樣本來自正態分布, 則該圖應該大致呈一條直線; 否則, 它將在一端或兩端有擺動, 說明其總體分布與正態分布有差別. 調用統計軟件中的函數就可以作出直方圖和 Q-Q 圖. 如 R 語言中作直方圖的函數是 hist(x), 作 Q-Q圖的函數是 qqnorm(x), 其中括號中的 x 為數據變量. 1.3 檢驗的 p 值 給定原假設 H0 和備擇假設 H1, 并記為假設檢驗問題 (H0,H1). 為解該假設檢驗問題, 首先需要構造檢驗統計量 T. 然后利用 T 得到檢驗的拒絕域 W. *后作出判斷: 在 T 的觀測值落入 W 時, 就拒絕原假設 H0, 認為備擇假設 H1 成立;在 T 的觀測值沒有落入 W 時, 就不能拒絕原假設 H0, 只能認為 H0 成立. 這就是所謂的檢驗法. 如果引入檢驗的 p 值, 那么就可以用 p 值對檢驗作出決定. 檢驗的 p 值定義如下. 定義 1.3.1 檢驗的 p 值是在已知觀測值下拒絕原假設的*小顯著性水平.如果用 tobs 表示檢驗統計量 T 的觀測值, 則左邊檢驗的 p 值是 P{T . tobs}, 右邊檢驗的 p 值是 P{T . tobs
- >
名家帶你讀魯迅:朝花夕拾
- >
推拿
- >
羅庸西南聯大授課錄
- >
隨園食單
- >
羅曼·羅蘭讀書隨筆-精裝
- >
我從未如此眷戀人間
- >
二體千字文
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)