事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí) 版權(quán)信息
- ISBN:9787111775881
- 條形碼:9787111775881 ; 978-7-111-77588-1
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí) 本書特色
本書力求用豐富的實(shí)際案例來介紹數(shù)據(jù)科學(xué)的工具以及它的應(yīng)用,特別是通過數(shù)據(jù)來判斷事件的真?zhèn)危虝x者像數(shù)據(jù)科學(xué)家一樣的思考。
事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí) 內(nèi)容簡介
本書力求用豐富的實(shí)際案例來介紹數(shù)據(jù)科學(xué)的工具以及它的應(yīng)用,特別是通過數(shù)據(jù)來判斷事件的真?zhèn)危虝x者像數(shù)據(jù)科學(xué)家一樣的思考。
全書共17章,每章均包含具有不同側(cè)重點(diǎn)的案例分析,用以說明數(shù)據(jù)科學(xué)家如何發(fā)現(xiàn)似實(shí),并拒絕似實(shí)傷害。本書內(nèi)容主要分為四部分,前7章為第1部分,描述如何質(zhì)疑、審查證據(jù),如何收集、分析并處理缺失數(shù)據(jù),避免數(shù)據(jù)操控等。第2部分為第8~11章,討論數(shù)據(jù)呈現(xiàn)中的問題并通過創(chuàng)新方法取得研究新發(fā)現(xiàn)。第3部分為第12~17章,聚焦教育領(lǐng)域,再次利用證據(jù)證明了發(fā)現(xiàn)似實(shí)謬誤之易。第4部分為結(jié)論。
本書是數(shù)據(jù)科學(xué)的應(yīng)用研究成果,可作為數(shù)據(jù)科學(xué)愛好者的科普讀物。
事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí)事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí) 前言
回顧20世紀(jì),世界經(jīng)歷了翻天覆地的變化,但鮮能讓我感到驚訝,其中就有人們對我的專業(yè)——統(tǒng)計學(xué)(不確定性科學(xué))的態(tài)度轉(zhuǎn)變。我這大半輩子聽到*普遍的對統(tǒng)計學(xué)的形容就是“無聊”。我教授了50多年的統(tǒng)計學(xué)課程,然而時至今日學(xué)生們修讀這門課的原因依然是因?yàn)椤敖y(tǒng)計學(xué)是必修課”。不過,統(tǒng)計學(xué)沉悶的名聲也會給我?guī)硇┬c幸。比如,我在飛機(jī)上沉迷閱讀時,每當(dāng)有鄰座問我:“您是做什么的?”,我總是回答:“我是搞統(tǒng)計學(xué)的”,這樣就能確信對話多半會戛然而止,而我則可以安心讀書了!實(shí)際上,幾十年前,當(dāng)大家日益認(rèn)識到統(tǒng)計學(xué)家是現(xiàn)代信息時代的科學(xué)通才時,專業(yè)研究者的態(tài)度就已經(jīng)開始發(fā)生轉(zhuǎn)變。普林斯頓大學(xué)的約翰·圖基(John Tukey)早期從數(shù)學(xué)研究轉(zhuǎn)到統(tǒng)計學(xué)研究,他曾說過這樣一句讓人印象深刻的話:“作為統(tǒng)計學(xué)家,我可以在每個學(xué)科的后院溜達(dá)”。
統(tǒng)計學(xué)*初起源于賭場里不見光地應(yīng)用概率論,但之后作為一門學(xué)科卻在人口統(tǒng)計學(xué)、農(nóng)學(xué)和社會科學(xué)領(lǐng)域中大放異彩,然而,這還僅僅是個開始。量子理論的興起表明,即使是物理學(xué)——這門*具確定性的學(xué)科,也需要了解不確定性。隨著“循證醫(yī)學(xué)”成為專有名詞,醫(yī)學(xué)也加入這一行列。結(jié)合了民意調(diào)查的預(yù)測模型讓我們可以早早睡下,毫無懸念地預(yù)測選舉結(jié)果。隨著“量化分析專家”加入投資團(tuán)隊(duì),經(jīng)濟(jì)和金融領(lǐng)域都發(fā)生了巨大改變,他們的成功清楚地表明投資計劃的設(shè)計如果忽視了背后的數(shù)據(jù)統(tǒng)計,無疑是自投風(fēng)險羅網(wǎng)。
事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí) 目錄
譯者序
前言與致謝
引言
第1部分像數(shù)據(jù)科學(xué)家一樣思考
第1章72法則用于財富、事業(yè)和汽車油耗/4
ⅩⅫ
指數(shù)增長是人類直覺無法理解的。在本章中,我們從歷史和當(dāng)前經(jīng)驗(yàn)中抽取了幾個例子來進(jìn)行說明,并介紹了常用于幫助理財師理解指數(shù)增長的一則簡單的經(jīng)驗(yàn)法則,同時展示了如何更廣泛地使用它解釋一系列其他問題。72法則說明了在工具箱中常備這樣的“規(guī)則”以備不時之需是多么重要!
第2章鋼琴大師與4分鐘1英里的記錄/9
極端觀察記錄出現(xiàn)的頻率與觀察樣本規(guī)模必然相關(guān)。在過去的一個世紀(jì)里,音樂大師的數(shù)量激增,這其中包括了大量的高中生演奏者,他們能夠演奏過去除了*有才華的藝術(shù)家之外其他人都不敢挑戰(zhàn)的作品。在這一章,我們發(fā)現(xiàn)用一個簡單的數(shù)學(xué)模型就能解釋這一結(jié)果,以及為什么跑步運(yùn)動員突破了4分鐘1英里的成績不再是新聞。
第3章幸福與因果推理/13
這里我們將介紹魯賓的因果推理模型,它指導(dǎo)我們集中精力衡量一個變量對另一個變量的因果效應(yīng),而不是通過捕風(fēng)捉影盲目尋找產(chǎn)生該效應(yīng)的原因。這種重新定位使我們自然而然地將隨機(jī)的控制性實(shí)驗(yàn)作為一種重要的科學(xué)方法。為說明該方法的作用,我們闡述了如何利用它解開纏繞在幸福感和學(xué)業(yè)表現(xiàn)之間難解的戈?duì)柕现Y(jié)。它如同一束強(qiáng)勁的光,照亮了無根據(jù)主張的陰暗角落。
目錄
第4章因果推理與死亡/20
在現(xiàn)實(shí)中,計算因果效應(yīng)大小的道路因?yàn)闊o處不在的數(shù)據(jù)缺失而變得坎坷。本章將討論經(jīng)常發(fā)生的意外事件導(dǎo)致精心設(shè)計的實(shí)驗(yàn)失衡的具體情況。我們列舉了一個醫(yī)學(xué)實(shí)驗(yàn)案例,由于一些病患在實(shí)驗(yàn)進(jìn)程中不幸去世,我們必須排除這些干擾數(shù)據(jù),估算出治療的因果效應(yīng)。魯賓模型又一次幫助我們找到了解決方案,一旦你掌握它,它的指引會出乎意料地顯著而又細(xì)致微妙。
ⅩⅩⅢ
第5章實(shí)驗(yàn)回答四個惱人的問題/33
公共教育領(lǐng)域需要采用多種有效方法來進(jìn)行因果推理。然而,我們發(fā)現(xiàn)圍繞公共教育話題到處充斥著似實(shí)。由于公共教育的有效性常通過測試進(jìn)行衡量,因此,出現(xiàn)與測試相關(guān)的許多話題并不奇怪,然而問題雙方的激烈爭論往往壓倒了事實(shí)。我們討論了四個問題,有的已經(jīng)在法庭上被裁定了(非決定性裁決),還有一些在本章編寫的過程中正進(jìn)入訴訟程序。
第6章觀察研究中的因果推論:壓裂法、注入井、地震以及俄克拉荷馬州/50
開展實(shí)驗(yàn)并不一定總是可行的,我們有時不得不進(jìn)行觀察研究。在過去的6年中,俄克拉荷馬州的較強(qiáng)地震(30級或以上)從每年不到2次增加至幾乎每天2次。在本章中,我們將探討如何利用觀察研究來估算壓裂法以及高壓注水處理廢水與地震活動的因果效應(yīng)。盡管政府官員和石油工業(yè)代表極力否認(rèn),但這種因果關(guān)系的證據(jù)卻是壓倒性的。
ⅩⅩⅣ
第7章生活中的藝術(shù):玩轉(zhuǎn)缺失數(shù)據(jù)算法/61
數(shù)據(jù)科學(xué)家們面臨的*大問題是如何處理缺失的觀測值(或者缺失數(shù)據(jù))。在這一章,我們了解到那些*初用來處理不可避免的數(shù)據(jù)缺失的方法看起來似乎完全合情合理,卻被不適當(dāng)?shù)乩脕磴@體系的漏洞。另外,本章還說明了如何用*有效的方法來處理這些鬧劇。
第2部分像數(shù)據(jù)科學(xué)家一樣溝通
第8章共情在溝通設(shè)計中的關(guān)鍵作用:以基因測試為例/70
圖形顯示也許是數(shù)據(jù)科學(xué)所擁有的*重要的工具,能讓數(shù)據(jù)自己向數(shù)據(jù)科學(xué)家傳遞其蘊(yùn)含的意義。它們讓科學(xué)家與所有人都能暢通地交流。迄今,任何希望能有效溝通的人都應(yīng)具備一個*重要的態(tài)度,那就是要有強(qiáng)烈的同理心。在這一章中,我們討論了兩種不同的交流方式,并展示了從普林斯頓大學(xué)錄取通知書中學(xué)到的道理,如何有效地用于傳達(dá)顯示攜帶突變基因、警示女性患癌風(fēng)險高的檢測結(jié)果。
第9章改進(jìn)媒體和我們自己的數(shù)據(jù)呈現(xiàn)/79
在科學(xué)家和大眾之間的交流中,兩者的影響是雙向的。我們看到科學(xué)文獻(xiàn)首創(chuàng)的圖形顯示方法被媒體所使用;如今,反過來,科學(xué)家們卻不得不緩慢地去追趕媒體進(jìn)步的腳步了。
第10章由內(nèi)而外的圖表/95
高維數(shù)據(jù)(涉及兩個以上變量的數(shù)據(jù))的可視化顯示,*大的設(shè)計挑戰(zhàn)之一就是二維平面載體(一張紙或一個電腦屏幕)的局限性。在這一章中,我們將說明如何使用由內(nèi)而外的圖示來揭示這些數(shù)據(jù)集中可能包含的許多秘密。我們通過例子比較了6位棒球明星在8個變量上的表現(xiàn)。
ⅩⅩⅤ
第11章150年的道德統(tǒng)計:繪制證據(jù)以影響社會政策/104
任何將地理變量與其他指標(biāo)(比如各州選舉結(jié)果或人口普查區(qū)域各區(qū)人口)相結(jié)合的數(shù)據(jù)集都亟需一張地圖。地圖是*古老的圖形顯示,現(xiàn)存的例子有來自古埃及尼羅河測量繪制的地圖。地圖顯然更方便直觀表示位置,使用二維的繪圖平面來表示地理信息。過了很久之后,人們才在地理背景上添加了許多其他非地理變量。在本章中,我們引用了19世紀(jì)英國律師和統(tǒng)計學(xué)家約瑟夫·弗萊徹的作品,他在英格蘭和威爾士的地圖上描繪了當(dāng)時文盲、私生子、犯罪和不負(fù)責(zé)任的婚姻的情況。我們對他的這個作品進(jìn)行了廣泛討論,包括弗萊徹做了什么、為什么以及如何通過更現(xiàn)代的展示方法來幫助他實(shí)現(xiàn)社會公正的目標(biāo)。
第3部分?jǐn)?shù)據(jù)科學(xué)工具在教育領(lǐng)域中的應(yīng)用
公共教育涉及每個人。我們都曾繳納本地財產(chǎn)稅來為教育買單,而且?guī)缀跛腥耍赐ㄟ^自己,要么通過孩子參與了公共教育。然而,很難想象在這樣一個有著廣泛基礎(chǔ)的領(lǐng)域中,同樣充斥著產(chǎn)生于似實(shí)的各種錯誤觀點(diǎn)。在這一部分,我們將考察五個不同的公眾輿論焦點(diǎn)。同樣,這些觀點(diǎn)都是基于逸事和先例而非證據(jù)支持。每一章我們都將介紹其中一個觀點(diǎn),然后再提出可以廣泛獲取的證據(jù)去明確反駁它。本部分與第1、2部分緊密相連,前面兩部分介紹的方法用于強(qiáng)化我們的質(zhì)疑精神,而本部分旨在提供一種基于證據(jù)的方法用以評估觀點(diǎn)的可信度。
第12章等待阿基里斯/124
美國的教育制度常常因?qū)W生學(xué)業(yè)表現(xiàn)不佳且根深蒂固的白人與黑人學(xué)生分?jǐn)?shù)差距而飽受詬病。在這一章中,我們使用證據(jù)來澄清這兩個問題,這一過程讓我們發(fā)現(xiàn),情況遠(yuǎn)沒有被似實(shí)驅(qū)動的批評者說的那么惡劣。
ⅩⅩⅥ
第13章終身教職價值幾何?/128
公共教育的批評者通常將教育系統(tǒng)的缺陷歸咎于教師終身制。在本章,我們追溯了終身教職制的起源,并提供了證據(jù)說明,要取消它可能會超出批判者的預(yù)期,不僅費(fèi)用昂貴而且效果一般。
第14章拙劣的作弊檢查:看起來像,就一定是/135
每當(dāng)考試能帶來重大影響時,就可能有人作弊。為了限制作弊行為,學(xué)生的成績會受到嚴(yán)格的審查,作弊的學(xué)生有時會受到嚴(yán)厲的處罰。在這一章中,我們描述了兩個例子,其調(diào)查的熱情本身超過了其所支持的所謂違規(guī)的證據(jù)。
第15章沒有不等于零:缺失數(shù)據(jù)、滿意的年度進(jìn)步指標(biāo)和孟菲斯特許學(xué)校的真實(shí)故事/143
目前越來越多的時候,學(xué)校的業(yè)績很大程度上取決于學(xué)生的考試成績。在這一章中,我們了解到孟菲斯的一所特許學(xué)校因?yàn)閷W(xué)生的平均分?jǐn)?shù)太低而被裁定再審其辦學(xué)資格。不幸的是,這一明顯的缺陷并不是學(xué)校造成的,而是這座城市對缺失數(shù)據(jù)的不當(dāng)處理造成的。
第16章SAT考試改革之思:大學(xué)理事會在除掉斗牛犬嗎?/149
美國現(xiàn)代高考已經(jīng)存在了90年,在這一時期,考試的變化、評分和應(yīng)用都在穩(wěn)步進(jìn)行。在這一章中,我們使用證據(jù)和統(tǒng)計思維來討論*近大學(xué)理事會宣布的SAT三大變化。其中兩項(xiàng)改變幾乎不會帶來任何實(shí)質(zhì)效果,但第三項(xiàng)卻屬于重大改變。我們假設(shè)選擇這些特殊的變化的原因,*后得出結(jié)論:大學(xué)董事會很可能采用了20世紀(jì)70年代達(dá)特茅斯學(xué)院校長約翰·凱梅尼為實(shí)現(xiàn)男女同校計劃而制定的戰(zhàn)略。
第17章只因少了一顆釘子:為什么無價值的分項(xiàng)分?jǐn)?shù)可能嚴(yán)重阻礙西方文明的進(jìn)步?/158
在2010年的美國人口普查中,人均統(tǒng)計成本為40美元。這似乎是一個奢侈的數(shù)字,因?yàn)槊绹丝诘淖兓梢酝ㄟ^每13秒增加一個人的速度來進(jìn)行準(zhǔn)確估計。然而,由于人口普查還提供了許多小區(qū)域的統(tǒng)計數(shù)據(jù)估計,因此這個價格是合理的。在這一章中,我們從同樣的角度來研究測試的成本,并得出結(jié)論:過長的測試所產(chǎn)生的機(jī)會成本可能過大,以至于可能會嚴(yán)重阻礙進(jìn)步。
第4部分結(jié)論:在家嘗試
參考文獻(xiàn)/176
事實(shí)與似實(shí):數(shù)據(jù)科學(xué)家教你辨虛實(shí) 作者簡介
霍華德·維納是美國國家醫(yī)學(xué)考試委員會杰出的科學(xué)家,他發(fā)表了400余篇學(xué)術(shù)論文并出版了大量圖書 (包括撰寫了部分圖書章節(jié))。本書是他的第 21本著作。他的第 20本專著 《醫(yī)學(xué)啟示錄:利用證據(jù)、可視化和統(tǒng)計思維改善醫(yī)療》成功入圍英國皇家學(xué)會溫頓圖書獎的評選。
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
小考拉的故事-套裝共3冊
- >
伯納黛特,你要去哪(2021新版)
- >
羅庸西南聯(lián)大授課錄
- >
上帝之肋:男人的真實(shí)旅程
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
- >
山海經(jīng)
- >
回憶愛瑪儂