-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
事實與似實:數據科學家教你辨虛實 版權信息
- ISBN:9787111775881
- 條形碼:9787111775881 ; 978-7-111-77588-1
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
事實與似實:數據科學家教你辨虛實 本書特色
本書力求用豐富的實際案例來介紹數據科學的工具以及它的應用,特別是通過數據來判斷事件的真偽,教會讀者像數據科學家一樣的思考。
事實與似實:數據科學家教你辨虛實 內容簡介
本書力求用豐富的實際案例來介紹數據科學的工具以及它的應用,特別是通過數據來判斷事件的真偽,教會讀者像數據科學家一樣的思考。
全書共17章,每章均包含具有不同側重點的案例分析,用以說明數據科學家如何發現似實,并拒絕似實傷害。本書內容主要分為四部分,前7章為第1部分,描述如何質疑、審查證據,如何收集、分析并處理缺失數據,避免數據操控等。第2部分為第8~11章,討論數據呈現中的問題并通過創新方法取得研究新發現。第3部分為第12~17章,聚焦教育領域,再次利用證據證明了發現似實謬誤之易。第4部分為結論。
本書是數據科學的應用研究成果,可作為數據科學愛好者的科普讀物。
事實與似實:數據科學家教你辨虛實事實與似實:數據科學家教你辨虛實 前言
回顧20世紀,世界經歷了翻天覆地的變化,但鮮能讓我感到驚訝,其中就有人們對我的專業——統計學(不確定性科學)的態度轉變。我這大半輩子聽到*普遍的對統計學的形容就是“無聊”。我教授了50多年的統計學課程,然而時至今日學生們修讀這門課的原因依然是因為“統計學是必修課”。不過,統計學沉悶的名聲也會給我帶來些小慶幸。比如,我在飛機上沉迷閱讀時,每當有鄰座問我:“您是做什么的?”,我總是回答:“我是搞統計學的”,這樣就能確信對話多半會戛然而止,而我則可以安心讀書了!實際上,幾十年前,當大家日益認識到統計學家是現代信息時代的科學通才時,專業研究者的態度就已經開始發生轉變。普林斯頓大學的約翰·圖基(John Tukey)早期從數學研究轉到統計學研究,他曾說過這樣一句讓人印象深刻的話:“作為統計學家,我可以在每個學科的后院溜達”。
統計學*初起源于賭場里不見光地應用概率論,但之后作為一門學科卻在人口統計學、農學和社會科學領域中大放異彩,然而,這還僅僅是個開始。量子理論的興起表明,即使是物理學——這門*具確定性的學科,也需要了解不確定性。隨著“循證醫學”成為專有名詞,醫學也加入這一行列。結合了民意調查的預測模型讓我們可以早早睡下,毫無懸念地預測選舉結果。隨著“量化分析專家”加入投資團隊,經濟和金融領域都發生了巨大改變,他們的成功清楚地表明投資計劃的設計如果忽視了背后的數據統計,無疑是自投風險羅網。
事實與似實:數據科學家教你辨虛實 目錄
譯者序
前言與致謝
引言
第1部分像數據科學家一樣思考
第1章72法則用于財富、事業和汽車油耗/4
ⅩⅫ
指數增長是人類直覺無法理解的。在本章中,我們從歷史和當前經驗中抽取了幾個例子來進行說明,并介紹了常用于幫助理財師理解指數增長的一則簡單的經驗法則,同時展示了如何更廣泛地使用它解釋一系列其他問題。72法則說明了在工具箱中常備這樣的“規則”以備不時之需是多么重要!
第2章鋼琴大師與4分鐘1英里的記錄/9
極端觀察記錄出現的頻率與觀察樣本規模必然相關。在過去的一個世紀里,音樂大師的數量激增,這其中包括了大量的高中生演奏者,他們能夠演奏過去除了*有才華的藝術家之外其他人都不敢挑戰的作品。在這一章,我們發現用一個簡單的數學模型就能解釋這一結果,以及為什么跑步運動員突破了4分鐘1英里的成績不再是新聞。
第3章幸福與因果推理/13
這里我們將介紹魯賓的因果推理模型,它指導我們集中精力衡量一個變量對另一個變量的因果效應,而不是通過捕風捉影盲目尋找產生該效應的原因。這種重新定位使我們自然而然地將隨機的控制性實驗作為一種重要的科學方法。為說明該方法的作用,我們闡述了如何利用它解開纏繞在幸福感和學業表現之間難解的戈爾迪之結。它如同一束強勁的光,照亮了無根據主張的陰暗角落。
目錄
第4章因果推理與死亡/20
在現實中,計算因果效應大小的道路因為無處不在的數據缺失而變得坎坷。本章將討論經常發生的意外事件導致精心設計的實驗失衡的具體情況。我們列舉了一個醫學實驗案例,由于一些病患在實驗進程中不幸去世,我們必須排除這些干擾數據,估算出治療的因果效應。魯賓模型又一次幫助我們找到了解決方案,一旦你掌握它,它的指引會出乎意料地顯著而又細致微妙。
ⅩⅩⅢ
第5章實驗回答四個惱人的問題/33
公共教育領域需要采用多種有效方法來進行因果推理。然而,我們發現圍繞公共教育話題到處充斥著似實。由于公共教育的有效性常通過測試進行衡量,因此,出現與測試相關的許多話題并不奇怪,然而問題雙方的激烈爭論往往壓倒了事實。我們討論了四個問題,有的已經在法庭上被裁定了(非決定性裁決),還有一些在本章編寫的過程中正進入訴訟程序。
第6章觀察研究中的因果推論:壓裂法、注入井、地震以及俄克拉荷馬州/50
開展實驗并不一定總是可行的,我們有時不得不進行觀察研究。在過去的6年中,俄克拉荷馬州的較強地震(30級或以上)從每年不到2次增加至幾乎每天2次。在本章中,我們將探討如何利用觀察研究來估算壓裂法以及高壓注水處理廢水與地震活動的因果效應。盡管政府官員和石油工業代表極力否認,但這種因果關系的證據卻是壓倒性的。
ⅩⅩⅣ
第7章生活中的藝術:玩轉缺失數據算法/61
數據科學家們面臨的*大問題是如何處理缺失的觀測值(或者缺失數據)。在這一章,我們了解到那些*初用來處理不可避免的數據缺失的方法看起來似乎完全合情合理,卻被不適當地利用來鉆體系的漏洞。另外,本章還說明了如何用*有效的方法來處理這些鬧劇。
第2部分像數據科學家一樣溝通
第8章共情在溝通設計中的關鍵作用:以基因測試為例/70
圖形顯示也許是數據科學所擁有的*重要的工具,能讓數據自己向數據科學家傳遞其蘊含的意義。它們讓科學家與所有人都能暢通地交流。迄今,任何希望能有效溝通的人都應具備一個*重要的態度,那就是要有強烈的同理心。在這一章中,我們討論了兩種不同的交流方式,并展示了從普林斯頓大學錄取通知書中學到的道理,如何有效地用于傳達顯示攜帶突變基因、警示女性患癌風險高的檢測結果。
第9章改進媒體和我們自己的數據呈現/79
在科學家和大眾之間的交流中,兩者的影響是雙向的。我們看到科學文獻首創的圖形顯示方法被媒體所使用;如今,反過來,科學家們卻不得不緩慢地去追趕媒體進步的腳步了。
第10章由內而外的圖表/95
高維數據(涉及兩個以上變量的數據)的可視化顯示,*大的設計挑戰之一就是二維平面載體(一張紙或一個電腦屏幕)的局限性。在這一章中,我們將說明如何使用由內而外的圖示來揭示這些數據集中可能包含的許多秘密。我們通過例子比較了6位棒球明星在8個變量上的表現。
ⅩⅩⅤ
第11章150年的道德統計:繪制證據以影響社會政策/104
任何將地理變量與其他指標(比如各州選舉結果或人口普查區域各區人口)相結合的數據集都亟需一張地圖。地圖是*古老的圖形顯示,現存的例子有來自古埃及尼羅河測量繪制的地圖。地圖顯然更方便直觀表示位置,使用二維的繪圖平面來表示地理信息。過了很久之后,人們才在地理背景上添加了許多其他非地理變量。在本章中,我們引用了19世紀英國律師和統計學家約瑟夫·弗萊徹的作品,他在英格蘭和威爾士的地圖上描繪了當時文盲、私生子、犯罪和不負責任的婚姻的情況。我們對他的這個作品進行了廣泛討論,包括弗萊徹做了什么、為什么以及如何通過更現代的展示方法來幫助他實現社會公正的目標。
第3部分數據科學工具在教育領域中的應用
公共教育涉及每個人。我們都曾繳納本地財產稅來為教育買單,而且幾乎所有人,要么通過自己,要么通過孩子參與了公共教育。然而,很難想象在這樣一個有著廣泛基礎的領域中,同樣充斥著產生于似實的各種錯誤觀點。在這一部分,我們將考察五個不同的公眾輿論焦點。同樣,這些觀點都是基于逸事和先例而非證據支持。每一章我們都將介紹其中一個觀點,然后再提出可以廣泛獲取的證據去明確反駁它。本部分與第1、2部分緊密相連,前面兩部分介紹的方法用于強化我們的質疑精神,而本部分旨在提供一種基于證據的方法用以評估觀點的可信度。
第12章等待阿基里斯/124
美國的教育制度常常因學生學業表現不佳且根深蒂固的白人與黑人學生分數差距而飽受詬病。在這一章中,我們使用證據來澄清這兩個問題,這一過程讓我們發現,情況遠沒有被似實驅動的批評者說的那么惡劣。
ⅩⅩⅥ
第13章終身教職價值幾何?/128
公共教育的批評者通常將教育系統的缺陷歸咎于教師終身制。在本章,我們追溯了終身教職制的起源,并提供了證據說明,要取消它可能會超出批判者的預期,不僅費用昂貴而且效果一般。
第14章拙劣的作弊檢查:看起來像,就一定是/135
每當考試能帶來重大影響時,就可能有人作弊。為了限制作弊行為,學生的成績會受到嚴格的審查,作弊的學生有時會受到嚴厲的處罰。在這一章中,我們描述了兩個例子,其調查的熱情本身超過了其所支持的所謂違規的證據。
第15章沒有不等于零:缺失數據、滿意的年度進步指標和孟菲斯特許學校的真實故事/143
目前越來越多的時候,學校的業績很大程度上取決于學生的考試成績。在這一章中,我們了解到孟菲斯的一所特許學校因為學生的平均分數太低而被裁定再審其辦學資格。不幸的是,這一明顯的缺陷并不是學校造成的,而是這座城市對缺失數據的不當處理造成的。
第16章SAT考試改革之思:大學理事會在除掉斗牛犬嗎?/149
美國現代高考已經存在了90年,在這一時期,考試的變化、評分和應用都在穩步進行。在這一章中,我們使用證據和統計思維來討論*近大學理事會宣布的SAT三大變化。其中兩項改變幾乎不會帶來任何實質效果,但第三項卻屬于重大改變。我們假設選擇這些特殊的變化的原因,*后得出結論:大學董事會很可能采用了20世紀70年代達特茅斯學院校長約翰·凱梅尼為實現男女同校計劃而制定的戰略。
第17章只因少了一顆釘子:為什么無價值的分項分數可能嚴重阻礙西方文明的進步?/158
在2010年的美國人口普查中,人均統計成本為40美元。這似乎是一個奢侈的數字,因為美國人口的變化可以通過每13秒增加一個人的速度來進行準確估計。然而,由于人口普查還提供了許多小區域的統計數據估計,因此這個價格是合理的。在這一章中,我們從同樣的角度來研究測試的成本,并得出結論:過長的測試所產生的機會成本可能過大,以至于可能會嚴重阻礙進步。
第4部分結論:在家嘗試
參考文獻/176
事實與似實:數據科學家教你辨虛實 作者簡介
霍華德·維納是美國國家醫學考試委員會杰出的科學家,他發表了400余篇學術論文并出版了大量圖書 (包括撰寫了部分圖書章節)。本書是他的第 21本著作。他的第 20本專著 《醫學啟示錄:利用證據、可視化和統計思維改善醫療》成功入圍英國皇家學會溫頓圖書獎的評選。
- >
唐代進士錄
- >
姑媽的寶刀
- >
自卑與超越
- >
有舍有得是人生
- >
中國歷史的瞬間
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
二體千字文
- >
莉莉和章魚