-
>
妙相梵容
-
>
基立爾蒙文:蒙文
-
>
我的石頭記
-
>
心靈元氣社
-
>
女性生存戰爭
-
>
縣中的孩子 中國縣域教育生態
-
>
(精)人類的明天(八品)
暗數據 版權信息
- ISBN:9787521738087
- 條形碼:9787521738087 ; 978-7-5217-3808-7
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
暗數據 本書特色
適讀人群 :統計學從業者、金融科技企業從業者、對通識經濟學感興趣的大眾讀者1. 作者被稱為“暗數據之父” 作者漢德教授是英國科學院院士、統計學家,他也為金融、健康、藥學領域及政府分析大量資料,《暗數據》結集其中精華,堪稱洞見制作,也有人將漢德教授稱為“暗數據之父”。 2.統計學視角的通俗科普讀物 書中為讀者展現了一般人不易觀察到的統計學分析角度:在備受推崇的大數據時代,大多數人都沉浸在只要掌握足夠多的數據就行的幻覺中。這本書指出其中的盲點,翻轉視角,開辟另一片視野。 3.具有批判性思維 數據不可能體現完全客觀,也并非真理。這本書告訴讀者在閱讀任何資料時,如何避免掉進“客觀”的陷阱,對已獲取、看似可掌握的資料,保有懷疑精神。 4. 案例鮮活豐富 作者深入剖析生活中實例,從耳熟能詳或聳人聽聞的經典案例入手,案例豐富鮮活且耐人尋味:作者寫作經驗豐富,以生動有條理的敘事,引導讀者進入主題,閱讀體驗深刻且燒腦。 5. 了解暗數據,揭示問題的解決之道 涉及醫療、制藥、政府治理、社會政策、金融業、制造業等各領域的暗數據現象,揭示問題的解決之道,就在于了解信息中不為人知的黑暗邊角是如何扭曲我們的認知。
暗數據 內容簡介
各種缺失的數據成為暗數據。關注的就是那些你并未擁有的數據——也許是你想要擁有、希望擁有,或者認為自己已經擁有但實際上并未擁有的數據。 作者從統計學的角度,在書中提出并用許多例子證明:那些缺失的數據至少與你實際擁有的數據同樣重要。你看不見的數據有可能誤導你,有時甚至會造成災難性的后果。作者闡釋了這些情況如何發生,以及為什么會發生。 進一步闡釋如何運用暗數據視角,改變傳統的數據分析方式,更好地優化決策,更合理地選擇行動方案。
暗數據 目錄
前 言 / V
**部分 暗數據:原因與結果
第1 章 暗數據:塑造世界的無形力量 / 003
幽靈數據 / 003
你真的擁有全部數據嗎? / 012
被忽略的“無事發生” / 016
暗數據的力量 / 020
就在我們身邊 / 022
第2 章 探索暗數據:收集到的與沒收集到的 / 026
來自各方的暗數據 / 026
數據廢氣、選擇和自我選擇 / 028
以小見大 / 039
實驗數據 / 051
注意人性的弱點 / 060
第3 章 定義與暗數據:你想知道什么? / 064
定義差異與錯誤測量 / 064
你不能測量所有事物 / 071
篩查 / 080
基于過往表現的選擇 / 083
第4 章 非故意的暗數據:說一套,做一套 / 087
大視界 / 087
匯總 / 091
人為差錯 / 092
儀器限制 / 097
連接數據集 / 099
第5 章 方略性暗數據:博弈、反饋和信息不對稱 / 102
博弈 / 102
反饋 / 109
信息不對稱 / 115
逆向選擇和算法 / 116
第6 章 故意的暗數據:欺詐與欺騙 / 126
欺詐 / 125
身份盜用與網絡詐騙 / 129
個人財務詐騙 / 133
金融市場欺詐與內幕交易 / 136
保險詐騙 / 141
其他欺詐形式 / 145
第7 章 科學與暗數據:科學發現的本質 / 149
科學的本質 / 149
早知道就好了 / 154
暗數據碰出新世界 / 162
暗數據打開大視野 / 164
隱瞞事實 / 177
撤回 / 192
出處和可信度:誰告訴你的? / 194
第二部分 闡明和使用暗數據
第8 章 處理暗數據:讓光照進來 / 201
希望 / 201
在已觀測數據與缺失的數據之間建立關聯 / 202
識別數據缺失機制 / 211
利用已有數據開展工作 / 212
超越數據:如果你先死怎么辦? / 218
超越數據:插補 / 221
迭代 / 227
錯誤數據 / 230
第9 章 從暗數據中獲益:重構問題 / 236
隱藏數據 / 236
對自己隱藏數據:隨機對照試驗 / 237
可能發生的事 / 239
復制的數據 / 243
想象的數據:貝葉斯先驗性 / 249
隱私與機密保護 / 251
從暗處收集數據 / 259
第10 章 暗數據分類:走出迷宮之路 / 263
暗數據分類法 / 263
啟示 / 270
譯者后記 發自暗處的光 / 279
參考文獻 / 285
暗數據 節選
幽靈數據先給大家講個笑話。幾天前,我在路上碰到一個老頭兒。他正在往路中央撒粉末,每隔50 英尺撒一小堆。我問他在干什么。“這是驅象粉!彼卮穑按笙*怕這個,所以我用它來防大象!薄暗,這里沒有大象啊!蔽艺f。“這就對啦!”他答道,“驅象粉真靈啊!爆F在,言歸正傳。每年有近10 萬人死于麻疹,每500 名麻疹患者中會有一個死于并發癥,剩下的人會遭受永久性的聽力喪失或大腦損傷。所幸,這種病在美國很少見。舉個例子,1999 年只報告了99 例。但是,2019年1 月,一場麻疹的暴發導致華盛頓全州進入緊急狀態,同時,其他州也發現了大量增加的病例。1 類似情況其他地方也有報道。在烏克蘭,2019 年2 月中旬的一次麻疹暴發導致超過21 000 人被傳染。歐洲2017 年發現25 863 例,但是到了2018 年,感染病例已經超過8.2 萬例。3 從2016 年1 月1 日到2017 年3 月底,羅馬尼亞報告了4 000 多例麻疹感染者,還有18 個死亡病例。麻疹是一種危害極大的疾病,它擴散時不易被察覺,因為直到感染數星期,你都不會出現明顯癥狀。它從你眼皮底下悄悄溜過,你還沒反應過來,就已經中招了。然而,這種疾病也是可以防控的。簡單的疫苗接種就能讓你獲得麻疹病毒免疫力。確實,以這種方式實施的全民防疫,在美國取得了極大的成功。事實上,在實施了這類防疫項目的國家,絕大部分家長從未見過或者經歷過這種可預防疾病導致的可怕后果。但正因如此,當疾病控制和預防中心(簡稱“疾控中心”)建議家長給孩子接種疫苗以預防某種疾病時,家長們自然會將信將疑。因為疾控中心提到的這種疾病,他們從未在身邊的朋友和鄰居身上看到或聽到過,而且,根據疾控中心的說法,這種疾病在美國已經不再是地方性流行病了。接種疫苗以預防某種疾病,但這種疾病在當地又不存在。這跟使用驅象粉有什么區別?然而與大象不同的是,得病的風險和以前一樣真實存在。僅僅因為那些家長賴以做出決定的信息和數據缺失了,所以風險才變得不可見。我把各種缺失的數據稱為“暗數據”(dark data)。暗數據隱藏在我們的認知之外,這意味著我們可能出現誤解,得出錯誤的結論,做出糟糕的決定。簡言之,我們的無知意味著犯錯!鞍禂祿边@個術語與物理學中的暗物質相似。宇宙中大約27%的部分由暗物質這種神秘物質組成。暗物質與光或其他電磁輻射不發生作用,因此不可見。因為暗物質無法被看到,所以天文學家長久以來并未意識到它們的存在。直到后來,對銀河系旋轉運動的觀測揭示出這樣的現象:較遠處的恒星,并不比靠近中心的恒星轉動得更慢。這與我們根據重力原理得出的預期不一致。這種異常轉動可以用一種假設來解釋:通過我們用天文望遠鏡能看到的恒星和其他天體來判斷,銀河系的質量比看起來的大得多。我們看不見那些多出來的物體,所以稱其為暗物質。然而,暗物質不是無意義的(我甚至認為它是很重要的):在我們所在的銀河系中,暗物質的數量可能比普通物質的10 倍還多。暗數據和暗物質有很多類似之處:我們看不到那些數據,它們沒有被記錄下來,但是它們仍然會對我們的判斷、決定和行為產生重大影響。正如后來一些例子顯示的那樣,除非我們意識到這種可能性,即我們周遭一直潛伏著未被認知的事物,否則,后果可能是災難性的,甚至是致命的。本書的目的就是探索暗數據是如何形成的以及它為什么會形成。我們將考察不同類型的暗數據,并研究它們的起因。首先,我們會探討采取什么措施可以避免暗數據的產生。其次,我們還將研究如果意識到暗數據被屏蔽,我們能做些什么。*后,我們還將看到,如果我們足夠聰明,那么我們也有可能從暗數據中獲益。盡管這些看起來既奇怪又矛盾,但是,恰當利用未知事物和暗數據的確可以幫助我們做出更好的決定,更好地實施相關行動。務實地說,這意味著我們可以通過巧妙地利用未知事物,過上更加健康的生活,賺更多錢,降低風險。這并不意味著我們應該向其他人隱瞞信息(盡管我們也將看到,被故意隱瞞的數據是一種常見的暗數據類型)。暗數據比那種被刻意隱瞞的數據微妙得多,所有人都能因其獲益。暗數據有許多形態,其成因也各種各樣;诔梢颍野寻禂祿譃15 種類型。我的分類并不是窮盡式的,因為暗數據的成因非常多,列出所有類型幾乎是不可能的。而且,任何特定的暗數據案例都會清晰地顯示出不止一種類型——不同類型的暗數據能夠共同起作用,甚至可以組合在一起產生不利的協同效應。盡管如此,對這些暗數據類型的認識,以及對顯示暗數據的案例的檢查,能幫助你判斷問題何時出現,從而保護你免遭其害。我在本章*后列出了暗數據分類清單,按照相似性進行了大致排序,并在第10 章對各種類型進行了詳細闡述。在本書中每種特定類型出現的地方,我都進行了說明。但是,我刻意避免采用詳盡列舉的方式,因為那樣會造成干擾。我們再來看一個新案例。在醫學上,創傷屬于嚴重損傷,可能會造成長期的嚴重后果。它是導致早逝和殘疾等影響壽命的*主要原因之一,也是40 歲以下人群*常見的死亡原因。創傷審查與研究網絡(TARN)的創傷病患數據庫是歐洲*大的醫學創傷數據庫。該數據庫收集了來自200 多家醫院(其中包括英格蘭和威爾士93% 以上的醫院,以及愛爾蘭、荷蘭和瑞士等國家的醫院)的創傷病例。很明顯,對于研究創傷干預治療措施的預后和療效來講,這是個非常豐富的案例數據庫。葉夫根尼·米克斯醫生和他英國萊斯特大學的同事查閱了這個數據庫里的一些數據。4 從被考察的165 559 個創傷案例中,他們發現19 289 個病例的結果是未知的。在創傷研究中,“結果”指的是傷害發生至少30 天后病人是否依然存活。也就是說,超過11% 的病人的30 天后存活數據不得而知。這個案例展示了暗數據的一種常見形式,即第1 種暗數據:已知的缺失數據。我們知道這些病人都有各自的結果,但我們不知道他們的結果是什么。沒關系,你可能會這樣想:讓我們來分析一下已知其結果的146 270 個病人,以此為基礎建立認知和進行預后。畢竟,146 270已經是個不小的數字了,在醫學領域,這屬于“大數據”。因此,我們當然會對此有信心:基于這些數據產生任何結論,都將確切無疑。但是,這樣行嗎?或許,缺失的19 289 個病例比其他病人更特殊。畢竟,這些病例的確具有某種特殊性,因為他們的結果都是未知的,因此,我們懷疑他們可能在其他方面也有所不同,是有一定理由的。因此,相對于整個創傷病人群體,針對這146 270 個具有已知結果的患者進行的任何分析,都可能具有誤導性。所以,基于這個分析而采取的治療措施,也有可能是錯誤的,也許還會導致醫生產生錯誤的判斷,開出不正確的處方,采用不恰當的治療方案,給病人造成不利甚至致命的后果。舉一個不切實際的、極端的例子:假設這146 270 名已知結果的患者在未經治療的情況下,全都存活并康復了,但19 289 名未知結果的患者在入院后兩天內全部死亡。如果忽略那些未知結果的患者,我們就會順理成章地得出結論:沒什么可擔心的,所有創傷患者都康復了。在此基礎上,我們將不會對任何新收治的創傷患者采取治療措施,而是寄希望于自然康復。然后,我們會為超過11% 的死亡病例而感到震驚和困惑。在故事繼續深入之前,我想請讀者們放心。我的極端設想只是*糟糕的場景,我們有理由期待現實情況不會那么糟,米克斯醫生和他的同事都是分析缺失數據的專家。他們非常清楚這種風險,因此一直致力于開發統計學方法來應對這種問題,我將在本書后面的章節詳述類似的方法。然而,從這個故事中得到的啟示是:事情可能并非像它們看上去的那樣。確實,如果本書對你有什么啟示,那么它大概會是:雖然大量采集數據很有幫助,但是量并不代表一切。就理解正在運行的事物而言,比起你已經掌握的數據,更重要的可能是那些你沒掌握的數據和尚不知曉的東西。在我們將要看到的任何例子中,暗數據問題都不僅僅是大數據問題,小的數據集也會出現這些問題。它們無所不在。這個創傷病患數據庫的故事可能有點兒夸張,但它的意義在于向我們發出警示。也許,19 289 名患者的結果沒有被記錄下來,正是因為他們都在30 天內死亡了。畢竟,如果結果來源于患者入院30 天后接受的訪問,那么,已經死亡的患者根本不會回答問題。除非意識到這種可能性,否則,我們永遠不會有患者死亡的記錄。聽起來可能有點兒傻,但是事實上,這種情況經常出現。舉例來說,為某類接受特定治療的患者確定預后而建立的模型,要基于先前接受此類治療的患者的結果。但是,如果沒有足夠的時間讓先前所有病人都得出結果,那么會怎么樣呢?對那些病人來說,其*終結果將成為未知結果。所以,僅僅建立在已知結果的患者數據上的模型,可能會對我們產生誤導。 類似現象也出現在問卷調查上,沒被回答的問卷,才是難題的根源。研究人員通常會有一份完整的人員名單,列出了他們理想化的答題者。但通常情況下,并不是每個人都會回復問卷。如果那些答題的人和沒有答題的人在某些方面有所不同,那么研究人員有理由懷疑這些統計數據不能完全代表民眾意向。畢竟,如果某雜志向它的訂閱者發起問卷調查,只問一個問題:你會回復雜志的調查問卷嗎?即使在所有的回收問卷中,100% 的人回答“是”,我們也不能把這種情形解釋為所有訂閱者都回復了此類調查。前述案例闡明了第1 種類型的暗數據。我們知道,所有創傷患者的數據都存在,盡管這些數據沒有全部被記錄下來。我們知道,問卷調查的所有對象都有其答案,盡管他們不一定回復。也就是說,我們知道那些數據存在確定值,我們只是不知道那些數值具體是什么。下面要討論另外一種不同類型的暗數據(第2 種暗數據:未知的缺失數據)。許多城市都有路面坑洞問題。水流進路面的小裂縫,并在冬季結冰,造成裂縫擴大,然后經過汽車輪胎的碾軋,裂縫進一步擴大。這會導致惡性循環,*終在路面上形成由于輪胎和車軸的碾軋形成的坑洞。波士頓市下決心用現代技術解決這個問題。他們發布了一款智能手機應用程序,利用手機的內部加速器來監測汽車軋過路面坑洞時產生的顛簸,然后利用GPS(全球定位系統)把路面坑洞的位置自動發送給城市管理部門,F在,公路維護人員可以準確地知道要去哪里修補路面坑洞了。這個出色的問題解決方案,建立在現代數據分析技術的基礎上,不過,它忽略了一個事實:擁有汽車和昂貴的智能手機的人,多集中在富裕地區。因此,貧困地區的路面坑洞很可能不會被發現,它們的位置不會被發送出去,一些地區的路面坑洞可能永遠無法得到修復。這種方法不但沒有從整體上解決路面坑洞問題,甚至可能加劇社會不平等。這種情況不同于創傷患者案例。在創傷患者案例中,我們明確知道某些數據缺失了。而在這里,我們并沒有意識到這一點。下面是另外一個這種類型的暗數據例子。2012 年10 月下旬,颶風“桑迪”5 襲擊了美國東海岸。當時,它造成了美國歷史上第二大損失,是有記錄以來*大的大西洋颶風!吧5稀痹斐闪舜蠹s750 億美元的損失,導致8 個國家共200 多人死亡。“桑迪”波及美國24 個州,從佛羅里達到緬因、密歇根、威斯康星等,并且導致金融市場因為電力中斷而關閉。它還間接導致了約9 個月之后的出生率激增。同時,那也是一次現代媒體的勝利。伴隨颶風“桑迪”的,是一場實時播報颶風情況的Twitter(推特)風暴。Twitter 的獨特意義在于即時告訴你正在發生什么事情、事情發生在哪里以及發生在誰身上。這種社交媒體平臺是一種實時跟進事件進展的有效手段。這正是颶風“桑迪”肆虐期間的寫照。從2012 年10 月27 日到2012 年11 月1 日,Twitter 上發布了超過2 000 萬條播報颶風情況的帖子。很明顯,我們可能會認為,這是一個理想的平臺,讓我們持續不斷地了解風暴發展情況,以確定哪些地區受到了嚴重影響,哪些地區需要緊急救援。但是,后來的分析表明,Twitter 上關于颶風“桑迪”的內容,大多數來自曼哈頓,只有少量內容來自洛克威、科尼島等區域。這是否意味著洛克威、科尼島的受災情況輕一些?雖然曼哈頓的地鐵和街道都被水淹沒了,但是,那里并非受災*嚴重的區域,甚至在整個紐約范圍內也算不上。真相是,之所以某些地區在Twitter 上發布的內容較少,并不是因為那些地區受災較輕,而僅僅是因為那里擁有智能手機、使用Twitter 的人更少。事實上,我們可以再次設想一種極端情況:如果一個社區被“桑迪”徹底摧毀了,就根本不會有任何關于該社區的內容被發布在Twitter 上。這種情況反而會給人一種“那里的每個人都很好”的印象?梢,暗數據才是真相。與第1 種類型的暗數據一樣,第2 種暗數據,那些我們不知道哪些數據缺失了的例子,也是無處不在的。想想未被發現的欺詐行為,或者那些未能證明兇案發生的刑事犯罪調查。對于前兩種類型的暗數據,你可能會有點兒似曾相識的感覺。在一次著名的新聞發布會上,美國國防部前部長唐納德·拉姆斯菲爾德將它們概括為一句話。他說:“既有已知的未知,也就是說,我們知道有些事情我們不知道;也有未知的未知——那些我們不知道自己不知道的東西。” 6 拉姆斯菲爾德的話略顯佶屈聱牙,因此頗受媒體嘲諷。但他說得很有道理,而且肯定是真的。先前說到的這兩種類型,只是一個開頭。在接下來的章節里,我們將陸續介紹其他類型的暗數據。這兩種類型加上后面將提到的其他類型,就是本書的全部。正如我們所見,暗數據具有許多種形式。除非我們意識到,數據可能是不完整的,觀察某一事物并不意味著觀察一切事物,測量過程可能是不準確的,被測量的東西可能不是我們真正想要測量的對象,否則,我們對當下事物的認知,很有可能只是一種被嚴重誤導的表象。沒有人聽見樹在森林中倒下的聲音,并不意味著沒有發出聲音。
暗數據 作者簡介
戴維·漢德(David Hand),倫敦帝國學院數學榮譽教授、資深研究員,英國皇家統計學會前主席,英國科學院院士。漢德教授學術成就非凡,曾出版著作7部。
- >
名家帶你讀魯迅:朝花夕拾
- >
我從未如此眷戀人間
- >
【精裝繪本】畫給孩子的中國神話
- >
朝聞道
- >
史學評論
- >
羅曼·羅蘭讀書隨筆-精裝
- >
有舍有得是人生
- >
月亮虎