-
>
上海花園動植物指南
-
>
世界鳥類百科圖鑒:亞洲鳥類/歐洲鳥類/非洲鳥類/澳洲鳥類(全五冊)
-
>
科壇趣話:科學、科學家與科學家精神
-
>
愛因斯坦在路上:科學偶像的旅行日記
-
>
不可思議的科學史
-
>
動物生活史
-
>
影響世界的中國植物(全新修訂版)
30秒探索數據大爆炸 版權信息
- ISBN:9787568086103
- 條形碼:9787568086103 ; 978-7-5680-8610-3
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:
30秒探索數據大爆炸 本書特色
★大數據,不僅改變了人們生活的方方面面,更被上升為國家戰略,讓孩子了解何為數據科學,如何利用數據科學已經刻不容緩,*前沿的科學普及不可不知! ★本書主編為數據科學的資深觀察家和實踐者,在本書中分享了數據收集、分析的實用方法及其局限性,著重介紹了數據大爆炸對科學、社會、商業、娛樂、未來的影響,*前線的一手分析,不可不看! ★本書以大眾耳熟能詳的知名人物為線索,增加閱讀趣味。內有數據科學領域知名人物的傳記和重要貢獻,了解科學家的奇聞軼事,讓閱讀更有趣,讓記憶更深刻。 ★本書體例新穎,層次清晰,讓閱讀更輕松。每個主題,都分為3秒擊破概念,30秒探簡明解析,3分鐘認知拓展,可充分利用碎片化時間一覽概念,也可沉浸式閱讀深入研究探索。 ★圖書為全彩印刷,圖文結合,文字簡略凝練,信息量大,圖片炫酷、有創意,激發孩子好奇心和求知欲,讓孩子主動思考,培養孩子的科學思維! 在這個節奏越來越快的世界里,科學家是*受矚目的明星,期待遇見熱愛科學的你!
30秒探索數據大爆炸 內容簡介
數據科學是一門全新的學科,涵蓋了從發現罪犯到預測流行病的信息時代。但這不僅僅是我們的電腦、智能手機和信用卡收集的大量信息。本書為全彩印刷,圖文并茂地探討了數據科學如何在科學、社會、商業、娛樂和我們的世界的未來各個方面影響我們。在本書中,數據科學領域的專家解釋了該領域的50個發人深省的主題,每個主題,無論多復雜,作者都會用一幅圖、兩頁紙、三四百字,在30秒內向讀者進行講解。我們將一起踏上科學探秘之旅,解開隱藏在科學術語背后的神秘科學。本書是由數據科學領域的權威科學家精心編撰而成,涵蓋了驅動算法的基本統計原理,數據如何影響我們的科學、社會、商業、娛樂、道德困境及其對未來更美好世界的承諾。長期以來,我們一直都是用我們的本能、思想、觀點和經驗來驅動我們的決定。然而,現在我們正進入數據主義時代,讓數據驅動我們做出每一個決定。從氣候變化到難民危機,再到醫療保健,數據是一種驅動力,不僅在這些包羅萬象的問題上,也在我們的日常生活中。比如,亞馬遜等網上書店可以告訴你你想讀什么,而不是去書店;交友軟件也會根據收集到的無數數據,告訴你誰適合你。
30秒探索數據大爆炸 目錄
8 引言
12 基礎知識
14 術語
16 數據收集
18 數據可視化如何實現
20 從數據中學習
22 工具
24 回歸
26 弗朗西斯·高爾頓
28 聚類
30 統計學與建模
32 機器學習
34 神經網絡與深度學習
36 不確定性
38 術語
40 抽樣
42 相關性
44 趨均數回歸
46 置信區間
48 抽樣偏倚
50 算法偏差
52 喬治·博克斯
54 統計顯著性
56 過擬合
58 科學
60 術語
62 歐洲核子研究中心與希格斯玻色子
64 天體物理學
66 CRISPR基因編輯工具與數據
68 百萬基因組計劃
70 格特魯德·考克斯
72 氣候變化
74 治愈癌癥
76 流行病學
78 社會
80 術語
82 監控
84 安全
86 隱私
88 弗洛倫斯·南丁格爾
90 投票科學
92 健康
94 IBM沃森與谷歌阿爾法圍棋
96 商業
98 術語
100 工業4.0
102 能源供應與分配
104 物流
106 赫爾曼·何樂禮
108 營銷
110 金融建模
112 新產品開發
114 娛樂
116 術語
118 購物
120 交友
122 音樂
124 埃達·洛夫萊斯
126 體育運動
128 社交媒體
130 游戲
132 博彩
134 未來
136 術語
138 個性化醫療
140 心理健康
142 智能家居
144 約翰·W. 圖基
146 社會信用評分
148 人工智能
150 監管
152 倫理
154 附錄
156 參考資源
158 編者簡介
160 致謝
30秒探索數據大爆炸 節選
數據收集 現代計算技術的發展使我們一時間獲取了大量信息,因此,數據科學這一學科應運而生。從前,收集和分析數據僅限于手工操作,而現代技術的進步意味著我們生活中方方面面的信息都會被收集起來:從購買日用品到使用智能手表記錄每一次運動。現在收集到的海量數據將使我們的生活發生翻天覆地的變化。許多公司如雨后春筍般出現,它們收集的數據之多超乎想象。僅以臉書(Facebook)和谷歌為例,它們收集了大量的個人信息,也就是說,它們對我們知之甚多,甚至掌握著某些連我們*親密的朋友和家人都不得而知的信息。每一次,只要我們點擊谷歌上的鏈接或是在臉書上給某個帖子點贊,相關數據就會被收集起來,而后這些公司對我們的了解便增加一分。在將這些信息與它們收集到的與我們有相同特點的人的信息結合后,它們就可以有針對性地向我們投放廣告,并預測我們無論如何都料想不到的事情,比如我們的政治忠誠度。 數據可視化如何實現 “90%的政客都會撒謊”,這句話從何而來?更重要的是,這是事實嗎?在日常生活中,我們可以看到形形色色的數據概括:餅狀圖會告訴我們美國人*喜歡的巧克力棒是什么,新聞報道會告知我們一生中罹患癌癥的概率有多大。所有這些概括都來自或基于收集到的信息,但它們似乎總是相互矛盾。為什么會這樣呢?因為數據并不簡單,概括也不簡單。我可以這樣概括,你可以那樣概括,但孰對孰錯呢?這就是問題的癥結所在:我們很可能會被自己所看到的數據概括“牽著鼻子走”。即便數據概括是正確的,也可能無法合理地、精準地反映其所代表的數據。例如,你知道在20歲及以上的女性中,青少年懷孕現象將會大幅減少嗎?從技術層面上來說,確實如此,但就事實而言,這一數據概括毫無用處。所以,今后再看到數據概括時,你不妨思考一下它是否被曲解,然后再相應地考慮其結果。 從數據中學習 收集數據確實大有裨益,但是在我們收集到數據之后,除了進行概括,還可以做些什么呢?有了模型,我們就能采用比以往更復雜、更有效的方式從數據中獲取信息。有了模型,數據科學家就能行之有效地用一條或多條數據預測他們感興趣的結果(這便又增添了一條數據)。例如,年齡和性別數據可用于預測一個人在未來5年內是否會患上關節炎。在掌握一些人是否患有關節炎的數據后,我們可以用他們的年齡與性別信息建模,這一模型可以幫助我們預測其他人是否會患關節炎。除了預測新數據以外,數據還可以用于確定某一特定結果的原因。這一過程被稱作“因果推斷”,它通常用于研究疾病,比如,通過分析DNA(脫氧核糖核酸)來確定病因。然而,盡管在上述兩例中,預測關節炎病例都是*終目的,但它們所代表的建模問題卻有著細微的不同,甚至有著截然不同的建模過程。根據與特定項目相關的數據與目標選擇*佳模型是所有數據科學家**的主要技能之一。 機器學習 機器學習的理念是讓計算機在無須人工輔助的前提下,學會以一種自動化的方式不斷學習與提升。算法可以在系統中運行并自動做出決策,這通常有助于加快決策過程,減少人為錯誤。在這個系統中,機器學習算法利用接收到的數據預測未來,幫助系統在不同的選項之間運行、選擇。隨后,算法根據從接收到的信息中學到的內容進行自我更新,確保未來繼續做出*佳決策。聲田(Spotify)是機器學習在日常生活中得到運用的一個實例。這款音樂軟件擁有數百萬用戶,能夠根據用戶聽過的歌曲得知他們喜歡哪種類型的音樂。聲田對剛開始使用這款軟件的新用戶知之甚少,因此只能隨機推薦歌曲。但用戶一旦開始聽歌,算法就會不斷了解他們的音樂偏好以及他們與其他用戶的偏好之間的聯系。用戶聽過的歌曲越多,算法就越準確,為他們推薦的歌曲也會更加精準。 神經網絡與深度學習 神經網絡是*常見的機器學習方法之一,*初它是科學家從人腦中得到啟發提出的。與人腦一樣,神經網絡由相互連接的(人造)神經元組成,這些神經元能夠解釋圖像以及其他類型的數據。神經網絡在日常生活中起到了很大作用,能夠識別智能手機照片中的人臉,還能讀取信封上的地址,確保它們能夠送達正確的地址。深度學習是一組基于神經網絡展開的機器學習方法的統稱,其中有著大量的相互連接的人造神經元層。深度學習的用途之一是分析和回應信息,這些信息可能是以文本的形式(例如智能客服機器人)出現的,也可能是以語音的形式(例如亞馬遜語音助手Alexa和蘋果智能語音助手Siri)出現的。然而,深度學習*大的用途是圖像處理。深度學習可用于分析無人駕駛汽車捕捉的圖像,解釋結果,并建議汽車根據需要調整行駛路線。目前,深度學習也開始被應用于醫學領域,用以分析利用磁共振成像(MRI)或X射線等技術形成的圖像,成了識別腫瘤病變等的有效方法。 抽樣 “垃圾進,垃圾出”:數據科學家都知道,數據質量決定結果質量,因此大多數數據科學家都明白要密切關注測量值的收集。當數據分析師掌握了整個總體的數據(比如奈飛會記錄其訂閱用戶的觀影習慣)時,他們只需通過計算數字便可得出結論。但掌握整個總體的數據其實是不切實際的。在醫療詐騙犯罪調查中,“完整的總體”是數以萬億計的醫療索賠記錄,但律師可能會讓數據科學家有策略地選擇記錄中的一個子集,并從中得出結論。其他時候,如在政治民調中,只有樣本可供使用。如果樣本是隨機選擇而得,此時就需要統計學理論來告訴我們,從樣本到對總體的概括有多大的可信度。數據科學家越來越依賴所謂的“非概率抽樣”,即非隨機地選擇樣本。因此,使用推特(Twitter)數據來跟蹤某位候選人或某個品牌的人氣并非選擇了一個具有代表性的隨機樣本,但這一方法仍有其意義。 算法偏差 人類在執行同一項任務時會有不同的表現,算法正是通過處理這些不同的例子來學習如何做出決策的。量刑算法的訓練基于成千上萬條法官所做出的歷史性判決與有關罪犯及其罪行的信息。有些法官對某類人的判決更為嚴厲,如果這些法官被當作這些訓練數據的來源,那么他們的偏見就會被復制到模型之中。2018年,麻省理工學院媒體實驗室(MIT Media Lab)稱,美國微軟公司及美國IBM公司(International Business Machines Corporation,國際商業機器公司)所開發的面部識別系統在識別女性面孔時效果欠佳,在識別膚色較深的女性時頻頻出錯。由于英美警察已經開始測試用于預防犯罪的自動面部識別系統,此類系統若是不夠精確,總是發出虛假警報,公民自由將大大受限。2018年,亞馬遜停用了簡歷自動篩選工具,因為該工具持有性別偏見。其系統的運行以此前應聘成功者的數據為基礎,而由于技術行業從業人員中男女比例失衡,這些應聘成功者大多為男性。因此,求職申請中若是含有更可能出現在女性簡歷中的字眼(如“女足”),應聘者就會處于劣勢。通過學習,該算法將男性簡歷等同于成功,而將女性簡歷等同于失敗。 氣候變化 要對氣候趨勢進行預測,我們首先要收集和處理大量數據(如歷年全球平均氣溫)。刻畫全球平均氣溫變化情況的函數是多變量函數。大氣中的溫室氣體以高于平均水平的速度增加,捕獲高于平均水平的熱量,這會阻礙熱量的及時發散。海平面上升、瀝青鋪設面積增加、冰量減少等因素也會降低散熱速度。在理想狀態下,如果吸熱速度等于散熱速度,那么全球平均氣溫將保持不變,而散熱延遲破壞了這種平衡。盡管不平衡的狀態只是暫時存在,但在這段時間內,熱量會持續存留。此外,平衡恢復之后,溫度并非回到之前的水平,而是進入新常態。我們可能會進入不同的新常態:有些會令人輕微不適,有些則可致命。為了知道我們可能會進入哪種新常態,我們必須收集足量的數據來避免會誤導預測的小幅波動。研究人員正在收集全球氣溫、海冰厚度等數據,這些數據共同體現了溫室氣體水平的危險極限。 治愈癌癥 基礎科學發現有助于解釋癌癥機制,催生了靶向治療和對患者預后的研究,讓我們更加了解成功的療法,使我們離治愈癌癥又近了一步。數據科學讓我們能夠檢驗介入治療的價值。具體來說,統計思維在隨機試驗中發揮了基礎作用。1954年,美國國家癌癥研究所(National Cancer Institute)首次采用隨機試驗測試治療急性白血病的方法。早在40年前,癌癥研究就已經開始依賴現今數據科學中的內容了,如研究設計、數據分析和數據庫管理等。如今,分子生物學技術為每位患者都提供了成千上萬種檢測手段,能夠檢測癌細胞中的突變、染色體結構變化、基因表達異常、表觀遺傳變異和免疫應答等。這一技術的主要目的是利用這些信息提高診斷水平,定制治療方法。分子生物學技術帶來了龐大而復雜的數據集,豐富的統計知識和高超的計算技巧有助于高效處理這些數據集,并避免偶然事件的干擾。 流行病學 流行病學是收集數據,研究疾病的人群分布、模式和成因等的科學。這門科學融合了多個學科(如統計學、社會科學、生物學和工程學)來進行相關運算,以防控傳染病和非傳染病在人群中的傳播。流行病學影響公共衛生,并為當前的預防性手段(如疫苗接種)、非預防性手段(如糖尿病篩查)以及今后會采用的一些方法(如基于微生物組的診斷方式)提供依據。流行病學證據推動政府制定健康政策和指導方針(如兒童疫苗接種),以保護公民健康。該領域因遏制流行病和傳染病暴發而聞名。1854年,約翰·斯諾博士首次定義了流行病學的概念,當時,他查明了倫敦的霍亂病例起源于一處被污染的水源。此外,2013年,西非出現了由埃博拉病毒引起的死亡病例,隨著疾病不斷蔓延,人們開始調查埃博拉病毒如何以及為何傳播得如此迅速。這項調查為該地區的衛生防疫計劃提供了信息支撐,控制了病毒的傳播。
30秒探索數據大爆炸 作者簡介
利伯蒂·維特爾特(Liberty Vittert),現為圣路易斯華盛頓大學奧林商學院數據科學實踐教授。她經常為眾多新聞機構撰稿,并且在?怂股虡I頻道(Fox Business)開設了一個名為“統計學家生活指南”(A Statistician’s Guide to Life)的每周專欄。作為英國皇家統計學會大使、英國廣播公司杰出女性專家和國際統計學會當選會士,利伯蒂不遺余力地向公眾傳播統計學與統計數據。同時,她也是《哈佛數據科學評論》副主編,以及聯合國難民署美國委員會成員。
- >
煙與鏡
- >
我從未如此眷戀人間
- >
詩經-先民的歌唱
- >
羅曼·羅蘭讀書隨筆-精裝
- >
朝聞道
- >
莉莉和章魚
- >
小考拉的故事-套裝共3冊
- >
大紅狗在馬戲團-大紅狗克里弗-助人