-
>
中醫入門必背歌訣
-
>
醫驗集要
-
>
尋回中醫失落的元神2:象之篇
-
>
補遺雷公炮制便覽 (一函2冊)
-
>
人體解剖學常用詞圖解(精裝)
-
>
神醫華佗(奇方妙治)
-
>
(精)河南古代醫家經驗輯
面向精準醫療的多源異構數據采集與融合技術研究 版權信息
- ISBN:9787030672711
- 條形碼:9787030672711 ; 978-7-03-067271-1
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
面向精準醫療的多源異構數據采集與融合技術研究 內容簡介
本書圍繞精準醫療大數據平臺建設,利用分布式存儲和Hadoop技術,從數據采集、集成、存儲、標準、融合等方面介紹其技術原理及實現路徑,并對關鍵技術難點進行論述,提出了精準醫療大數據平臺的解決方案,對數據應用場景和價值進行分析拓展。 本書既適用于健康醫療大數據、精準醫療及醫療信息化行業從業人員,也可供高等院校大數據、計算機、醫學統計、人工智能等專業的本科生和研究生參考。
面向精準醫療的多源異構數據采集與融合技術研究 目錄
1 精準醫療大數據概述 1
1.1 大數據的基本概念、特點、發展階段、基本流程、應用領域及未來發展趨勢 1
1.2 精準醫療大數據的定義 15
1.3 精準醫療大數據的分類 16
1.4 精準醫療大數據的標準 19
1.5 精準醫療大數據的生命周期 22
參考文獻 23
2 精準醫療大數據之數據采集 25
2.1 數據采集概述 25
2.2 大數據采集的技術方法 28
2.3 數據脫敏 35
2.4 數據清洗 38
2.5 數據質量管理 40
參考文獻 45
3 精準醫療大數據之數據集成 47
3.1 數據集成技術 47
3.2 實體識別 49
3.3 主索引技術EMPI 53
3.4 數據集成的實現 58
參考文獻 68
4 精準醫療大數據之數據存儲 69
4.1 數據存儲技術 69
4.2 大數據存儲的關鍵技術分析 74
4.3 分布式存儲系統 86
4.4 主要數據庫存儲技術 91
4.5 不同數據存儲方法的選擇 95
參考文獻 97
5 精準醫療大數據相關標準規范 98
5.1 基礎類標準規范 98
5.2 技術類標準規范 100
5.3 管理類標準規范 101
5.4 安全類標準規范 102
6 精準醫療大數據數據采集融合平臺 105
6.1 數據ETL處理基本工具 105
6.2 數據采集融合常用數據庫 109
6.3 Hadoop大數據平臺 115
6.4 借助醫院CDR進行數據采集融合 118
6.5 精準醫療大數據數據采集融合平臺的發展歷程及未來趨勢 118
參考文獻 121
7 精準醫療大數據應用 123
7.1 臨床大數據應用 123
7.2 藥學大數據應用 139
7.3 多組學大數據應用 143
7.4 健康大數據應用 149
7.5 區域醫療大數據應用 151
7.6 醫藥衛生行政管理 157
參考文獻 159
面向精準醫療的多源異構數據采集與融合技術研究 節選
1 精準醫療大數據概述 1.1 大數據的基本概念、特點、發展階段、基本流程、應用領域及未來發展趨勢 1.1.1 基本概念及特點 近年來,“大數據”一詞已成為高頻網紅詞匯,大數據技術已不知不覺深入到人們生活的方方面面。我們閱讀、出行、購物、旅游、看病、工作,每時每刻都在源源不斷地產生新數據,構建著一幢幢“數字大廈”。數字經濟快速發展,數據成為新的生產要素,推動社會進步。 大數據是什么?麥肯錫全球研究院給出的定義:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。 國際數據公司(IDC)從大數據的四個特征來定義,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。 亞馬遜大數據科學家給出了一個簡單的定義:大數據是任何超過了一臺計算機處理能力的數據量。 根據Gartner的定義,大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 通過以上幾個定義可看出,大數據概念較為寬泛,但其特點總結為“數據大”“價值高”。而大數據的價值不在于龐大的數據本身,而在于挖掘、分析數據背后蘊含的價值。唯有經過加工、“去粗取精”后產生價值的數據方可成為數據資產,實現數據“增值”。大數據應用是個綜合性系統工程,唯有將業務需求、數據思維、挖掘分析三者結合起來,才能對其有較為全面的認識。 大數據一般具有5V特點,詳見圖1-1。 圖1-1 大數據5V特點 數量(Volume):即數據量大,包括采集、存儲和計算的量都非常大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。 種類(Variety):種類和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現為網絡日志、音頻、視頻、圖片、物聯網數據、地理位置信息等,多類型的數據對處理挖掘技術提出了更高的要求。此外,非結構化數據規模巨大、增長較快,占數據總量的80%~90%,增長速度比結構化數據快10~50倍。 價值(Value):數據價值密度。海量信息每天不斷產生,但價值密度較低,如何根據實際業務需求,通過強大的機器算法來挖掘數據價值,分析數據之間的相關性,進行未來趨勢與模式預測,是大數據時代*需要解決的問題。 速度(Velocity):數據增長、處理快速化,時效性要求高。如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法要求盡可能實時完成推薦。這是大數據區別于傳統數據挖掘的顯著特征。實時分析而非批量式分析,數據輸入、處理與丟棄,立竿見影而非事后見效。 真實性(Veracity):數據的準確性和可信賴度,即數據的質量。大數據所承載的內容是與真實世界中發生的事件息息相關的,源頭數據真實性決定了分析、解釋、預測事件的可信程度。 1.1.2 發展階段 大數據的概念*早是在2008年由Nature雜志提出,隨著技術的不斷迭代突破,目前已廣泛成熟應用于各領域,其發展階段如表1-1所示。 表1-1 大數據發展階段 萌芽期:20世紀90年代到21世紀初,隨著數據庫技術和數據挖掘理論的成熟,數據倉庫、專家系統等軟件開始被廣泛使用。 成熟期:21世紀前十年,非結構化數據開始大量涌現,傳統的數據庫處理方法難以應對,也稱非結構化數據階段。2006~2009年,谷歌公開發表《谷歌文件系統》和《基于集群的簡單數據處理:MapReduce》兩篇文章,其核心技術包括分布式文件系統(GFS)、分布式計算系統框架(MapReduce)、分布式鎖(Chubby)及分布式數據庫(BigTable),這期間大數據研究的焦點是性能、云計算、大規模的數據集并行運算算法,以及開源分布式架構(Hadoop)。 大規模應用期:2010年以后,大數據基礎技術成熟之后,學術界及企業界紛紛開始轉向應用研究,2013年大數據技術開始向商業、科技、醫療、政府、教育、經濟、交通、物流等社會的各個領域滲透,因此2013年也被稱為大數據元年。 據IDC統計,2010年全球產生的數據量僅為2ZB,預計到2025年全球每年產生的數據量將高達175ZB,相當于每天產生491EB的數據;就增長率而言,近幾年數據量的增長率都穩定在20%以上,預計2025年增長率將超過30%。相比于全球,中國的數據要素規模擴張更為迅速,以30%的年均增速領先全球,比全球平均增速高3%,預計到2025年,中國的數據量將增長至48.6ZB,將占全球數據量的27.8%,成為世界上*大的數據圈。 近年來,我國大數據產業蓬勃發展,融合應用不斷深化,數字經濟量質齊升,對經濟社會的創新驅動、融合帶動作用顯著增強。大數據繁榮發展的背后離不開國家的重視與努力,我國先后出臺多項大數據政策,并在2016年將大數據上升為國家戰略。各地陸續出臺促進大數據產業發展的規劃、行動計劃和指導意見等文件。目前,我國各地推進大數據產業發展的設計已經基本完成,陸續進入了落實階段。 2019年10月,黨的十九屆四中全會通過的《中共中央關于堅持和完善中國特色社會主義制度 推進國家治理體系和治理能力現代化若干重大問題的決定》,首次將數據增列為生產要素,要求建立健全由市場評價貢獻、按貢獻決定報酬的機制。 2020年4月9日,中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》,將數據與土地、勞動力、資本、技術并列為五大生產要素,提出要加快培育數據要素市場。 在大數據政策的鼓勵號召下,我國大數據基礎設施領域持續創新,大數據技術產品不斷提升,行業應用加速發展,數據逐步實現安全開放共享,數據資產化步伐穩步前進。 1.1.3 大數據處理基本流程 大數據處理基本流程可以概括為四步,分別是數據采集、數據預處理、數據挖掘與分析及數據應用。 (1)數據采集 大數據的采集是指利用多個數據庫接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫進行簡單的查詢和處理工作。例如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,像Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。 在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時可能會有成千上萬的用戶進行訪問和操作,并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐,并且如何在這些數據庫之間進行負載均衡和分片的確需要深入思考和設計。 對精準醫療多源異構大數據而言,精準醫療數據的來源和類型廣泛,生物樣本數據可以通過區域醫療健康協同中心、社區醫療中心、基層醫療中心、精準醫療示范基地、精準醫療實驗室和健康移動終端等途徑獲取,數據類型也多種多樣,包括臨床數據、基因數據、健康數據、環境數據等。因此,需要通過對各種數據的采集治理進行多源異構數據的融合。此外,在醫療這個領域,國內的三甲醫院中各家醫院系統都是不同廠商系統的結合,而這些廠商并沒有很好地互聯互通,如果沒有一些基礎的工程性工作,落地應用實現本身是不容易的,因此數據采集起著重要作用。 (2)數據預處理 大數據采集過程中通常有一個或多個數據源,這些數據源包括同構或異構的數據庫、文件系統、服務接口等,易受到噪聲數據、數據值缺失、數據沖突等影響,因此需首先對收集到的大數據集合進行數據治理,以保證大數據分析與預測結果的準確性與價值性。大數據預處理主要包括數據清理、數據集成、數據歸約與數據轉換等環節,可以大大提高大數據的總體質量,是大數據治理過程質量的體現。 數據預處理技術包括對數據的不一致檢測、噪聲數據的識別、數據過濾與修正等方面,有利于提高大數據的一致性、準確性、真實性和可用性等方面的質量;數據集成則是將多個數據源的數據進行集成,從而形成集中、統一的數據庫、數據立方體等,這一過程有利于提高大數據的完整性、一致性、安全性和可用性等方面質量;數據歸約是在不損害分析結果準確性的前提下降低數據集規模,使之簡化,包括維歸約、數據歸約、數據抽樣等技術,這一過程有利于提高大數據的價值密度,即提高大數據存儲的價值性。數據轉換處理包括基于規則或元數據的轉換、基于模型與學習的轉換等技術,可通過轉換實現數據統一,這一過程有利于提高大數據的一致性和可用性。 總之,數據預處理環節有利于提高大數據的一致性、準確性、真實性、可用性、完整性、安全性和價值性等方面質量,而大數據預處理中的相關技術是影響大數據過程質量的關鍵因素。 在醫療領域,醫療信息化已經滿足基本應用,但很多醫院醫療信息化之后產出的數據,質量其實還達不到今天的實際需求,數據質量嚴重影響后期分析。因此,需要花費很大的精力建立一種基于邏輯的醫學常識的知識庫,通過知識庫排查數據質量問題,進行預處理。 (3)數據挖掘與分析 數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數據分析是大數據處理與應用的關鍵環節,它決定了大數據集合的價值性和可用性,以及分析預測結果的準確性。在數據分析環節,應根據大數據應用情境與決策需求,選擇合適的數據分析技術,提高大數據分析結果的可用性、價值性和準確性質量。 機器學習和數據挖掘是緊密相關的,進行數據挖掘需要掌握一些機器學習所用的方法和模型知識,通過模型的訓練可以得到處理數據的*優模型。數據挖掘常用的模型如下: 1)監督學習模型:通過已有的訓練樣本(即已知數據及其對應的輸出)去訓練得到一個*優模型(這個模型屬于某個函數的集合,*優則表示在某個評價準則下是*佳的),再利用這個模型將所有的輸入映射為相應的輸出,對輸出進行簡單的判斷,從而實現分類的目的,也就具有了對未知數據進行分類的能力。該類模型包括決策樹、貝葉斯方法、神經網絡、支持向量機(support vector machine,SVM)、集成學習分類模型等。 2)無監督學習模型:在非監督式學習中,數據并不被特別標識,學習模型是為了推斷出數據的一些內在結構,應用場景包括關聯規則的學習及聚類等。常見的聚類算法包括k均值聚類、基于密度的聚類、層次聚類方法、譜聚類等。 3)半監督學習模型:在此學習方式下,輸入數據部分被標識、部分沒有被標識,這種學習模型可以用來進行預測,但是模型首先需要學習數據的內在結構以便合理地組織數據來進行預測。應用場景包括分類和回歸,算法包括一些對常用監督式學習算法的延伸,這些算法首先試圖對未標識數據進行建模,在此基礎上再對標識的數據進行預測,如圖論推理算法(graph inference)或者拉普拉斯支持向量機(Laplacian SVM)等。 在醫療行業,完成數據集成、治理,數據質量得到提升后仍需要大量的自然語言處理、機器視覺、基因分級等技術挖掘分析,深入解析數據隱藏層面的價值。
- >
山海經
- >
自卑與超越
- >
巴金-再思錄
- >
姑媽的寶刀
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
莉莉和章魚
- >
隨園食單
- >
詩經-先民的歌唱