淺談醫(yī)學(xué)大數(shù)據(jù)(上)

2015-3-23    藍(lán)藍(lán)設(shè)計(jì)的小編

藍(lán)藍(lán)設(shè)計(jì)m.sillybuy.com )是一家專注而深入的界面設(shè)計(jì)公司,為期望卓越的國(guó)內(nèi)外企業(yè)提供有效的UI界面設(shè)計(jì)、BS界面設(shè)計(jì) 、 cs界面設(shè)計(jì) 、 ipad界面設(shè)計(jì) 、 包裝設(shè)計(jì) 、 圖標(biāo)定制 、 用戶體驗(yàn) 、交互設(shè)計(jì)、 網(wǎng)站建設(shè) 、平面設(shè)計(jì)服務(wù)

每一個(gè)扁平化界面設(shè)計(jì),都是我們的心靈碰撞致力于最棒的 metro ui 設(shè)計(jì)

來(lái)源:http://www.36kr.com/p/220623.html

 如果您想訂閱本博客內(nèi)容,每天自動(dòng)發(fā)到您的郵箱中, 請(qǐng)點(diǎn)這里

淺談醫(yī)學(xué)大數(shù)據(jù)(上)

 

陳遵秋和陳漪伊夫婦是美籍華人,現(xiàn)在美國(guó)定居。其二人是目前研究醫(yī)療大數(shù)據(jù)及生物樣本大數(shù)據(jù)真正的專家。現(xiàn)將兩位的文章進(jìn)行公開(kāi)發(fā)表,與大家一起探討。

現(xiàn)在無(wú)論國(guó)內(nèi)外均出現(xiàn)了移動(dòng)醫(yī)療熱,所有的創(chuàng)業(yè)團(tuán)隊(duì)和投資公司均把商業(yè)模式指向了最后的醫(yī)療大數(shù)據(jù)分析。但是可以很負(fù)責(zé)任的說(shuō),90%以上的人都不知道醫(yī)療大數(shù)據(jù)分析是什么東西,因此這是一篇掃盲貼,但是僅供專業(yè)人士。文中分析了醫(yī)療大數(shù)據(jù)、它的維度、方法和成本,以及需要的專業(yè)人才。本文無(wú)論是對(duì)創(chuàng)業(yè)團(tuán)隊(duì)還是投資機(jī)構(gòu)都是非常有指導(dǎo)意義的。

大數(shù)據(jù)定義及其特征

大數(shù)據(jù)顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。從上世紀(jì)80年代開(kāi)始,每隔40個(gè)月世界上儲(chǔ)存的人均科技信息量就會(huì)翻倍 (Hibert & Lopez, 2011)。2012年,每天會(huì)有2.5EB量的數(shù)據(jù)產(chǎn)生 (Andrew & Erik, 2012)?,F(xiàn)在,2014年,每天會(huì)有2.3ZB量的數(shù)據(jù)產(chǎn)生 (IBM, 2015)。這是一個(gè)什么概念? 現(xiàn)在一般我們電腦的硬盤大小都以GB,或者TB為單位了。1GB的容量可以儲(chǔ)存約5.4億的漢字,或者170張普通數(shù)碼相機(jī)拍攝的高精度照片,或者300-350首長(zhǎng)度為5-6分鐘的MP3歌曲。 那GB和TB, EB,ZB的關(guān)系又是怎樣?

1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺(tái)1TB硬盤容量的電腦,那1ZB就是大致等于10億臺(tái)電腦的容量,遠(yuǎn)遠(yuǎn)超出了我們一般的想象。

早期,IBM定義了大數(shù)據(jù)的特性有3個(gè):大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來(lái)又有學(xué)者把價(jià)值(Value)加到大數(shù)據(jù)的特性里。隨著時(shí)間的推移和人們思考的進(jìn)一步完善,又有三個(gè)大數(shù)據(jù)的特性被提出: 易變性(Variability),準(zhǔn)確性(Veracity)和復(fù)雜性(Complexity)。

作者認(rèn)為價(jià)值本質(zhì)上是數(shù)據(jù)被分析后體現(xiàn)出來(lái)的有用信息知識(shí)的程度,和其他幾個(gè)特性有根本區(qū)別。其他幾個(gè)特性可以說(shuō)是數(shù)據(jù)工作者具體實(shí)踐中面臨的挑戰(zhàn),而價(jià)值則是征服這些挑戰(zhàn)后獲得的回報(bào)。

大數(shù)據(jù)的6個(gè)特性描述如下:

大量性:一般在大數(shù)據(jù)里,單個(gè)文件大量性的級(jí)別至少為幾十,幾百GB以上,一調(diào)查 (Russom, 2013)顯示相當(dāng)多的機(jī)構(gòu)擁有的數(shù)據(jù)總量在10到99TB之間。用我們傳統(tǒng)的數(shù)據(jù)庫(kù)軟件,1GB已經(jīng)可以儲(chǔ)存千萬(wàn)條有著幾百個(gè)變量的數(shù)據(jù)記錄了。

多樣性:泛指數(shù)據(jù)類型及其來(lái)源的多樣化 (Troester, 2012),進(jìn)一步可以把數(shù)據(jù)結(jié)構(gòu)歸納為結(jié)構(gòu)化(structured),半結(jié)構(gòu)化(semi-structured),和非結(jié)構(gòu)化(unstructured) (SAS, 2014) 。

快速性:反映在數(shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上。比如一份哈佛商學(xué)院的研究報(bào)告稱在2012年時(shí),谷歌每天就需要要處理20PB的數(shù)據(jù) (Harvard Business Review, 2012)。

易變性:伴隨數(shù)據(jù)快速性的特征,數(shù)據(jù)流還呈現(xiàn)一種波動(dòng)的特征。不穩(wěn)定的數(shù)據(jù)流會(huì)隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值 (Troester, 2012)。

準(zhǔn)確性:又稱為數(shù)據(jù)保證(data assurance)。不同方式,渠道收集到的數(shù)據(jù)在質(zhì)量上會(huì)有很大差異。數(shù)據(jù)分析和輸出結(jié)果的錯(cuò)誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質(zhì)量的高低 (W.Raghupathi & Raghupathi, 2014)。所謂“垃圾進(jìn),垃圾出”。沒(méi)有數(shù)據(jù)保證,大數(shù)據(jù)分析就毫無(wú)意義。

復(fù)雜性:復(fù)雜性體現(xiàn)在數(shù)據(jù)的管理和操作上。IT時(shí)代,隨著數(shù)據(jù)來(lái)源及數(shù)據(jù)量的爆發(fā),各種不同渠道數(shù)據(jù)的大量涌現(xiàn),數(shù)據(jù)的管理和操作已經(jīng)變得原來(lái)越復(fù)雜。如何抽取,轉(zhuǎn)換,加載,連接,關(guān)聯(lián)以把握數(shù)據(jù)內(nèi)蘊(yùn)的有用信息已經(jīng)變得越來(lái)越有挑戰(zhàn)性。

醫(yī)療大數(shù)據(jù)的爆發(fā)

早期,大部分醫(yī)療相關(guān)數(shù)據(jù)是紙張化的形式存在,而非電子數(shù)據(jù)化存儲(chǔ), 比如官方的醫(yī)藥記錄,收費(fèi)記錄,護(hù)士醫(yī)生手寫的病例記錄,處方藥記錄,X光片記錄,磁共振成像(MRI)記錄,CT影像記錄等等。

隨著強(qiáng)大的數(shù)據(jù)存儲(chǔ),計(jì)算平臺(tái),及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在的趨勢(shì)是醫(yī)療數(shù)據(jù)的大量爆發(fā)及快速的電子數(shù)字化。以上提到的醫(yī)療數(shù)據(jù)都在不同程度上向數(shù)字化轉(zhuǎn)化。

有報(bào)告顯示,2011年,單單美國(guó)的醫(yī)療健康系統(tǒng)數(shù)據(jù)量就達(dá)到了150EB。照目前的增長(zhǎng)速度, ZB(約1021GB)和YB(約1021GB) 的級(jí)別也會(huì)很快達(dá)到 (IHTT, 2013)。Kaiser Permanente,一個(gè)在加州發(fā)展起來(lái)的醫(yī)療健康網(wǎng)絡(luò)系統(tǒng),就有9百萬(wàn)的會(huì)員,被認(rèn)為擁有26.5到44PB的電子健康記錄 (IHTT, 2013)。

IT時(shí)代涌現(xiàn)的還有各種網(wǎng)絡(luò)社交媒體數(shù)據(jù),比如曾經(jīng)Google用來(lái)預(yù)測(cè)流感的數(shù)據(jù)?;驍?shù)據(jù)也是非常龐大的存在,一次全面的基因測(cè)序,產(chǎn)生的個(gè)人數(shù)據(jù)則達(dá)到 300GB (Leah, 2014)。公開(kāi)發(fā)布的基因DNA微陣列達(dá)到50萬(wàn)之多,每一陣列包含數(shù)萬(wàn)的分子表達(dá)值。在生物醫(yī)藥方面,功能性磁共振影像的數(shù)據(jù)量也達(dá)到了數(shù)萬(wàn)TB級(jí)別,每一幅影像包含有5萬(wàn)像素值 (Fan, Han, & Liu, 2014)。

此外,各種健身,健康可穿戴設(shè)備的出現(xiàn),使得血壓、心率、體重,血糖,心電圖(EKG)等的監(jiān)測(cè)都變?yōu)楝F(xiàn)實(shí)和可能,信息的獲取和分析的速度已經(jīng)從原來(lái)的按“天”計(jì)算,發(fā)展到了按“小時(shí)”,按“秒”計(jì)算。比如,一家名為Blue Spark的科技公司已經(jīng)生產(chǎn)出能24小時(shí)實(shí)時(shí)監(jiān)測(cè)體溫的新型溫度計(jì)貼片temptraq。

這種數(shù)據(jù)的擴(kuò)展速度和覆蓋范圍是前所未有的,數(shù)據(jù)的格式也五花八門,可能是無(wú)格式文件(flat file),CSV,關(guān)系表,ASCII/純文本文件等等。

同時(shí),數(shù)據(jù)的來(lái)源也紛繁復(fù)雜,可能來(lái)自不同的地區(qū),不同的醫(yī)療機(jī)構(gòu),不同的軟件應(yīng)用。不可否認(rèn),一旦理順了多格式,多源頭,呈爆炸性成長(zhǎng)的大數(shù)據(jù)的整合和分析,醫(yī)療大數(shù)據(jù)將對(duì)提高醫(yī)療質(zhì)量,強(qiáng)化患者安全,降低風(fēng)險(xiǎn),降低醫(yī)療成本等方面發(fā)揮無(wú)與倫比的巨大作用。

醫(yī)療大數(shù)據(jù)的優(yōu)勢(shì)和應(yīng)用場(chǎng)景

有效的整合和利用數(shù)字化的醫(yī)療大數(shù)據(jù)對(duì)個(gè)體醫(yī)生,康寶中心,大型醫(yī)院,和醫(yī)療研究機(jī)構(gòu)都有著顯著的好處。

潛在的利益包括 (W.Raghupathi & Raghupathi, 2014):

1)更多更準(zhǔn)確的數(shù)據(jù)使得疾病能在早期被監(jiān)測(cè)到,從而使治療更容易和有效。

2)通過(guò)對(duì)特定個(gè)體或人群的健康管理,快速有效地監(jiān)測(cè)保健詐騙。

3)基于大量的歷史數(shù)據(jù),預(yù)測(cè)和估計(jì)特定疾病或人群的某些未來(lái)趨勢(shì),比如:預(yù)測(cè)特定病人的住院時(shí)間,哪些病人會(huì)選擇非急需性手術(shù), 哪些病人不會(huì)從手術(shù)治療中受益,哪些病人會(huì)更容易出現(xiàn)并發(fā)癥,等等。麥肯錫估計(jì),單單就美國(guó)而言,醫(yī)療大數(shù)據(jù)的利用可以為醫(yī)療開(kāi)支節(jié)省出3千億美元一年。

醫(yī)療大數(shù)據(jù)的利用可以從以下幾方面減少浪費(fèi)和提率 (Manyika, 以及其他人, 2011):

臨床操作: 相對(duì)更有效的醫(yī)學(xué)研究,發(fā)展出臨床相關(guān)性更強(qiáng)和成本效益更高的方法用來(lái)診斷和治療病人。

研究和發(fā)展:在藥品和醫(yī)療器械方面,建立更低磨損度,更精簡(jiǎn),更快速,更有針對(duì)性的研發(fā)產(chǎn)品線。統(tǒng)計(jì)工具和算法方面,提高臨床試驗(yàn)設(shè)計(jì)和患者的招募,使得治療方法可以更好地匹配個(gè)體患者的病癥,從而降低臨床試驗(yàn)失敗的可能和加快新的治療方法推向市場(chǎng)。分析臨床試驗(yàn)和病人的病歷,以確定后續(xù)的跡象,并在產(chǎn)品進(jìn)入市場(chǎng)前發(fā)現(xiàn)病人對(duì)藥物醫(yī)療方法的不良反應(yīng)。

公共衛(wèi)生:分析疾病模式和追蹤疾病暴發(fā)及傳播方式途徑,提高公共衛(wèi)生監(jiān)測(cè)和反應(yīng)速度。更快更準(zhǔn)確地研制靶向疫苗,例如:開(kāi)發(fā)每年的流感疫苗。

此外,醫(yī)療大數(shù)據(jù)的分析還有利于以下幾方面的發(fā)展 (W.Raghupathi & Raghupathi, 2014):

循證醫(yī)學(xué):結(jié)合和分析各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),電子病歷,財(cái)務(wù)和運(yùn)營(yíng)數(shù)據(jù),臨床資料和基因組數(shù)據(jù)用以尋找與病癥信息相匹配的治療,預(yù)測(cè)疾病的高?;颊呋蛱峁└嗟尼t(yī)療服務(wù)。

基因組分析:更有效和低成本的執(zhí)行基因測(cè)序,使基因組分析成為正規(guī)醫(yī)療保健決策的必要信息并納入病人病歷記錄。

提前裁定欺詐分析:快速分析大量的索賠請(qǐng)求,降低欺詐成功率,減少浪費(fèi)和濫用。

設(shè)備/遠(yuǎn)程監(jiān)控:從住院和家庭醫(yī)療裝置采集和分析實(shí)時(shí)大容量的快速移動(dòng)數(shù)據(jù),用于安全監(jiān)控和不良反應(yīng)的預(yù)測(cè)。

病人的個(gè)人資料分析:全面分析病人個(gè)人信息(例如,分割和預(yù)測(cè)模型)從中找到能從特定健保措施中獲益的個(gè)人。例如,某些疾病的高?;颊撸ㄈ缣悄虿。┛梢詮念A(yù)防措施中受益。這些人如果擁有足夠的時(shí)間提前有針對(duì)性的預(yù)防病情,那么大多數(shù)的危害可以降到程度,甚至可以完全消除。

然而,根據(jù)一份針對(duì)美國(guó)和加拿大333家醫(yī)療機(jī)構(gòu)及10家其他機(jī)構(gòu)的調(diào)查 (IHTT, 2013),2013年,醫(yī)療機(jī)構(gòu)累積的數(shù)據(jù)量比2011年多出了85%, 但77%的醫(yī)療健康行政人員對(duì)自己機(jī)構(gòu)在數(shù)據(jù)管理方面的能力評(píng)價(jià)為“C”。此外,僅有34%報(bào)告他們能從電子健康記錄(EHR)中獲取數(shù)據(jù)用來(lái)幫助病人,而有43%報(bào)告他們不能收集到足夠多的數(shù)據(jù)來(lái)幫助病人。由此可見(jiàn),在北美的醫(yī)療系統(tǒng)中,醫(yī)療大數(shù)據(jù)的管理使用準(zhǔn)備工作還有一大段路要走。中國(guó)也是處在起步階段。

AD:【獵聘優(yōu)選】阿里巴巴 PHP開(kāi)發(fā)工程師 30-40萬(wàn)

日歷

鏈接

個(gè)人資料

存檔