經過20多年的醫療信息數據化,中國已經擁有龐大的醫療數據基礎。據 IDC顯示,全球醫療數據量2013年已達到153EB,2017年超過了600EB,預計到2020年將達到2.314PB。
也正是有了醫療大數據的深厚積淀,近年來,在深度學習等AI技術興起后,不少創業公司嘗試利用自然語言理解、圖像識別等技術進行臨床數據的清洗。在這個過程中,人們發現,醫療數據的數量是夠了,但醫療數據質量卻讓人擔憂。
在前不久2018深圳國際BT領袖峰會上,中國醫學科學院阜外醫院院長胡盛壽在其主題演講中就曾提到,現階段醫療機構的數據合格率若能達到50%到60%就已經相當不錯了。
而現階段大部分人工智能企業在醫療數據的清洗過程階段,依舊要請大量有經驗的醫生專家進行人工標注,機器輔助,以此才能建模。
到底怎樣才能從一開始就產生高質量醫療數據?近日,在第80屆中國國際醫療器械博覽會上,浙江大學生物醫學工程與儀器科學學院教授、博士生導師呂旭東,軍事醫學研究院研究員趙東升、深圳中興網信科技有限公司醫療產品線總經理張思昱等人,就“如何利用開放式國際標準openEHR為建設高質量、標準化醫療大數據問題”發表了主題演講。
醫療大數據掀起的“波浪”
不論是國家、企業還是高校,近幾年,對于醫療大數據的“反響”都很大。
2015年,國務院發布了《促進大數據發展行動綱要》,其中明確了關于數據使用的總體要求。2016年6月底國務院又出臺《關于促進和規范健康醫療大數據應用發展的指導意見》,將醫療大數據正式納入國家發展,并對醫療大數據融合及共享開放建設,在醫療、醫藥、公共衛生、醫保等方面的應用,以及使用安全保障等方面進行全面規范。2017年,國家重點企業牽頭組建了三家健康大數據企業:中國健康醫療大數據產業發展集團公司、中國健康醫療大數據科技發展集團公司、中國健康醫療大數據股份有限公司。
在企業方面,隨著“Al+醫療”這塊蛋糕不斷擴大,醫療大數據的重要性也在不斷凸顯,不論是藥企,醫療器械廠家、生命科學企業等各方,均想在其中分一杯羹。醫療大數據的市場規模也在不斷擴大。據麥肯錫預測,美國醫療大數據的市場規模為每年3000億至4500億美元,中國在醫療大數據領域也有上千億元的市場規模。對此,投資方也嗅到到了商機。而智研咨詢發布的報告也顯示,2018年第一季度,有關醫療健康大數據領域的投資就達35起,在大健康領域占比達22.2%。
在高校方面,產研結合一直是國家是大力提倡的。今年8月,經中國衛生信息與健康醫療大數據學會批復,廈門大學成立了“廈門大學健康醫療大數據國家研究院”。10月,武漢大學又宣布成立“武漢大學健康醫療大數據國家研究院”,以促進和規范健康醫療大數據應用發展。
利用openEHR,建設高質量醫療大數據
醫療大數據的應用領域可謂廣泛,包括智能輔診、新藥研發等。但不少企業在“快馬加鞭”的發展過程中卻發現,醫療數據質量低成了“絆腳石”。以臨床醫療數據為例,出現質量低的原因主要有:
第一,醫生在使用臨床數據采集系統時,病歷的書寫標準不統一和不完整,特別是在大三甲醫院,醫生的日常工作量較大,很容易草率地對待電子病歷的填寫。
第二,在醫院電子病歷數據處理環節,醫療行業雖信息化程度很高,但數據化程度很低,絕大多數醫院已經實現了HIS系統全覆蓋,通過HIS系統可以采集到不少患者數據。但由于患者信息的底層邏輯不清晰,使得這類患者數據多數為非結構化的文檔數據,沒辦法直接做數據分析與應用。
第三,是在數據質控分析環節,質控團隊對于數據的核查不夠認真。這就容易讓垃圾數據通過審核,進入到醫療大數據中。
在會上,浙江大學呂旭東就曾提出要利用openEHR從源頭來打造高質量醫療數據。但目前看講,大部分人對于openEHR都比較陌生。
據顯示,openEHR是由國際openEHR組織于1999年提出的開放式電子健康檔案規范。openEHR規范其核心在于將醫療領域知識從具體的臨床信息中分離出來,并建立了兩層模型——參考模型和原型模型。參考模型是對信息系統中穩定不變的概念進行建模,定義了信息表達所需的基礎數據類型和數據結構。原型模型包括原型和模板,原型通過對參考模型添加約束的方式來定義臨床內容,表達領域知識;模板通過對原型的約束和定制,滿足實際應用需求。
openEHR模型驅動的開放式醫療數據平臺可解決不同角色對數據需求動態變化快,但各業務系統響應、修改慢的問題。此外,還可解決各類醫療業務系統不斷增多,數據源持續增長但又無法及時有效集成導致成為了數據孤島的問題。
實際上,OpenEHR在歐洲、澳洲和日本等國家地區已經得到了廣泛普及,并于2008年被國際標準組織接受,發展為ISO 13606-2標準。迄今,歐洲很多國家的全國電子健康檔案數據中心均采用該標準,日本2015年新啟動的全國電子健康檔案數據中心項目也計劃采用該標準。