自基因測序技術被發明以來,建設人類基因組數據庫一直是各國基因組研究中心的核心內容之一,人類基因組數據庫的宗旨是為從事人類基因組研究的科學家和醫護人員提供人類基因組信息。目前國際上人類基因組數據大多來源于西方白種人,然而不同人種的進化差異會導致明顯的易感基因差異、特異性位點突變頻率不同、基因突變表觀差異等,因此在我國分子診斷與精準醫學飛速發展的背景下,建立高質量的中國人群基因組數據庫已經成為當下制約分子醫學發展的重要壁壘。今年兩會上,委員也建議應盡快建立精準醫學資源庫,整合共享醫療大數據,促進精準醫學更好的發展。
貝瑞和康作為致力于將高通量測序技術實現臨床轉化的行業領導者,早在2015年8月14日宣布與云計算服務平臺提供商阿里云達成合作,共同打造以海量的中國人群基因組數據為核心的數據云,實現對個人基因組數據的精準解讀。該項目由美國貝勒醫學院、現任職貝瑞和康CIO的于福利教授牽頭,參與“神州基因組數據云”項目的研究人員達到了100多人,由醫學、分子生物學、遺傳學、計算機編程等研究領域的博士組成。項目組分成三個團隊,一個是貝瑞和康的研究團隊,一個是于福利在貝勒實驗室的團隊,另外一個則是專門做高性能運算的阿里云團隊。
神州基因組數據云,是一個知識密集型項目。
阿里云擁有批量計算服務的強大能力,貝瑞和康則深耕基因檢測多年已積累超過百萬人群基因組數據,此次選取其中四十萬人份數據作為“神州基因組數據云”項目的第一階段數據,旨在借助云計算對該數據資源進行深入挖掘,進一步揭示中國人群遺傳突變分布,提升中國人遺傳疾病診斷的效率和精準程度。
當基因測序成本迅速下降以后,擁有數據量的多少不再是行業里唯一的競爭優勢,而是否能夠將海量的大數據進行解讀,轉換成具體能夠應用的有效信息,才是測序企業發展的核心競爭力。光有云計算能力和基因組數據還不夠,分析和注釋技術是能否達成項目目標的內在核心驅動力。該項目發布一年后,也即2016年8月24日貝瑞和康公布了為基因數據分析開發的兩大核心專利技術:Verita Trekker?變異位點檢測系統和Enliven?變異位點注釋系統。
Verita Trekker?經過嚴格的基因型質量控制,SNP 檢測的靈敏度達99.00%,特異性達99.99%,真陽性率達99.90%;Indel 檢測的真陽性率達88.00%;家系樣本基因型真陽性率大于99.90%;各項指標均屬國際業界一流水平。而Enliven?則通過統計學計算和文本挖掘方法整合國際權威的超過50個數據庫和預測算法,其中也包括“神州基因組數據云”項目所產生的中國人特有基因信息數據庫。同時,支持千萬篇文獻的即時查找,全面覆蓋基因、變異、表型、疾病信息,參考權威文獻、美國醫學遺傳學學會(ACMG)標準與實際基因型-表型對應,在這樣完善的體系和先進的算法的保障下,能夠出具可靠的變異致病性結果,為科研工作者和臨床醫生更好的研究和制定精準醫療方案提供幫助。
在Verita Trekker?和Enliven?兩大核心技術共同驅動下的“神州基因組數據云”項目取得了階段性的重要成果。2016年9月8日,貝瑞和康已完成世界首個中國人群基因組數據庫建設,填補了國際基因數據庫中缺少中國人群特有基因組數據信息的空白。
同年9月23日,在第十九屆全國臨床腫瘤學大會暨CSCO學術年會上,貝瑞和康進一步展示了該項目的重要成果應用。這其中包括與北京大學腫瘤醫院解云濤教授合作的“中國人遺傳性乳腺癌基因突變圖譜項目”,以及中國40萬人基因組大數據項目在臨床應用層面上所取得的階段性成果,結果顯示中國人乳腺癌基因突變和其他人種相比具有顯著性差異。
項目由解云濤教授和于福利教授共同展示,可以看到采用Enliven?變異位點注釋系統對美國國家衛生研究院的相關項目中的BRCA1、BRCA2基因的2152個位點進行注釋,將注釋結果與以往報告結果對比,PPV(陽性預測值)達到99.3%,充分驗證了Enliven?注釋和解讀能力的準確性。在此基礎上,貝瑞和康將自建的中國人基因組數據庫與萬例婦科腫瘤患者的基因數據進行整合,建設成為全球最大的婦科腫瘤基因組數據庫。
現在,神州基因組數據云項目仍在進行中,中國人群的基因組大數據正在成倍累積增長。受益于測序成本下降,降低獲得大量數據的難度,因此只要在數據解讀能力上快速突破,中國非常有可能在生物基因信息解讀這一領域實現彎道超車。
“神州基因組數據云”項目的另一層意義則與我國醫療政策中正在力推的分級診療政策息息相關。通過與專家合作,大數據體系為90%以上的醫院提供解讀能力,這將對基層臨床產生重要的指導意義??梢韵胂螅谌木€城市,醫生利用該數據云平臺分析基因測序數據,在當地可以獲得同樣質量的檢測分析,獲得和在大城市大醫院同等質量的報告,就能夠進一步促進實現分級診療。于福利教授展望道。