《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > AMS-02遠程中心自動化生產系統的設計與實現
AMS-02遠程中心自動化生產系統的設計與實現
2014年微型機與應用第21期
單雅輝
北京航空航天大學 數學與系統科學學院, 北京100191
摘要: AMS-02實驗的目的是利用獨特的太空環境來研究宇宙中的暗物質、反物質以及測量宇宙射線的來源和組成。由于該實驗具有數據量大、生產過程復雜、計算中心分布廣泛的特點,本文首先介紹了AMS-02實驗的背景和數據需求,然后詳細地分析了其數據類型以及處理流程,最后通過整合關鍵技術,為AMS-02實驗遠程計算中心設計并實現了一套基于腳本語言、輕量級、易移植的自動化生產管理系統,大幅度地提高了該實驗中數據生產的效率。
Abstract:
Key words :

  摘 要AMS-02實驗的目的是利用獨特的太空環境來研究宇宙中的暗物質、反物質以及測量宇宙射線的來源和組成。由于該實驗具有數據量大、生產過程復雜、計算中心分布廣泛的特點,本文首先介紹了AMS-02實驗的背景和數據需求,然后詳細地分析了其數據類型以及處理流程,最后通過整合關鍵技術,為AMS-02實驗遠程計算中心設計并實現了一套基于腳本語言、輕量級、易移植的自動化生產管理系統,大幅度地提高了該實驗中數據生產的效率。

  關鍵詞: AMS-02實驗;數據生產;自動化;輕量級

0 引言

  阿爾法磁譜儀實驗(Alpha Magnetic Spectrometer)是由物理學家、諾貝爾獎獲得者丁肇中教授領導的一個大規模國際物理實驗。阿爾法磁譜儀是安裝在國際空間站上的唯一大型高能粒子探測器,它于2011年5月搭載NASA奮進號航天飛機送至國際空間站并成功安裝運行[1]。利用磁譜儀強大而特殊的磁場,探測器可以利用獨特的太空環境進行基礎物理研究,例如從宇宙中捕捉粒子并將這些信息以數據形式記錄下來,然后從國際空間站上源源不斷地將獲得的數據傳回歐洲核子中心(CERN)進行分析,進一步探索宇宙組成以及反物質、暗物質的存在。

  截止到2014年6月,探測器已經采集到約 500億個太空粒子事件,從探測器傳到地面的數據記錄了探測采集的原始電信號,這些信號需要經過分類、重建與存檔等過程才能將其轉化為可供物理學家進行分析的物理數據;另一方面,為了檢查探測器的性能以及為更深度的物理分析提供支持,實驗中也使用蒙特卡羅方法模擬探測器產生仿真數據。物理學家在數據分析中同時參考這兩種數據,可以將誤差減小到最低以提高分析結果的精度。由此可見,AMS-02實驗具有數據量大、類型多樣并且數據處理過程復雜等特點。

  此外,AMS-02實驗是跨地區合作的國際性科研項目,美、中、俄、意、德等16個國家的56所研究機構均參與其中。為了實現對現有資源的合理利用,其大部分數據生產任務由這些合作單位來承擔并隨之建立了遠程計算中心。這種分布性也帶來了一系列的問題,例如各個遠程計算中心地域上的分散性、軟硬件配置的差異性等,另外,部分中心不僅要對探測器采集到的原始數據進行數據重建,還要進行蒙特卡羅仿真并對仿真數據進行分析和存儲。

  雖然另一大型物理實驗ATLAS已經有一套完善的基于數據驅動的工作負載管理系統——PanDA,該系統不僅可以很好地實現ATLAS實驗中的數據處理、仿真和分析等功能,而且能夠滿足迅速變化的物理需求[2]。但是,它是一個龐大的數據生產系統,需要大型開發團隊的支持,同時ATLAS實驗的計算中心較為集中、系統資源統一,便于集中管理[3],顯然PanDA 的管理模式對于AMS-02實驗并不適用。因此,為AMS-02實驗設計和實現一套自動化生產管理系統是十分必要的。

1 AMS-02數據的文件類型及處理流程

  1.1 AMS-02數據的文件類型

  AMS-02實驗數據生產中主要包括Raw文件和Root文件兩種文件類型。Raw文件是指探測器在太空中收集到的電信號,這些參數需要經過仔細的重建、分類與存檔才能夠被物理學家用來分析;Root文件則是Raw文件經過數據重建過程所產生的,包括粒子的入射方向、軌跡、動量、質量、電荷、能譜等具體的物理量信息,可以直接用來做物理分析[4]。

  1.2 AMS-02實驗數據處理流程

  AMS-02實驗的數據處理與分析涉及到三方面的內容:蒙特卡羅仿真、數據重建和物理分析。AMS-02的數據生產與分析流程圖如圖1所示。

001.jpg

  (1) 蒙特卡羅仿真: Geant4軟件使用蒙特卡羅方法模擬射入探測器的粒子以及其相互作用的過程,整個過程以AMS-02探測器模型作為基礎,將Raw文件作為輸出。

  (2) 數據重建: 將AMS-02探測器采集到的原始數據或者是蒙特卡羅模擬數據進行解壓縮、校正、數字化等一系列處理,將電信號轉化為物理學家可直接用于分析的數據(電荷、速度、能量等),整個過程以Raw文件的形式作為輸入,以Root文件作為輸出。

  (3) 物理分析: 根據物理學家提供的不同物理分析參數,實現與已存儲的AMS仿真數據以及重建數據的動態綁定,進行相應的觀察、分析,并給出相關結論和可視化圖表 [5] 。

2 AMS-02自動化系統設計分析

  2.1 數據生產類型的差異性

  對于AMS-02實驗自動化生產系統來說,其數據生產既包括數據重建的過程,也包括蒙特卡羅仿真的過程,但這兩個過程并不相同,其差異主要包括以下兩點:

  (1) 并行程度的差異:數據重建一般需要16~24個線程處理,蒙特卡羅仿真過程則為單線程;

  (2) 運行時間差異:光子子數據流重建每個作業僅需要幾十秒,標準數據重建需要幾個小時,而蒙特卡羅模擬則需要幾天。

  以上差異要求生產平臺能夠進行動態自適應,這樣既可以保證作業提交效率,又能充分利用提交間隙進行其他作業管理操作。

  2.2 數據傳輸的設計分析

  基于AMS-02的實驗需求, 其大部分數據重建和蒙特卡羅仿真過程需要在遠程計算中心進行,當生產完成后,再將產生的文件傳回歐洲核子中心進行統一的管理和存儲。

  考慮到遠程計算中心地域分布的廣泛性,在進行系統設計時要求考慮到頻繁的數據傳輸,同時要保證實驗數據的可用性、傳輸速率以及網絡的穩定性。

3 AMS-02自動化生產系統概述

  3.1 系統流程簡介

  AMS-02自動化生產系統是基于該實驗的數據需求而開發的一套完整的數據生產管理系統,整個處理過程包括作業申請、提取、提交、更新、驗證、傳輸等。該系統具體的生產流程圖如圖2所示。

002.jpg

  (1) 作業請求:用戶在Web端提交申請,完成后將作業模板壓縮包自動發送到指定郵箱中;

  (2) 作業提?。篏etmail自動讀取郵件并使用Munpack工具提取附件,根據不同的作業類型配置適合的環境變量,并保存到特定路徑;

  (3) 作業注冊:讀取壓縮包中每個作業的詳細信息并寫入Sqlite數據庫中;

  (4) 作業提交:將作業提交到作業調度系統 (例如LSF、PBS等) ,不同系統根據各自的調度策略執行作業,確保發揮最優的系統性能;

  (5) 狀態更新:實時查詢隊列中作業狀態并更新數據庫信息;

  (6) 作業驗證:對已完成的作業進行CRC驗證,確定數據結果的有效性和可用性;

  (7) 作業傳輸:將作業的摘要文件和數據文件 (Raw、Root文件) 傳回歐洲核子中心。

3.2 系統特性分析

  3.2.1 輕量級、可移植性

  該系統不依賴于任何第三方商業軟件,也不需要管理權限和安裝軟件,且易于部署,例如采用輕型的SQLite數據庫,它內置于大多數Linux發行版本中,使用方便,資源占用率低,處理速度快。因此,在系統部署時將所需的軟件包轉移到相應服務器上并進行參數化配置安裝即可,同時在源代碼進行移植時,根據不同計算中心的軟硬件配置情況(例如作業調度系統、數據傳輸軟件的差異),只需要對相關代碼進行簡單的修改就可以快速應用。

  3.2.2 自動化

  一方面,該系統設計了作業緩沖池機制,可以智能地控制向作業調度系統中提交的作業數量。通過實時更新狀態來判斷隊列中是否有空閑空間,若有則從緩沖池中讀取作業信息并提交,否則繼續等待,這樣既可以保證計算節點時刻滿負荷運轉,又可以高效合理地利用CPU資源。

  另一方面,為了提高該系統的生產效率,系統采用流水線的方式實現了整個生產過程的自動化管理:在系統設計時將各個子過程按照運行時間、資源占用率的不同,采用同步或者異步的策略進行作業提交。同時,為了避免相同程序同時運行所帶來的問題,在系統執行前會檢測是否存在相同的進程,若發現則自動退出。

  3.2.3 并行化

  根據不同批量作業系統的特點(如作業提交的反饋時間)以及作業運行時間采用同步或者異步的方式進行作業提交:以同步方式處理耗時短、輕量級的生產流程(例如作業提取、提交以及狀態更新等),以批量作業的方式進行異步處理耗時長、CPU占用率高的生產步驟(例如作業驗證),而對于運行時間長、CPU占用率低的作業傳輸過程來說,則采用獨立多線程的運行方式。

  AMS-02實驗的遠程計算中心地域跨度大的特點對數據傳輸過程帶來了一定的挑戰。這里使用了IPv6和Bbftp/Lftp相結合的傳輸方式,其中Bbftp/Lftp是數據傳輸軟件,支持多線程并發傳輸,特別對大文件傳輸比傳統Ftp具有更高效率[6]。

  此外,對于數據庫訪問來說,采用了數據庫操作類來封裝數據庫查詢、增加、更改、刪除等操作,這樣只要調用接口就可以實現數據庫操作,方便快捷,結構清晰,實現了Sqlite3數據庫的多進程/線程的并發訪問。

4 結論

  AMS-02自動化生產管理系統能夠適應不同的批量作業處理平臺、不同的生產類型,滿足了實驗的數據生產需求。該系統已經在德國Juropa、意大利Cnaf計算中心使用并且運行穩定。這不僅大幅度地提高了生產效率和資源使用率,而且保證了數據有效性。

  目前,該系統正在法國Lyon計算中心試運行,今后將進一步觀察和調試,并根據其實際情況逐步完善系統性能。

參考文獻

  [1] 楊民,陳國明. 國際空間站上的AMS實驗[J]. 現代物理知識,2011,23(5):10-15.

  [2] Maeno T. PanDA: distributed production and distributed analysis system for ATLAS[J]. Journal of Physics: Conference Series 119,2008: 062036.

  [3] Nilsson P. Experience from a pilot based system for ATLAS[J]. Journal of Physics: Conference Series119,2008:062038.

  [4] 楊鵬. 阿爾法磁譜儀實驗海量數據處理環境的研究[J]. 計算機科學, 2011,38(6):41-44.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: yjizz视频国产网站在线播放 | 欧美激情a∨在线视频播放 欧美激情二区 | 国产一区二区在线观看麻豆 | 好男人www社区视频在线 | 成人免费男女视频网站慢动作 | 成人亚洲精品 | 天天操天天添 | 黄色一级免费大片 | 综合亚洲欧美日韩一区二区 | 精品不卡 | 日本免费黄色网址 | 亚洲成人av | 亚洲日本中文字幕一本 | 久久综合网址 | a级大片免费观看 | 在线亚洲国产精品区 | 国产高清在线精品一区二区三区 | 午夜黄色毛片 | 波多野结衣资源在线观看 | 老司机精品免费视频 | 久久国产欧美日韩精品免费 | 欧美一区二区不卡视频 | 91视频最新地址 | 最近的最新的中文字幕视频 | 久久精品a一国产成人免费网站 | 一级黄色片在线观看 | 黄网在线看 | 欧美视频在线第一页 | 久久亚洲精品中文字幕三区 | 天天躁日日躁aaaaxxxx | 禁视频网站在线观看漫画 | 4四虎44虎www在线影院麻豆 | 免费看黄色网址 | 国产女女互摸互慰在线观看 | 久久国产偷 | a在线视频 | 中国高清videossex免费 | 天天艹天天 | 精品午夜国产在线观看不卡 | 成人国产三级在线播放 | 手机在线国产精品 |