摘 要: Linux SCSI體系結構及API數據結構的操作原理和相關的系統調用,運用SCSI API實現了有關的數據存儲。
關鍵詞: SCSI通用驅動器 SCSI接口 數據存儲
隨著計算機網絡技術和計算機圖形圖像處理技術的飛速發展,影視行業對計算機技術的依賴程度越來越大。影視數字化編輯播出系統是一個信息量巨大、精度高、實時性強的高速復雜的分布式多媒體網絡信息系統。它所需要的網絡服務器的規模很大,因此對服務器存儲技術要求非常高。目前服務器的存儲技術主要分為二大類:直接連接存儲技術DAS(Direct-Attached Storage)和附網存儲技術NAS(Network-Attached Storage)。當前DAS的主流技術是Ultra 3 SCSI和RAID。由于受IDE設備擴展性的限制及IDE設備缺乏可替換技術的支持,目前IDE RAID的應用還不多。因此服務器的DAS技術一直和SCSI技術的發展緊密關聯,而且在市場上SCSI技術的影響也很廣泛。
為了建立影視數字化與空間數據組織及管理的原型實驗室,作為其先期的工作,需要對SCSI技術有深入的研究與分析,以期實現大容量數據的高效分布式存儲及調度。本文對SCSI接口和Linux下的SCSI API進行了詳細的分析,并運用此API作了與數據存儲相關的實現。
1 SCSI接口
SCSI指小型計算機系統接口(Small Computer System Interface),最早研制于1979年,原是為小型機研制出的一種接口技術。但隨著電腦技術的發展,現在它已被完全移植到了普通微機上,如硬盤、光驅、打印機、光盤刻錄機等設備。
SCSI接口從技術和性能上始終擁有頂級設備的特征。SCSI接口與IDE接口相比具有以下特點:(1)適應面廣。使用IDE接口時,會受到系統IRQ(中斷號)及IDE通道的限制,一般情況下每個IDE通道使用一個IRQ,所接的IDE設備最多不能超過15個。而使用SCSI時,所接的設備可以超過15個,且所有這些設備只占用一個IRQ。(2)多任務。SCSI允許在對一個設備傳輸數據的同時對另一個設備進行數據查找,這對于服務器來說是非常重要的。因為服務器常常需要同時處理幾個進程,并且對服務器硬盤的操作也經常是既有讀數據,又有寫數據。(3)寬帶寬。理論上,目前最快的SCSI總線帶寬為160Mbps,這意味著硬盤的傳輸速率最高可達160Mbps(這是理論值,實際應用中會降低)。而目前最快的IDE接口硬盤的外部速度為100Mbps(即ATA-100,這也是理論值),而且由于各方面的限制,現在所能用的最高速度只有33Mbps。(4)較少的CPU占用率。使用傳統IDE接口時,CPU需要全程控制數據的傳輸操作,所以在IDE傳輸數據的過程中,CPU不能執行任何操作,直到傳輸結束才可執行后續的指令。而SCSI在進行數據傳輸時,CPU在將傳輸指令傳給SCSI后就可立即處理后續的指令,傳輸的工作則交給SCSI卡上的處理芯片自行負責,直到SCSI處理完畢、發出信號通知CPU后,CPU再進行后續處理,因此占用CPU資源較少。
2 Linux下的SCSI API
由于SCSI具有多任務的特點,因此它在多任務操作系統(如Linux、Windows NT)中可以獲得更高的性能。為了能夠更好地對Linux的SCSI子系統進行管理,本文先對SCSI體系結構和與系統相關的應用接口進行分析,然后再運用API對數據存儲相關方面進行實現。
2.1 SCSI體系結構
從圖1中可以看出,上層支持用戶-內核接口,SD屬于磁盤類,SR屬于CD-ROM子系統,它們都有一個中斷設備接口。ST是用來讀寫磁帶的字符驅動器,SG是用一個字符設備接口連接設備的命令,它們都有一個字符設備接口。SCSI中間層定義了內部接口,為上層和下層驅動器提供服務。
通過SG驅動器的請求可以分為三個階段:(1)從用戶接受請求,預留所需要的資源。如果需要,在用戶區的數據先被傳送到內核緩沖區,然后將請求提交給SCSI中間層(然后給適配器)去執行。(2)假設SCSI適配器支持中斷,當請求完成時中斷就被接收。當中斷到達時,數據傳輸即完成。也就是說,如果SCSI命令是READ發的,則數據就在內核緩沖區或者在用戶緩沖區。(3)用戶通過一個調用取出請求的結果。如果需要,內核緩沖區中的數據會被傳送到用戶層,此時與這個請求相關的內核資源被釋放。通常write()調用就是第一階段的發送請求,之后read()調用取得數據或者出錯信息。另外SCSI中間層自動維護一個隊列以支持多個用戶請求。
2.2 主要數據結構
當前通用SCSI-3驅動器的最主要數據結構是struct sg_io_hdr。其余的一些數據結構是關于特定驅動器信息(如struct sg_scsi_id,struct sg_req_info等)的。另外,老版本的SCSI接口struct sg_header是SCSI-2的主要控制結構。
sg_io_hdr中的主要成員有:interface_id,一般情況下它被置為‘S’,標志接口的版本;dxfer_direction標志數據的傳輸模式;SG_SXFER_NONE標記測試設備是否就緒;SG_SXFER_TO_DEV標記一個寫命令;SG_SXFER_FROM_DEV標記一個讀命令;SG_SXFER_UNKNOWN用在當前應用程序不清楚具體傳輸模式的情況下;cmdp指向一個SCSI命令的指針;cmd_len代表了命令的長度;dxferp表示用戶內存緩沖空間,存放被傳輸數據;dxfer_len表示緩沖空間的大小;sbp表示錯誤信息的存放地點。其余一些數據成員是輔助性的成員,本文不再介紹。此外,有關命令操作碼可以參看scsi.h文件。
2.3 系統調用
成功地打開一個sg設備文件名,就在文件描述符和連接的SCSI設備間建立了一個連接。sg設備保存著在SCSI設備和文件描述符層(如保留緩沖區)中的狀態信息和資源。即使SCSI設備被拔掉,一個應用仍然可以擁有該設備的文件描述符。如USB這樣的熱拔插設備就可以被拔掉,但它的文件描述符仍然存在。此時大多數試圖訪問該設備的系統調用會生成ENODEV錯誤,poll()調用會產生一個POLLHUP錯誤,但close()調用會正常完成。如對這個文件進行open()操作,則也會產生一個ENODEV錯誤。
(1)open()調用
調用的形式為open(const char*filename,int flags)。
filename為sg設備文件名。flags為以下標記或者為以下標記的組合:
O_RDONLY:只能用于read()和ioclt()操作中。
O_RDWR:允許所有的系統調用執行。
O_EXCL:在處理之前等待與SCSI設備相關的其他打開關閉。當其他人打開了一個SCSI設備,如果設置了O_NONBLOCK就會產生EBUSY。該標記不允許和O_RDONLY、O_EXCL一起用。
O_NONBLOCK:設置non_blocking模式。這個標記被ioclt(SG_IO)忽略。
在以上的標記中,O_RDONLY和O_RDWR必需設置,其他標記可以任選。
(2)write()調用
調用形式為write(int sg_fd,const void*buffer,size_t count)。
buffer應該指向數據類型為sg_io_hdr_t的對象,count為(sg_io_hdr_t)的大小。如果write()調用成功,count就作為結果返回,命令請求就被發送給SCSI設備。
(3)read()調用
調用形式為read(int sg_d,void*buffer,size_t count)。
buffer應該指向數據類型為sg_io_hdr_t的對象,count為(sg_io_hdr_t)的大小。如果read()調用成功,則count作為結果返回。通常read()返回的是最早被完成的命令請求。
(4)poll()調用
調用的形式為poll(struct pollfd*ufds,unsigned int nfds,int timeout)。這個調用用于測試sg文件的當前狀態。POLLIN說明可以進行read()調用,POLLOUT則代表可以發送write()命令,POLLHUP意味一個設備被分離需要進行清理工作,POLLERR則表示出錯。
(5)close()調用
調用的形式為close(int sg_fd)。close()調用應該在所有write()及read()調用完成之后進行。返回0代表成功,-1表示錯誤。
3 SCSI API在數據存儲中的應用
在一臺雙CPU HP服務器(512MB)上掛載了二個Ultra3 Lvd SCSI硬盤,系統平臺為RedHat Linux 7.3,其內核為Linux2.4.18。往內存中隨機寫入200MB數據,然后按一定的策略將其分布儲存到二個SCSI硬盤,其算法流程見圖2。
讀操作所涉及到函數是int sg_read(int sg_fd,unsigned char*buff,int blocks,int from_block,int bs,int*diop)。其中sg_fd代表數據源所在設備的句柄,buff是獲得數據的存儲區,這個函數從sg_fd的from_block處開始讀取blocks*bs大小的數據到buff中去。diop標志是否使用DMA方式。下面是用C語言編寫的讀操源程序的主要部分,略去了一些完整性控制。
按照上述的算法,將200MB的數據分布地寫到二個SCSI硬盤上,同時也將200MB的數據寫到一個SCSI硬盤上進行對比測試。測試時使用Linux系統下的time函數獲得運行時間,圖3的縱坐標表示傳輸200MB數據所需要的總時間。從圖3中可以得到單硬盤傳輸200MB數據所需要的平均時間為12.4112s,平均的傳輸速率為16.115Mbps,這和系統提供的拷貝命令的傳輸速率差不多。按上述算法存儲200MB數據所花的平均時間為8.8314s,平均的傳輸速率是22.647Mbps。不難發現分布儲存的效率比一個硬盤儲存要高40.5%,具體數據參見圖3。