摘 要: 分析了Intel IXP2400網絡處理器" title="網絡處理器">網絡處理器硬件結構和軟件模型,提出了基于網絡處理器的高效、可擴展、分層核心路由器體系結構,重點闡述它的系統處理軟件模型。
關鍵詞: 網絡處理器 體系結構 微引擎" title="微引擎">微引擎 數據處理 路由器 軟件開發平臺
Internet骨干網絡流量的增長及新業務的出現,要求路由器具有線速和智能的處理能力。基于通用處理器GPP(General Purpose Processor)的解決方案雖然靈活,但在數據處理速度上難以滿足要求;基于專用集成電路ASIC(Application Specfic Integrated Circuit)的解決方案雖然有效地提高了網絡處理速度,卻降低了靈活性。它們都難以滿足下一代互聯網的要求。在這種情況下,一種可編程的網絡處理器NP(Network Processor)被應用到路由器設計中,成為一種新興、有效的統一解決方案?;诰W絡處理器的路由器具有ASIC高速處理性能和GPP的靈活性, 得到了快速的發展。
1 網絡處理器硬件架構
IXP2400網絡處理器是Intel公司在2002年推出的第二代互聯網交換架構IXA網絡處理器[1]。它面向中高端應用,可用于實現OC-48的網絡路由交換設備。IXP2400的結構充分體現了片上系統SoC(System on Chip)的思想。IXP2400結構框圖如圖1所示,它的內部主要包括8個完全可編程的8線程微引擎ME和1個XScale核。此外,還有用于連接外部設備MAC的媒質和交換結構接口MSF單元、連接各種存儲器和總線的接口單元等。這些單元通過內部的高速數據總線和控制總線彼此協作。
XScale核是32位的嵌入式精簡指令集處理器,時鐘頻率是600MHz,具有32KB的指令緩存和32KB的數據緩存,它在IXP2400中起控制和管理作用。具體包括:對系統初始化和配置;提供系統時鐘;建立并管理路由表;提供一個對應于IXP2400各寄存器、存儲器和外部存儲器的地址映射表等。它在應用中主要完成加載微碼、啟動微引擎、完成必要的數據分析、高復雜度的算法、統計、管理等應用任務。
IXP2400中的每個微引擎就是一個32位精簡指令集RISC處理器,時鐘頻率是600MHz,可以由8個并行硬件線程共享。數據包的接收、處理和發送等任務均由微引擎指令存儲區中微代碼程序的各線程并行執行。網絡處理器數據的高速轉發正是因為充分利用了硬件的并行性。
IXP2400通過數據線連接著各種存儲設備,如SRAM和DRAM等。DRMA主要用于存放需要處理和轉發的數據包、路由表等大型數據結構;SRAM主要存放對數據包包頭進行處理所需的重要信息和數據包的隊列描述等內容,如表、緩沖區描述符。
IXP2400具有豐富的標準高速I/O接口,包括物理鏈路接口、交換接口、存儲器接口、PCI總線接口,能夠方便地與其他廠家的設備進行接口、互連;擁有專用硬件加速處理單元;采用專用硬件對特定協議操作進行協處理:如CRC、哈希查找、樹查找、字符匹配;針對安全產品,提供加/解密、大數運算等硬件單元。
綜上所述,IXP2400擁有網絡處理的一般特點,從系統角度看,IXP2400屬于一個并行式的多處理器共享總線的計算機系統。
2 網絡處理器軟件開發平臺
Intel提供了網絡處理器開發平臺,稱為Intel IXA可移植" title="可移植">可移植框架(Intel IXA portability framework)[2]。IXP2400軟件開發可移植框架層次圖如圖2所示。
Intel IXA可移植框架中,將數據的處理分為兩個層次:數據面(Data Plane,也稱為Fast Path)處理和控制面(Control Plane,也稱為Slow Path)處理。
數據平面主要運行在微引擎處理之上,充分利用數據包的無關性,采取并行處理方式,用于實現高速轉發數據包的處理功能,具有線速執行特點。數據面的數據包處理可分為若干微模塊Microblock。各個微模塊之間相互獨立,可實現數據面層次上的可移植性。
控制平面一般運行在網絡處理器核上,處理各種通信協議、更新路由表、管理數據平面任務與狀態、完成高層的QoS控制等。這些操作的性能要求低于數據層面,因此通常采用高性能" title="高性能">高性能通用處理器硬件平臺。為了有效支持網絡處理功能,控制平面與數據平面之間存在復雜的信息交互與依賴關系。
IXP2400的軟件開發分為內核程序和微代碼兩部分。XScale內核的開發通常使用基于嵌入式操作系統集成開發工具" title="開發工具">開發工具,如WindRiver公司提供的基于嵌入式操作系統VxWorks的集成開發工具Tornado或BMR TEC CO提供的基于嵌入式操作系統Montavista Linux 的集成開發工具Teja。Teja開發工具給基于網絡處理器的嵌入式開發帶來極大的方便,它能縮短開發周期,優化生成代碼,提高代碼性能,而且生成的代碼很容易移植到不同的目標系統。使用Teja集成開發工具,能獨立于復雜的硬件而將網絡應用表達為狀態機。狀態機邏輯可以被映射到選定的目標網絡處理器的分布資源,基于這種邏輯設計和到硬件的邏輯映射,生成優化的目標代碼(C、C++和MicroC)并且編譯生成最終的映像文件。此外,Teja對于此邏輯和系統設計還能提供模擬測試和調試功能;IXP2400中對微引擎的編程使用Intel公司提供的Developer Workbench開發環境,主要使用微代碼來進行編程。Developer Workbench提供了完善的編譯、鏈接、仿真和調試功能。
Intel IXA可移植框架中最重要的組成部分就是在微引擎上和XScale核上開發的代碼模塊?;诓煌布_發的代碼模塊分別為微模塊和核心組件(Core component)。每個模塊都代表了一個進行包處理的代碼單元。這里實際上引入了構件的思想,各種模塊以一定的順序組織在一起,形成一個特定的應用。
3 基于網絡處理器IXP2400的核心路由器體系結構
路由器體系結構[3]的發展經歷了四次大的發展,由單機集中式到單機分布式共享總線,再到分布式Crossbar結構,最后到多機互聯的集群式結構,目前正朝著系統化、高性能、可擴展方向發展。由于基于網絡處理器的路由器體系能夠滿足這些要求,被公認為推動下一代網絡向靈活性和高性能發展的核心技術。Princeton大學的可擴充路由器VERA[4]和Columbia大學的Genesis系統[5]在這方面做了一些推進。前者主要是基于區分服務Diffserv體系結構,注重服務的靈活性和可擴充性;后者基于“Spawn”思想和Netbind機制,注重虛擬網絡系統的動態創建,但是兩者都沒有提出一個通用的體系模型。
從本質上說,路由器是一種進行網絡數據包轉發的網絡設備,其體系結構可分為三大部分:(1)輸入/輸出端口;(2)路由計算及處理;(3)交換結構。其中路由計算和處理是路由器的關鍵,對路由器高性能和靈活性起決定作用。由于網絡處理器IXP2400具有高速和靈活性,本文采用IXP2400作為路由計算和處理部分,提出了一種全雙工、可擴展的高性能路由器系統體系結構,如圖3所示。
在圖3中,IXP2400是系統核心部分,負責對數據包進行轉發,實現路由功能。SRAM是IXP2400的外接存儲設備,通過SRAM Controller與IXP2400連接,主要實現存儲數據包處理過程中用到的發送列隊、查找表等數據結構。DRAM也是IXP2400外接的存儲設備,通過DRAM Controller與IXP2400連接,主要存儲數據包和路由表。控制處理器是IXP2400的外接處理器,通過PCI Controller與IXP2400連接,主要為系統提供高層的控制和管理功能。物理層設備收發數據包,通過介質和交換接口MSF與IXP2400連接。交換結構作為處理器與外部接口的傳輸樞紐,對整個系統的性能起著至關重要的作用。它主要分為總線、Cross-bar(縱橫制矩陣)和共享內存三種方式。Cross-bar同其他技術相比,具有成本低,可擴展性良好和非阻塞特性,并且可以根據實際需要擴充寬帶。
4 基于網絡處理器IXP2400的核心路由器系統處理軟件模型
基于IXP2400的核心路由器軟件模塊框圖如圖4所示。入口(Ingress)IXP2400首先通過IXF1104或IXF6048從外部網絡接收數據包,然后對數據進行處理,并將處理后的數據通過交換接口芯片發送到交換結構(SF);出口(Egress) IXP2400首先通過交換接口芯片從交換結構接收數據,然后對數據包進行處理,最后通過IXF1104或IXF6048將數據包發送出去。微引擎的編程模式有流水線模式(HTC)和線程池(POTS)模式,二者各有優缺點。本文采用了HTC和POTS相結合的編程模式,揚長避短,以取得最佳的處理效率。所有的Context Pipe Stage模塊(如包接收、包發送、列隊管理等)各自占據一個單獨的微引擎,采用HTC方式,每個Context Pipe Stage模塊都映射到單獨的一個微引擎上。而Funcational Pipeline映射到4個微引擎上,采用POTS方式,執行PPP Decap(數據包解封裝)、Classfication(數據包分類)和IP Forwarding(IP數據包轉發)等操作。
如圖4所示,系統的數據處理由以下模塊組成:
(1)包接收模塊。包接收(Packet Rx)模塊是一個與低層硬件密切相關的驅動模塊,負責接收來自外部網絡的數據包分片mpacke,并將mpacket重組得到一個完整的數據包。將重組后的數據包寫入DRAM,建立包頭信息,Packet Rx模塊使用一個微引擎上的8個Thread來進行mpacket包的接收和重組,每個Thread負責處理一個mpacket。
(2)解封裝/分類/過濾模塊。數據包處理模塊包括PPP解封裝、分類、轉發、過濾子模塊。這些子模塊組成Funcational Pipeline,運行在4個微引擎、32個線程上。PPP解封裝子模塊通過修改Metadata中的offset和size,將MAC幀頭去掉,提取IP數據幀,實現數據包的解封裝功能。分類子模塊執行分類操作,將數據包分為IPv4、IPv6和ARP等類型。如果是ARP數據包,將其標記為異常數據包送到Xscale Core作進一步處理;否則,將數據包傳送到下一個處理模塊處理。
(3)包轉發模塊。首先檢查包頭是否符合RFC2460規范。如果不符合,則將該包丟棄;否則,根據IP頭進行最長前綴匹配LPM查找,得到Next Hop ID(下一跳ID)、Fabric Blade ID和Output Port三個參數。如果LPM沒有找到匹配表項,則將包標記為異常提交給Xscale Core作進一步的處理;否則,根據Next Hop ID進行表查詢,獲得PPP頭信息。將數據包封裝為PPP格式之后, Forwarder將包交給DL-QM-Sink模塊,該模塊判斷數據包是否合法,若合法,則向列隊管理發送加入隊列請求,將數據包加入到相應的發送隊列。此外, Forwarder還將修改后的IP頭和包描述符Metadata寫回SRAM。
(4)隊列管理模塊。管理模塊是一個運行在單個微引擎的驅動模塊,負責利用SRAM Controller中的Q-Array硬件結構對發送隊列執行解封裝Decap和封裝Encap操作。
(5)發送調度模塊。模塊將處理來自Fabric的流量控制信息、來自QM的隊列轉換信息和來自MSF的發送狀態機。
(6)CSIX發送模塊。該模塊是位于單個微引擎的驅動模塊,接收來自QM發送的消息,對于每次發送請求,微模塊將每個Cframer寫入發送緩沖TBUF,通過MSF發送狀態機發送到Fabric。
(7)CSIX接收模塊。接收來自CSIX Fabric的Cframer,并將其重組為IP數據包。
(8)包封裝模塊。為接收到的信息添加包頭,將IP Packet封裝為PPP格式,并向隊列管理發送加入隊列請求,請求將封裝后的包加入到相應的發送隊列。
(9)出口的隊列模塊。該模塊與信元隊列模塊的區別在于列隊中傳遞的是分組而不是信元。對于每個出隊請求,分組隊列模塊向調度模塊返回一個出隊響應消息。
(10)出口包調度模塊。出口包調度模塊是基于分組的調度,不需要處理來自Fabric的流控信息,出口調度模塊對端口進行WRR調度,對每個端口的隊列可進行DRR(Deficit Round Robin)調度。
(11)包發送模塊。通過媒體介質接口發送分組,將分組分段成mpacket,并寫入TBUF,通過MSF狀態機進行發送。
本文以Intel IXP2400網絡處理器為例,討論了網絡處理器硬件結構和軟件開發技術,并在此基礎上提出了一種基于網絡處理器的路由器體系結構和軟件開發流程。在今后幾年里,基于網絡處理器的路由器將有著非常巨大的發展空間,但其發展也是一個復雜的、長期的過程,將面臨嚴峻的挑戰。
參考文獻
1 Intel Corp.Intel IXP2400 Network Processor Hardware Refer-ence Manual.Intel Press,2003:27~29
2 Intel Corp.Intel Internet Exchange Architecture Portability Framework.Intel Press,2003:16~22
3 徐 恪,吳建平,徐明偉.高等計算機網絡——體系結構、協議機制、算法設計與路由技術.北京:機械工業出版社,2003:495~505
4 Karlin S,Peterson L.VERA:An extensible router architecture.Computer Networks,2002;38(3):277~293
5 Kounavis M E,Campbell A T,Chou S T et al.The gnesis kernel:A programing systerm for spawing network architec-tures.IEEE Journal on Selected Areas in Communications,2001;19(3):511~526