摘? 要: SDA80D51 UNISPEECH是Infineon公司新推出的具有DSP和單片機雙核的芯片。介紹了該芯片的組成框圖及各功能模塊,并且用該芯片完成一個硬件系統,實現了語音的G.723.1編碼存儲和解碼放音。?
關鍵詞: G.723.1? Sigma-Delta調制? 前后臺" title="前后臺">前后臺?
?
目前市面上有很多語音錄放系統,如錄放音玩具、錄音筆等,大多采用了單片機控制一個語音芯片,再接一個FLASH存儲器的結構。由于語音芯片都是固定的編碼算法,使得系統用途單一,不利于進一步改進,缺乏靈活性,如日本OKI公司的MSM6588只能完成ADPCM編碼。?
用SDA80D51芯片實現的語音錄放音系統,系統硬件簡單、工作可靠。所有的編解碼" title="編解碼">編解碼算法都由軟件來完成,設計者可以編制自己的軟件,完成不同的功能。它既可以作為簡單的數字錄放音系統,也可以通過改變程序做語音識別、語音合成等多種系統。用途靈活、功能強大。該系統選用G.723.1語音編解碼算法來完成語音的錄放。?
1 SDA80D51芯片介紹?
SDA80D51芯片是德國Infineon公司生產的適合語音處理的芯片,它采用0.18μm工藝,核的工作電壓為1.8V,I/O電壓為3.3V,模擬Codec部分電壓為2.5V,功耗是150mW。該芯片相當于一個片上系統(SOC),內部集成了許多功能模塊,如圖1所示。由于它集成了許多功能塊,幾乎只需要一片芯片就能完成語音處理和系統控制。?
?
?
該芯片含有兩個處理器,分別是16位DSP(OAK)和8位MCU(M8051 E-Warp)。M8051 E-Warp核由美國Mentor Graphics公司設計,它是與一般8051兼容的MCU,具有很多的增強功能,最高工作速度可達50MIPS(Million Instruction? per Second),是目前為止最快的增強8051。傳統8051的一個機器周期是12個時鐘周期,而這個核只需2個時鐘周期,速度是傳統8051的6倍。許多指令都能在一個機器周期內完成。由于指令與8051兼容,使得程序員不用花許多時間學習新指令,而直接采用傳統的8051編程方式就行。芯片集成有JTAG口,用Mentor Graphics公司的FS2(First Silicon Solutions)仿真器就可以實現在線仿真。?
OAK核是美國DSP Group公司設計的16位低功耗、低電壓和高速定點DSP。采用雙金屬CMOS,在0.6μm或0.5μm以下工藝生產。工作電壓范圍在2.7V~5.5V。在5V 80MHz工作條件下,消耗電流38mA;在3.3V 80MHz條件下,消耗電流25mA。該核采用Harvard總線結構,工作速度可達100MIPS。?
Codec部分由I2S、ADC和DAC組成。I2S口可用來外接一些通用的模/數芯片。兩路的12位8kHz采樣率的ADC,可接峰峰值為1.03V的差分電壓。片內有數字AGC,可放大0到42dB(8檔,6dB步長);模/數轉換采用Sigma-Delta調制技術并經過一定的換算,得到16bit的PCM碼流,送往處理器。兩路11位8kHz采樣率的DAC可軟件調節增益,可放大0到-18dB(-6dB步長)。所有Codec部分可通過ASI接口連到OAK或M8051上。?
SDA80D51芯片還有I2C、SPI和PWM接口模塊,可以通過M8051來控制。另外在不同版本的芯片上還有多達50到250之間的GPIO(通用的輸入輸出口),這可以保證系統控制的靈活性。?
該芯片最有特點的功能模塊是存儲器管理單元MMU(Memory Manage Unit),它可以管理兩個核的存儲區映射。物理存儲器(RAM或ROM)被看成由多個塊組成,每個塊的大小在不同版本的芯片上定義是不同的,本系統中,塊的大小是16K字節(或8K字)。MMU既可以把塊(8K字)映射給OAK的程序區或數據區,也可以把塊(16K字節)映射給M8051的程序區或數據區。這些完全由寫M8051的特殊功能寄存器來完成。存儲空間的自由掛接使得完成兩個核之間的數據轉換變得非常容易。此外,程序裝載和啟動也需要MMU的控制。?
整個芯片的工作方式" title="工作方式">工作方式是M8051作為主控制芯片,完成對各種接口的控制和系統的配置。OAK作為協處理器,完成語音編解碼算法等計算。兩個核之間還有兩個64字深的FIFO。它們用于雙核通信。?
2 G.723.1語音編解碼?
語音編解碼算法一般分為三類:波形編碼、參數編碼(聲碼器)和混合編碼。波形編碼技術是在不建立語音模型的情況下,直接對語音波形用編碼方式逼近,可有時域的脈沖編碼調制和變換域編碼;參數編碼是在一定的語音模型基礎上,在編碼端分析出該模型參數,并選擇適當的方式對其進行高效率的編碼,而在解碼端利用這些參數和語音模型,用合適的激勵源(excitation)重新合成語音;混合編碼則保留了參數編碼的語音模型的假定,又利用了波形編碼的準則優化激勵信號。?
G.723.1算法屬于混合編碼。語音模型是基于線性預測理論的全極點模型。輸入是16bit的PCM碼流,然后采用合成分析、矢量量化等方法,以感覺加權后的語音基音殘差信號能量最小為準則進行編碼。有兩種類型編碼方式,一種是6.3kb/s多脈沖最大似然量化方法(壓縮率" title="壓縮率">壓縮率20:1),另一種是5.3kb/s代數碼本激勵線性預測ACELP(壓縮率24:1)。后者的壓縮率高,編碼速率低,這可以降低系統存儲語音時所需存儲器的容量。而且解碼算法簡單,回放語音時不會有延遲感,語音清晰。?
3 語音錄放音系統硬件設計?
語音錄放音系統硬件電路的系統框圖如圖2所示。由于芯片內(虛線內)集成了許多功能模塊,使得電路的結構變得非常簡單。?
?
?
SDA80D51的RS232串行口通過MAX3222匹配電壓后,連接到計算機。?
芯片的啟動支持SPI、I2C和RS232串口三種方式。本系統采用I2C啟動方式,選用ATMEL公司的24C64。上電后,片內固化在ROM上的程序會從選定的I2C芯片拷貝256字節客戶啟動程序到片內程序區ff00h~ffffh處,最后把程序指針指向ff00h,開始執行。?
系統程序存在SST28LF040中,由啟動芯片中的用戶啟動程序把系統程序裝載到芯片內部的RAM里,然后處理器會執行RAM中的程序指令。?
語音經過編碼壓縮后存儲在三星公司的KM29U128T(16M×8bit)內。它的尋址采用串行方式,即8根數據線既作地址線也作數據線,先輸入地址,再傳送數據。這樣,用很少的SDA80D51地址線就可尋址很大的空間,記錄大量的語音數據很方便。?
用8根GPIO線實現一個4×4的小鍵盤,可用來作為控制接口。在錄放音時,可以通過對鍵盤的掃描來決定下一步驟。?
4 軟件設計?
由于要對芯片內的功能模塊、系統控制和編解碼算法進行編程,這使得軟件設計" title="軟件設計">軟件設計量比較大。考慮到本文的篇幅,這里只介紹總程序結構和錄放音的控制部分。?
總程序框架采用前后臺的工作方式。前臺輪尋各個任務引擎,判斷是否有任務需要處理。若有,切換狀態并執行該任務;若沒有,就繼續查詢。后臺主要完成對硬件的接口、中斷處理程序以及緩沖硬件數據。前臺和后臺的通訊是靠共享緩沖區來完成的。這種前后臺的工作方式可處理多任務,每個任務只占用一個時間片。?
數字錄放音程序在整個軟件設計中只是一個任務,它提供一個任務引擎程序,由前臺來調用。具體工作過程是OAK接CODEC模塊,負責采集數據、編碼和解碼算法以及語音的回放;M8051負責配置系統工作寄存器和對FLASH的讀寫。兩個核之間通過FIFO發消息,消息的定義格式(C語言)如下:?
??? typedef union tag_FIFO_MESSAGE?
??? {?
??? ? struct?
??? ? {?
??????? struct?
??????? {?
??????????? BYTE bIdSource; //發送方ID?
??????? ??? BYTE bIdDest;? //接收方ID?
??????????? WORD wMsgType; //發送消息類型?
??????????? WORD wDataLen; //數據長度?
??????????? WORD wSeq;? //消息序號?
??????? } uHead; //消息頭?
??????? WORD wData[27];? //消息數據內容?
??????? WORD wCRC;? //校驗?
??? ?} uForm;?
??? ?WORD wBuf[32];?
??? } FIFO_MESSAGE;?
兩個核的任務引擎程序分別用C語言編寫,程序結構基本相同,都采用狀態跳轉的方式,即每個子程序模塊都是一個狀態,滿足一定條件就跳到下一狀態;若都不滿足,就退回到前臺輪尋程序。由前臺程序在下一時間片繼續調用停留在當前狀態的程序。?
如圖3所示,每個圓圈都是一個狀態,兩個核之間的橫向的箭頭表示消息,向下的箭頭表示狀態的跳轉。?
?
?
在錄音時,M8051的“錄音初始化狀態”先做初始化并發送START消息,表明錄音開始,然后跳到“存語音數據狀態”,等待OAK的消息。OAK的“錄音初始化狀態”接收到START消息后,先做初始化,然后跳到“語音采集編碼狀態”,在這里會不停地采集語音并用G.723.1編碼,采滿8K字后,向M8051發送STORE消息。M8051收到消息后,用存儲器切換程序,拷貝數據到M8051的RAM區,并存到FLASH里,這由“存語音數據狀態”來完成。若FLASH存滿,M8051會發送STOP消息,然后OAK和M8051都進入“錄音結束狀態”。OAK結束后還會給M8051發送DONE消息,表明錄音結束。?
在放音時,M8051的“放音初始化狀態”打開FLASH的文件系統并發送START消息。OAK收到后,發送INIT消息,請求M8051傳送第一個數據包。M8051的“初始化確認狀態”收到INIT消息后,從FLASH讀取一個數據包,傳送給OAK,若正確就發送ACK消息并跳轉到“讀語音數據狀態”。要是失敗的話,就發送STOP消息,這樣OAK和M8051都會結束放音。當OAK收到ACK消息和一個語音數據包時,會跳到“解碼放音狀態”,在這里不停的把數據解碼并發送給DAC。若放完這個語音數據包,就發LOAD消息,申請下一個,不停循環。同時M8051會準備語音數據包,并傳送給OAK,若沒有數據或按停止鍵,M8051會發STOP消息,結束發音。然后OAK會發FINISH消息,表明所有錄放音結束。接著M8051的“放音結束狀態”會關閉文件系統,清空緩沖區。?
由上面的描述可看出,整個數字錄放音的工作流程是M8051作主控制器,OAK作從控制器。M8051發起開始信號,收尾數字錄放音,而OAK主要負責編解碼。這種工作方式靈活可靠,程序很容易擴展,例如狀態數的增加和消息類型的擴展都很容易。?
該系統的主要特點是充分利用SDA80D51的強大的功能集成,完成語音處理系統。完成一個大系統,幾乎只需要一個芯片。相信該芯片在語音及相關領域一定會有很好的應用前景。?
參考文獻?
1 易克初, 田 斌, 付強.語音信號處理.北京:國防工業出版社,2000?
2 楊行峻,遲惠生. 語音信號數字處理.北京:電子工業出版社,1995?
3 Unispeech SDA80D51芯片介紹文檔(U1_0011.pdf). Infineon公司 Speech Interface Group(語音接口小組), 2001?
4 Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3kbit/s. ITU-T Recommendation G.723.1, 1996