已完本玄幻小说排行榜,好看的电视剧,我欲封天耳根小说

采用DSP內(nèi)核技術(shù)進行語音壓縮開發(fā)

日期： 2009-06-30

作者：翟東力王曉蕾

關(guān)鍵詞： 語音壓縮上位機壓縮比串口音頻編解碼芯片

　　摘　要： 介紹了一種采用DSP內(nèi)核芯片設(shè)計開發(fā)的手持式語音設(shè)備。該語音設(shè)備無需開發(fā)系統(tǒng)支持，語音播放時間長達200分鐘，而壓縮比達到46:1，僅使用一片32兆位的閃速存儲器就可保存全部數(shù)據(jù)。
　　關(guān)鍵詞： DSP內(nèi)核語音壓縮

　　隨著儀器儀表人機界面越來越趨于人性化，語音識別的需求不斷增長，語音處理技術(shù)發(fā)展迅速，各種處理算法層出不窮，為大容量的語音應(yīng)用提供了愈加靈活的技術(shù)手段。然而，語音數(shù)據(jù)的壓縮比越高，數(shù)據(jù)回放算法所要求的計算能力也越強。目前，大多數(shù)高壓縮比的語音壓縮數(shù)據(jù)生成必須采用專用的語音開發(fā)工具和開發(fā)版權(quán)，這給國內(nèi)的小規(guī)模用戶造成了一定的困難。在8K的采樣速率下，同樣是使用4兆位的flash芯片來存儲數(shù)據(jù)，不同的語音算法所能提供的回放時間有很大差異。例如，采用ADPCM(自適應(yīng)增量脈沖編碼)算法只可提供128秒的回放時間，而采用TI的LPC(線性預(yù)測編碼)算法卻可得到50分鐘的回放時間。在某一工程項目中，我們需要開發(fā)一種回放時間長達200分鐘的低成本手持語音設(shè)備，由于使用了DSP內(nèi)核芯片，在較短的時間內(nèi)完成了開發(fā)工作，達到了預(yù)先提出的性能指標。
1 語音算法與芯片特點
　　在本項目中，我們選擇了DSP集團的語音壓縮最新算法Triple Rate Coder，其壓縮比達到了46:1，且音質(zhì)良好，MOS指標達到了3.98。
　　該算法的基本思想是：首先將語音分為若干小段，由于語音信號的譜變化是一個緩變量，因此在每一小段內(nèi)信號是平穩(wěn)變化的。然后用一個數(shù)字濾波器和一個激勵函數(shù)來表示這一段時域波形的離散采樣序列。在實際算法中是采用了一個十階的線性預(yù)測濾波器，計算時還將每一幀分為4個子幀，每一子幀的濾波器系數(shù)矢量由上一幀和本幀數(shù)據(jù)計算得到，而最后一子幀的濾波器系數(shù)矢量則由矢量分解預(yù)測法得到；激勵函數(shù)采用的是偽隨機多脈沖激勵函數(shù)，由最大似然算法得到。對每一幀計算得到濾波器系數(shù)矢量和函數(shù)生成元后，將這些系數(shù)再壓縮打包就得到了最后的語音壓縮數(shù)據(jù)。當(dāng)對語音壓縮數(shù)據(jù)進行解壓時，首先將打包的數(shù)據(jù)展開，然后建立起線性預(yù)測濾波器，將重新生成的偽隨機多脈沖激勵函數(shù)輸入濾波器，這樣在濾波器的輸出端就可得到被恢復(fù)的語音信號序列了。
　　該算法的實時運算需要22MIPS以上的運算速度，為此DSP集團將DSP內(nèi)核和算法代碼集成在D6571系列芯片內(nèi)，以滿足除PC用戶以外的更廣泛應(yīng)用。D6571原理框圖如圖1所示，其本身可直接外掛并管理4兆位的flash，8K采樣速率時在2.8KB的數(shù)據(jù)率下可提供25分鐘的回放時間。該芯片具備工業(yè)標準的編解碼器接口，可直接與串行PCM接口的音頻編解碼芯片相連，如美國國家半導(dǎo)體的TP3054或韓國三星半導(dǎo)體的KS8620。D6571可外接兩片音頻編解碼芯片，上電后可用設(shè)置命令對外接音頻編解碼芯片的工作模式進行設(shè)置。例如：設(shè)置外接芯片的時鐘是外同步還是自同步；設(shè)置外接芯片處于輸出方式還是輸入方式等。

　　根據(jù)實際開發(fā)經(jīng)驗，我們認為D6571芯片與其它公司所提供的某些DSP內(nèi)核芯片相比，其最大的優(yōu)點是幾乎不需要任何開發(fā)工具或軟件就可使用。因為該芯片的數(shù)據(jù)是雙向的，既可由上位機將壓縮后的語音數(shù)據(jù)通過它解壓轉(zhuǎn)變成語音，也可輸入語音通過它進行實時壓縮后傳送給上位機。這就大大方便了長回放時間語音開發(fā)用戶的使用。更何況目前許多語音壓縮芯片對語音數(shù)據(jù)的管理是不公開的，例如：某些數(shù)字錄音電話的語音壓縮芯片。
2 系統(tǒng)構(gòu)成
　　與語音處理有關(guān)的系統(tǒng)構(gòu)成如圖2所示。

　　語音數(shù)據(jù)存放在一片32兆位的flash中，采用三星的K29W3200，這是一種8位并行接口的閃存，并行接口有利于提高代碼效率和滿足實時性要求。
　　在語音數(shù)據(jù)的壓縮和回放過程中，D6571和flash之間的數(shù)據(jù)吞吐均通過上位機進行。上位機采用89C52。系統(tǒng)還有64×64的點陣液晶模塊ACM6464等外圍設(shè)備。所有的設(shè)備均使用一條公共的8位數(shù)據(jù)總線，即CPU的P0口；P2口的六根口線用于鍵盤管理；P3口的兩根口線作為兩條串口線；這樣用于外設(shè)管理的口線還剩余16根可用。系統(tǒng)實際使用了其中的14根線：與flash管理有關(guān)的使用6根，與D6571有關(guān)的使用4根，還有4根用于液晶顯示管理。
　　音頻編解碼接口芯片采用一片TP3054，TP3054工作所需的同步脈沖、采樣時鐘、數(shù)據(jù)信號等只需要與D6571的四根控制線相連即可得到。
3 系統(tǒng)開發(fā)
　　本系統(tǒng)的語音開發(fā)分為上載、數(shù)據(jù)合成及下載三個過程。上載是指獲得語音壓縮數(shù)據(jù)；數(shù)據(jù)合成是指將全系統(tǒng)的數(shù)據(jù)按一定的結(jié)構(gòu)組織成一個文件；下載是指儀器裝配出廠時將文件燒錄到flash中。這三個過程均通過PC機進行。由于系統(tǒng)板上MCU的串行信號直接輸出的是TTL電平，因此，本系統(tǒng)的語音開發(fā)唯一需要另外制作的硬件就是使用一片MAX232來完成與PC機之間的電平轉(zhuǎn)換。
　　D6571具有16位寬度的總線，但也允許以分時方式使用8位總線，這時上位機須用HL信號表示送上總線的是高8位還是低8位；而當(dāng)D6571主動將數(shù)據(jù)送上總線時，會發(fā)出ACK信號通知上位機讀取數(shù)據(jù)。HRD和HWR則是讀和寫的控制線。由于Triple Rate Coder算法是按30毫秒分幀采樣，然后再進行分析壓縮的，因此無論是讀取壓縮數(shù)據(jù)還是回送壓縮數(shù)據(jù)，均必須在一幀之內(nèi)完成，否則D6571會自行進入休眠狀態(tài)。向D6571輸送語音數(shù)據(jù)的過程如下：首先送出解壓控制命令，然后接收一個回送狀態(tài)字，狀態(tài)字中包含了當(dāng)前幀所需要的字節(jié)數(shù)，上位機就連續(xù)送出規(guī)定數(shù)目的數(shù)據(jù)，待一幀處理完畢后，D6571會繼續(xù)送出狀態(tài)字。如此循環(huán)就可連續(xù)回放出語音了。而利用D6571進行語音壓縮的數(shù)據(jù)處理過程正好相反，狀態(tài)字中包含的是當(dāng)前幀壓縮所得到的字節(jié)數(shù)，上位機就應(yīng)連續(xù)接收規(guī)定數(shù)目的數(shù)據(jù)。
　　上載時，首先要得到的是各個語音段的壓縮數(shù)據(jù)。作為準備工作，先用PC機的錄音機工具將我們所需的語音錄制成WAV文件。然后對MCU和PC機分別編寫共同配合工作的兩段程序來完成以下功能：PC機通過聲卡播放聲音給D6571；89C52控制D6571進行語音壓縮并讀回壓縮數(shù)據(jù)，然后通過串口線回送給PC機，PC機則將每段的壓縮數(shù)據(jù)存盤。
　　由于每段語音播放時均要有一定的中文點陣字符顯示，數(shù)據(jù)合成的任務(wù)就是要將每段數(shù)據(jù)加上索引和字符點陣數(shù)據(jù)后再合成為一個完整的近32兆位的二進制文件。文件形成時為了使數(shù)據(jù)定位和讀出編程方便，數(shù)據(jù)塊以flash的頁為單位，一頁為528字節(jié)。
　　下載工作則較簡單，在設(shè)備出廠前直接使用系統(tǒng)89C52的串口將數(shù)據(jù)合成形成的文件下載到閃存中即可。
　　D6571的壓縮率極高，使用和開發(fā)也比較方便。因此盡管本系統(tǒng)的語音容量長達200分鐘，但系統(tǒng)整體設(shè)計十分簡潔、經(jīng)濟，幾乎不需調(diào)試。主要開發(fā)工作是MCU和PC機的一些程序開發(fā)使用C51和VB編程，開發(fā)速度也比較快。
　　由于D6571的控制命令很豐富，系統(tǒng)用戶界面的軟件是很容易編寫的。例如，由于該芯片具有30階的音量控制命令，我們未添任何硬件就為設(shè)備增加了數(shù)字音量控制功能。D6571的控制命令還包含自動增益控制、變速回放、數(shù)字濾波器等更加高級的命令，因此，它幾乎可應(yīng)用于任何語音場合。
參考文獻
1 楊行峻，遲惠生.語音信號數(shù)字處理.北京：電子工業(yè)出版社，1995
2 吳樂南.數(shù)據(jù)壓縮的原理與應(yīng)用.北京：電子工業(yè)出版社，1995
3 何振亞.數(shù)字信號處理的理論與應(yīng)用.北京：人民郵電出版社，1983
4 D6571 data sheet.DSP Group,INC.
5 TP3054 TP3057 data sheet.National Semiconductor Cor－poration

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

采用DSP內(nèi)核技術(shù)進行語音壓縮開發(fā)

日期： 2009-06-30

作者：翟東力 王曉蕾

相關(guān)內(nèi)容

作者：翟東力王曉蕾