中文引用格式: 李凌云,李肖克,陳奕釗,等. 基于IP包拆分重組技術的混合語音壓縮編碼算法研究[J]. 電子技術應用,2025,51(2):70-74.
英文引用格式: Li Lingyun,Li Xiaoke,Chen Yizhao,et al. Research on hybird speech compression coding algorithm based on IP packet splitting and reassembling technology[J]. Application of Electronic Technique,2025,51(2):70-74.
引言
語音壓縮編碼是指為提高通信網中的信息傳輸效率及實現語音的高效存儲,對編碼后的數字語音進行壓縮的技術。由于現代通信網對傳輸帶寬、數據保密性等各種特殊場景的需要,低速率語音壓縮編碼技術因其占用帶寬少、抗干擾、保密性強及系統容量高等特點而成為語音研究領域中的一個重要課題。
在某特殊通信網業務系統中,既要在平均通信速率僅有10 kb/s的信道上傳輸1路基于IP的語音傳輸VoIP語音,又要求話音編碼標準采用G.729標準。傳統G.729標準話音數據需要34.4 kb/s的傳輸帶寬,僅采用一種語音壓縮編碼技術已明顯不能滿足要求。
研究人員提出一種基于混合激勵線性預測(Mixed Excited Linear Prediction,MELP)的0.6 kb/s的聲碼器算法,將多個連續語音幀合成一個超級幀,充分利用參數的幀間相關性進行聯合量化,通過仿真驗證了該算法可得到一個可懂度較高、清晰度和自然度較好的合成語音[1-5]。常亮等提出一種基于正弦激勵線性預測(Sinusoidal Excitation Linear Prediction,SELP)的0.56 kb/s多幀聯合分模式矢量量化算法,獲得接近電話質量的語音[6]。Huang等提出一種矩陣量化方案和低速率的聲碼器算法,在低速率通信鏈路中獲得了高質量語音[7]。Ozaydin等針對窄帶通信鏈路中語音信號特征,基于共軛結構代數碼激勵線性預測編碼(Conjugate Structure-Algebraic Code Excited Linear Prediction,CS-ACELP)設計了一種低復雜度、高效的語音激活檢測(Voice Activity Detection,VAD)算法,該算法的實現將語音的平均通信速率約降至4 kb/s[8]。上述語音壓縮編碼算法的速率雖都達到了4.6 kb/s以下,甚至達到了0.56 kb/s,具有一定的借鑒意義,但上述算法并未使用G.729語音編碼標準。
鑒于此,本文提出一種基于IP包拆分重組技術的混合語音壓縮編碼算法,在使用G.729標準的基礎上,利用改進的多帶激勵(Advanced Multi-Band Excitation,AMBE)語音編碼技術對語音數據進行二次壓縮解壓,結合IP包拆分重組技術,使語音數據傳輸比特率達到5.7 kb/s,有效避免開銷數據消耗過多信道帶寬,提高語音有效載荷的傳輸效率和質量。
本文詳細內容請下載:
http://m.viuna.cn/resource/share/2000006328
作者信息:
李凌云,李肖克,陳奕釗,王國法,王輝
(中國電子科技集團公司第三十四研究所,廣西 桂林 541004)