文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.182815
中文引用格式: 陳鋮穎. 智能語音SoC模擬前端研究進展[J].電子技術應用,2019,45(1):1-4.
英文引用格式: Chen Chengying. Research progress of intelligent audio SoC analog front-end[J]. Application of Electronic Technique,2019,45(1):1-4.
0 引言
在人工智能快速發展的今天,語音是人機交互應用中最為直接的方式,越來越好的體驗感使語音交互逐漸成為“智能化”的重要標志,并將更加廣泛地改變人們的生活方式。語音識別技術已得到較為深度的發展,如國外微軟、蘋果、谷歌等大公司,國內的科大訊飛、思必馳等廠商都已研發出較為成功的語音識別新策略和新算法。但語音識別的重要前提是在智能語音SoC芯片前端能夠提供一個較為純凈的語音信號,才能使云端的語音識別軟件能夠高效完成處理和反饋。而截至目前,遠距離采集、易受噪聲干擾、芯片信噪比受限等問題導致的識別率不高,仍嚴重制約著語音交互技術的普及。
在智能語音SoC中,模擬前端電路承擔著將麥克風輸出模擬信號數字化的重任,是語音模擬信號與數字處理單元的橋梁,如圖1所示。模擬前端通常包括自動增益控制環路和模數轉換器兩部分,它們占據了5%~30%的芯片面積,同時消耗30%~50%整體芯片功耗。
模擬前端電路的動態范圍、信號帶寬、噪聲性能、信噪比等性能直接決定了智能語音SoC的整體性能。因此,低噪聲、高信噪比模擬前端電路就成為了學術界和工業界的研究熱點。
1 面臨的挑戰
在現有的模擬前端電路中,其性能提升的瓶頸主要體現在兩方面:(1)傳統的自動增益控制環路無論采用模擬或者數字的增益調節方式,都是基于單一信號的峰值檢測原理[1-2]。而在實際應用中,語音環境可能相當復雜。尤其是在一些嘈雜的公共場合中,存在多種頻率信號混雜的情況。如果仍采用峰值信號調整方式,只能對其中某一頻率信號進行判斷,無法實現整體上精準的信號幅值提取與增益調整。(2)在智能語音控制中,便攜式或者穿戴式設備是重要的一類應用,因此功耗是設計必須考慮的重要因素。為了進行功耗優化,模數轉換器通常采用多位量化的低階Sigma-Delta模數轉換器來實現穩定的結構和較高的信噪比輸出[3]。但多位Sigma-Delta模數轉換器中多位反饋數模轉換器造成的電容陣列失配誤差,需要數據加權平均(Data Weight Averaging)算法來進行均衡。傳統的DWA算法采用順序循環選擇電容單元的方式,可以將失配產生的隨機噪聲搬移至信號帶寬之外,但也會在帶內產生與采樣頻率相關的雜波,導致信噪比提升有限。而改進型DWA算法則致力于打破環形電容單元選擇規律與采樣頻率之間的關系,在搬移隨機噪聲的同時,壓制或者轉移帶內雜波。雖然改進型DWA取得了一定信噪比的增加,但本質上仍是一種一階的誤差噪聲整形技術,無法取得信噪比本質的提升。因此,綜上所述,在低電源電壓的先進工藝中,完善復雜語音處理功能以及降低多位量化Sigma-Delta模數轉換器中的非線性效應,最終提高整體電路的信噪比,是模擬前端設計中面臨的最大挑戰。
2 模擬前端結構特點與發展現狀
目前在語音SoC模擬前端設計方面,主要有以下幾方面成果。
文獻[4]中模擬前端引入了峰值檢測的混合信號自動增益控制環路,來實現對麥克風信號幅度的放大控制。放大后的信號通過三階離散Sigma-Delta模數轉換器實現與數字信號處理電路的通信。該模擬前端具有較低的功率耗散,但不足之處在于三階離散Sigma-Delta模數轉換器存在潛在的振蕩性問題,因此自動增益控制環路需要將麥克風信號幅度控制在一個較小的范圍,這也影響了整體模擬前端的輸出信噪比。測試結果顯示該模擬前端的總諧波失真為69 dB,換算為信噪比不足60 dB,不能實現高質量的語音信號處理。
文獻[5]利用亞閾值晶體管技術實現了一款對數增益的自動增益控制環路,并獲得了較好的功耗。雖然該電路可以有效控制語音信號的幅度范圍,但由于沒有集成模數轉換器,也無法實現與數字信號電路的單片集成。且亞閾值晶體管受工藝參數的影響較大,電路魯棒性差。
文獻[6]同樣采用亞閾值晶體管技術進行模擬前端設計。自動增益控制環路采用模擬峰值檢測控制;為了節約功耗,離散Sigma-Delta模數轉換器設計為二階或三階可調,滿足不同頻率范圍語音信號的處理。該模擬前端雖然功耗極低,但自動增益控制環路不能實現線性的增益可調,而亞閾區晶體管先天的不穩定性,使得該模擬前端僅具有學術價值,實用性較差。
文獻[7]的重點在于實現MEMS麥克風與模擬前端界面的電路設計。此外,該電路通過調整四階連續時間Sigma-Delta模數轉換器中的跨導單元,可以實現Sigma-Delta模數轉換器的對于不同頻率信號的功耗可調,具有較低的模數轉換器功耗。但Sigma-Delta模數轉換器的信噪比有限,且文獻沒有對整體模擬前端電路的信噪比和功耗進行優化設計,因此整體性能略顯不足。
文獻[8]是一款完整的語音信號SoC模擬前端,集成的可變增益放大器和四階Sigma-Delta模數轉換器既實現了語音信號的完整通路,又在低電源電壓獲得了較好的信噪比輸出,使得與數字信號處理電路單片集成成為可能。但缺陷在于前端放大采用可變增益放大器模式,無法對信號進行自適應的動態調節,限制了該電路在實際中的應用。同時四階Sigma-Delta模數轉換器受限于穩定性設計,無法處理較大幅度的語音信號。
概括來說,現有自動增益控制環路的設計思路主要關注于電路實現和功耗優化方面,而對整體模擬前端多頻率語音信號處理功能和信噪比提升方面并沒有提出相應的策略。尤其是在目前應用環境復雜,語音信號需要精準處理的發展趨勢下,現有技術已無法進行匹配。
而對于提升Sigma-Delta模數轉換器信噪比的DWA算法研究,已發布的研究成果如下。
文獻[9]首次揭示了數模轉換器輸入碼、電容單元總數與雜波頻率之間的函數關系?;诖?,文獻提出了直流失調注入校正法與隨機DWA算法。直流失調注入法的核心思想是通過在數模轉換器輸入端輸入一個直流信號分量,降低數字碼中間值出現的概率,將二分之一采樣處的雜波頻譜搬移到帶外。該方法最大的問題在于只適用于輸入端只有交流小信號分量的應用場景中,一旦輸入信號自身帶有直流分量,一方面容易造成輸出飽和,另一方面兩處直流分量疊加,也可能使得雜波頻譜出現在奈奎斯特采樣頻率之內(即信號帶寬之內),反而降低了帶內信噪比;隨機DWA算法是對傳統DWA算法較為全面的一次改進,它打破了順序循環選擇的內在機制,任意選擇電容陣列中的某一電容單元作為數字碼起點,并按輸入碼選擇相應的電容單元數目。每次都優先選擇之前沒有選擇過的電容單元,直到所有電容單元都被選擇使用過,才開始重復選擇電容單元。這種機制有利于將總的隨機噪聲通過平均轉換為高斯白噪聲。但不足之處在于,該算法具有“太過隨意”的選擇,沒有統一的選擇法則。當陣列中某些電容單元具有較大失配時,由于該電容單元被選擇的概率完全隨機,可能在信號帶內引入低頻諧波頻譜,降低了輸出信噪比。
文獻[10]提出了一種雙循環移位DWA算法,如圖2所示。目的在于降低電容單元失配誤差和輸入信號之間的相關性,從而消除低頻雜波頻率信號。該算法設定一個“分裂”指針信號,將傳統的DWA輸出劃分為兩部分數字碼,每隔256個周期分別進行順時針和逆時針的電容單元選擇,最終將兩部分選擇單元合二為一,驅動數模轉換器。該算法雖然切斷了輸入信號和電容單元選擇的相關性,但本質上仍是一階噪聲整形,對帶內雜波的抑制效果較為有限。
在文獻[10]的基礎上,文獻[11]研究了一種改進型的雙循環移位DWA算法。該策略的改進之處在于首先設定一個指針pt(n)和一個內在的計數器。當數字碼小于電容陣列單位數目時,執行傳統DWA算法模式;而當數字碼溢出時,計數器同時過載,該算法將電容陣列分為兩個子陣列。當數字碼為奇數或者偶數時,分別對電容單元進行順時針或者逆時針方向選擇,最后仍然合二為一構成一個完整的電容選擇陣列。其優點在于一旦數字碼過載發生,即電容單元出現重復選擇時,破壞了失調誤差內在的周期性,從而降低帶內雜波。但該算法仍屬于一階噪聲整形范疇,整體抑制雜波性能比文獻[10]沒有實質性的提升。
在文獻[12]中,同樣是在數字碼超出可備選的電容單元數目,即當數字碼溢出時,設計者人為加入一個指針信號函數,改變了順序循環選擇的機制,形成一種“有章可循”的“跳躍”選擇方法,將帶內的雜波頻譜轉為高斯白噪聲譜,并搬移到高頻處,其4 bit電容單元選擇機制如圖3所示。該算法實現較為簡單,與傳統DWA算法的區別只在于每次單位電容的選擇起點不同。其缺陷在于:當陣列中某些電容單元失配較大時,該選擇機制沒有較好的選擇均衡性,可能出現這些電容單元選擇概率較大的情況,從而增加了帶內噪底。
文獻[13]在文獻[9]的成果上進行了一定程度的改進,為了使得隨機DWA算法具有一定的設計規則,該算法在電路中加入了一個1 bit的隨機數發生器。通過隨機數發生器隨機地產生“0”和“1”編碼,順序或者跳躍一位來選擇電容單元,對雜波的抑制能力控制在6 dB范圍左右。算法如圖4所示。
國內學術界對語音信號處理SoC的研究起步較晚,水平相對落后,研究的廣度與深度也遠遠滯后于國外同行。在模擬前端方面,僅有中科院電子學所設計了一款電源電壓1 V的峰值檢測低功耗自動增益控制環路,該電路基于0.13 μm CMOS工藝實現,電路整體功耗45 μW,且在600 mVp-p輸出擺幅時,總諧波失真達到0.3%[14]。而在多位量化Sigma-Delta模數轉換器的DWA算法方面,也僅有西安電子科技大學在2015年發布過二階的研究成果[20]。此外,復旦大學也在0.13 μm CMOS工藝平臺上完成了一款電源電壓1 V,信號帶寬20 kHz的連續時間Sigma-Delta模數轉換器,該模數轉換器采用4階單環單比特量化結構,輸出信號噪聲失真比達到105.5 dB,功耗僅為110 μW[15]??偟膩砜?,國內學術界還在對核心算法和獨立的電路模塊進行探索和研究,仍沒有形成完整的聲音信號通路。
3 模擬前端發展趨勢
綜上所述,目前模擬前端的設計分別針對自動增益控制環路和多位量化Sigma-Delta模數轉換器的DWA算法主要有以下兩方面趨勢:
(1)在語音信號較為復雜的場合,麥克風輸出的信號中含有多個頻率的正弦波,這些正弦波的幅度可能位于最佳接收范圍高閾值Vpeak和低閾值Vact的任意區間,而傳統的峰值檢測算法只能處理其中某一頻率的信號。而目前根據多頻率語音信號峰值幅度分布的特點,可采用一種峰值統計判決算法,在固定的周期內提取語音信號幅度的統計特性,確定大部分信號幅度所處區間,對它們進行增益調整,從而實現對大多數信號幅度特定的精確控制,其原理如圖5所示。
(2)現有的DWA算法都是基于隨機DWA算法進行改進,無論是增加隨機數還是設定起點指針的函數,其目的都在于提供一種隨機但又相對“可控”的算法,將隨機噪聲引起的帶內雜波壓制或者搬移至帶外。從總體來看,并沒有完全解決帶內雜波頻率和數模轉換器輸入碼、電容單元總數之間關聯性的矛盾。這些算法為未來的改進方向提供了一定思路,那就是在“有章可循”與“隨機化”之間謀求一種設計平衡,從而實現高階的噪聲整形,真正將隨機雜波進行高斯白噪聲化。這種設計思路即為二階DWA算法,其原理在于首先通過隨機數發生器隨機地產生電容單元選擇起始點,之后根據上一回合選擇的電容單元,并結合本次輸入的數字碼,優先選擇未使用過的電容單元;并在此過程中,設置寄存器指引電容單元的選擇方向;通過以上機制,就可以實現二階乃至高階的噪聲整形,從而獲得較好的帶內噪底和雜波抑制能力以及輸出信噪比性能提高。
4 結論
在人工智能應用中,圖像與語音是人機交互最為重要的兩種形式。而語音信號在處理過程中又具有數據量小、受環境影響程度低的特點,因此語音信號處理SoC必將成為人工智能芯片中的重要組成部分。而模擬前端又與語音信號SoC的信噪比、功耗以及處理功能息息相關。本文針對模擬前端中自動增益控制環路以及Sigma-Delta模數轉換器的關鍵技術進行分析,總結了近年來的技術成果和不足,并討論了多頻率信號處理統計算法以及高階DWA算法的發展趨勢,為模擬前端乃至語音信號SoC的設計發展提供了思路和解決方案。
參考文獻
[1] WAKEMAN G,PREVES D A,SEVERIN W A.A 1.1-V 270-μA mixed-signal hearing aid chip[J].IEEE Journal of Solid-State Circuits,2002,37(12):1670-1677.
[2] KIM S,LEE S J,CHO N,et al.A fully integrated digital hearing aid chip with human factors considerations[J].IEEE Journal of Solid-State Circuits,2008,43(1):266-274.
[3] BAIRD R T,FIEZ T S.Linearity enhancement of multibit A/D and D/A converters using data weighted averaging[J].IEEE Transaction Circuits and System.II,1995,42:753-762.
[4] GATA D G,SJURSEN W,HOCHSCHILD J R,et al.A 1.1-V 270-μA mixed-signal hearing aid chip[J].IEEE Journal of Solid-State Circuits,2002,37(12):1670-1677.
[5] SERRA-GRAELLS F,GOMEZ L,HUERTAS J L.A true-1-V 300-μW CMOS-subthres-hold log-domainhearing-aid-on-chip[J].IEEE Journal of Solid-State Circuits,2004,39(8):1271-1281.
[6] KIM S,LEE J Y,SONG S J.An energy-efficient analog front-end circuit for a sub-1V digital hearing aid[J].IEEE Journal of Solid-State Circuit,2006,41(4):876-882.
[7] DELIGOZ I,NAQVI S,COPANI T,et al.A MEMS-based power-scalable hearing aid analog front end[J].IEEE Transaction on Biomedical Circuit and Systems,2011,5(3):201-214.
[8] SUKUMARAN A,KARANJKAR K,JHANWAR S.A 1.2 V 285 μA analog front end chip for a digital hearing aid in 0.13 μm CMOS[C].Solid-State Circuits Conference(A-SSCC),IEEE Asian.Singapore,2013:397-400.
[9] VADIPOUR M.Techniques for preventing tonal behavior of data weighted averaging algorithm in sigma-delta modulators[J].IEEE Transactions on Circuits and Systems-II,2000,47(11):1137-1144.
[10] WANG H,ZHAO M,WU X,et al.0.9 V 58 μW 92 dB SNDR audio delta-sigma modulator with high efficiency low noise switched-opamp and novel DWA technique[J].Electronics Letters,2011,47(4):67-68.
[11] ZHAO J C,WU X B,ZHAO M L.A digital front-end of 16-bit audio delta-sigma DAC with improved CSE method and novel DWA[C].IEEE 10th International New Circuits and Systems Conference(NEWCAS),Montreal,Cadence,2012:273-276.
[12] LI D,YANG Y T,SHI Z C,et al.A low-distortion multi-bit sigma–delta ADC with mismatch-shaping DACs for WLAN applications[J]. Microelectronics Journal,2015,46(1):52-58.
[13] LIN J N,CHU H C,CHEN Z Y,et al.A continuous-time delta-sigma modulator with novel data-weighted averaging algorithm for audio application[C].IEEE International Conference on Electron Devices & Solid-State Circuits,Singapore,2015:281-284.
[14] 李凡陽.一種用于1V助聽器的低功耗增益控制系統[J].微電子學與計算機,2011,28(9):8-12.
[15] 董一楓,楊海峰,許俊,等.一種用于助聽器的1 V 110 μW 105.5 dB 20 kHz CT-Sigma Delta調制器[J].復旦學報(自然科學版),2012,51(1):50-56.
作者信息:
陳鋮穎
(廈門理工學院 光電與通信工程學院,福建 廈門361024)