語音是人類最自然而直接的交互方式,如今恰是從“自然”向“智能”時代跨越的過渡期。在智能語音時代,用戶只需用說話的方式給服務終端發布命令,就能得到相應的服務。作為人工智能產業鏈上的關鍵一環,智能語音已在Siri等數字語音助手、智能家居、車載、可穿戴設備等域中開始落地。
未來,智能語音必將支持多用戶體驗。比如,不同家庭成員將擁有不同的操作權限,經認證的汽車擁有者借助語音指令,通過智能手表預啟動汽車等。
除了語音識別,CEVA公司戰略營銷總監Moshe Sheier認為語音的魅力不止于此:“我們認為語音識別還將夠勝任更多工作,例如,未來語音識別系統將能夠通過聲音來辨認人(如果在系統中預先注冊),了解人們的情緒狀態,而且無論不受周圍環境影響而暢順工作。這樣語音識別系統才更人性化,能基于所處位置、喜好以及過往活動等來進判斷操作。這需要對語音識別進行深度擴展——加入‘聲音感測’,除了人聲信息還可識別其它聲音事件,比如家里的門鈴聲和玻璃破碎的聲音,或者道路上緊急車輛的警笛。語音識別和聲音感測的可滲透到生活的每個方面,手機和可穿戴產品的語音激活、智能家居控制、智慧城市安保(聲音事件感測),汽車、商業和財務等領域。”
CEVA公司戰略營銷總監Moshe Sheier
“軟硬”兼施的CEVA語音平臺 怎樣的平臺才能稱之為適用于語音應用的平臺呢?
回答這個問題,首先需要對應用場景進行分類,是電池驅動還是插座式電源供電、是近場交互操作還是遠場識別。應對以上不同場景,便需要兩種不同的解決方案:
第一種是具有超低功耗的近距離交互,使用1至3個麥克風的始終在線語音助手;
第二種是支持4至8個麥克風的高性能遠距離應用,可使用多種前端技術,比如波束成形和多通道回聲消除器。
基于此,CEVA提供CEVA-TeakLite-4 超低功耗 DSP平臺和CEVA-X2高性能DSP平臺解決方案。除了用于語音識別的專用DSP內核,還提供應用軟件。Moshe Sheier表示,以上兩款方案均有實際應用案例,并包含多個CEVA及合作伙伴的軟件包,可實現任何風格的語音助手應用。
如何應對智能語音痛點 盡管技術先行,但智能語音還存在諸多的挑戰,最大的挑戰便是環境噪聲,而往往是多個噪聲源錯綜交織——其他人的交談、音樂播放、空調器和其它機器噪聲、交通噪聲等等。因而,獲得良好的信噪比尤為關鍵,通過生成清晰的聲音信號來作為語音識別引擎。
應對這些挑戰就需要通過降噪、麥克風陣列波束成形、揚聲器跟蹤、回聲消除器、始終聆聽喚醒詞和嵌入式(非基于云端)語音指令等。
Moshe Sheier表示:“CEVA已向全球多個地區的客戶交付超過60億個音頻/語音芯片,可實現麥克風拾音、降噪、回聲消除和嵌入式語音指令,并將清晰的語音數據編碼發送到云端。我們擁有豐富經驗應對語音交互的變革。”