腦機革命真的來了!
大腦活動解碼語音已經不是新鮮事,但是,實時地解碼大腦信號,將“聽到”和“說出”的對話轉變成文字,并且準確率很高,是全球首次!
2017年F8大會上,Facebook宣布了腦機接口(BCI)計劃,概述了構建非侵入性可穿戴設備的目標,該設備能讓人們通過默想自己說的話來打字。
作為這項工作的一部分,Facebook一直支持加州大學舊金山分校(UCSF)的一組研究人員,他們致力于通過實時檢測大腦活動中有意“想象”的聲音,來幫助神經損傷的患者重新說話。
今天,加州大學舊金山分校的研究團隊在《自然-通訊》上發表論文,分享了他們的新研究。他們已建成一個腦機接口,可以準確地實時從大腦解碼由佩戴設備的人聽到和說出的對話和短語。這是全球首個實時解碼大腦信號的問答語音的項目。
這篇文章的資深作者是華裔科學家、加州大學舊金山分校神經外科教授 Edward Chang 博士。
Edward Chang
Edward Chang 博士的研究重點是言語、運動和人類情感的大腦機制,同時他也是加州大學舊金山分校和加州大學伯克利分校的合作單位 —— 神經工程與假肢中心的聯合負責人。該中心匯集了工程、神經病學和神經外科方面的專家,以開發最先進的生物醫學技術,用以恢復神經系統殘疾患者的功能,如癱瘓和言語障礙。
不久前,新智元報道了Edward Chang團隊通過解碼腦電波,使用深度學習方法直接從大腦信號中合成口語句子的突破性研究,而這次的新研究更進一步,從大腦信號解碼出對話,并轉換成文字。
Edward Chang博士表示,在對話環境中實時解碼語音,對那些無法說話的患者有重要意義。
Facebook AR/VR副總裁Boz將這一研究發到twitter上,引來吃瓜群眾熱議:
Gjergj Dollani打趣道——未來新聞標題:“2300萬大腦遭到大規模攻擊,數據安全受到破壞。”
Harold Thimbleby表示:有意思;我只需通過想就能打出我想說的話。就這么簡單。(我可以想象 Tommy Cooper的聲音)
Ed Ho表示:幫助腦部受傷的人是的非常酷的東西!
接下來就為大家解讀這項非常有意思的研究。
實時解碼問答對話,準確率大幅提升
Facebook的Mark Chevillet給了自己兩年時間來證明構建一種非侵入性的BCI技術是否可行,這種技術可以從大腦活動中每分鐘讀出100個單詞。
兩年過去了,Chevillet說:“我們確實認為這是可能的。”
作為Facebook現實實驗室腦機接口項目的研究主管,Chevillet計劃推進這個項目——以及開發增強現實眼鏡的最終目標,這種眼鏡無需大聲說話就可以控制。
Mark Chevillet 是 Facebook Reality Labs 的腦機接口(BCI)項目研究主管
Chevillet的樂觀情緒在很大程度上得益于今天早上宣布的腦機接口領域的第一項突破:發表在Nature Communications上,加州大學舊金山分校由Facebook現實實驗室資助的一個團隊已建成了一個腦-機接口,能夠實時地從大腦信號中準確解碼對話。
這項研究的資深作者、加州大學舊金山分校的神經外科醫生Edward Chang說,該研究結果是朝著神經植入物的方向邁出的重要一步,這種神經植入物可用于恢復因中風、脊髓損傷或其他疾病而失去說話能力的患者的自然交流。
不過,與生物醫學設備相比,Facebook對制造增強現實眼鏡更感興趣。Chevillet說,這項工作提供了一個原理證明,即通過測量大量神經元的活動,可以從大腦信號中解碼想象的語言。“這一結果有助于設定我們需要打造的可穿戴設備的規范。”
今年4月,Chang的團隊首次推出了一種不同的腦-機接口,可以直接從大腦信號中解碼語音。今天發布的這項工作的目標是提高解碼大腦活動的準確性。
Chang說:“我們正在從大腦的兩個不同部分解碼兩種信息,并將其用作上下文。”他說。結果是,這對解碼的準確性產生了“相當大的影響”。
提高準確度的基礎來自一個簡單的概念:添加上下文。
UCSF的研究團隊通過將電極植入三名癲癇患者的大腦中,記錄了他們的電腦活動;同時,志愿者被要求聽一組事先錄制的問題,并大聲說出他們的回答。
然后,這些大腦數據被用來訓練機器學習算法。接著,當志愿者再次被要求回答問題時,算法只使用大腦活動來判斷志愿者是在聽還是在說,然后嘗試解碼話語。
左邊是實際產生的問答,右邊是系統的解碼。
大多數語音解碼器的工作原理是對一個人在想什么聲音做出最佳猜測,因此一般的大腦解碼器可能會將發音相似的單詞混淆,例如“synthesizer”(合成器)和“fertilizer”(肥料)。
UCSF開發的新系統增加了上下文來幫助區分這些單詞。首先,該算法預測從一組已知問題中聽到的問題,比如“What do you spread on a field?”(你在田野上撒了什么?),然后,這些信息被用作上下文來幫助預測答案:“Fertilizer”(肥料)。
在一個問題(藍色)和回答(紅色)的任務中,實時語音解碼的原理圖
Chang說,通過添加上下文,腦-機接口更容易預測答案。
問題-答案集
使用一組特定的問題和答案,該系統能夠解碼感知(聽到)和產生(說出)的語音,準確率分別達到76%和61%。研究團隊表示,他們希望在未來擴大系統的詞匯量。
更好的算法和更快的計算機也提高了研究中的解碼速度:Chang說,過去需要幾周到幾個月的離線處理,現在可以實時完成了。
一個參與者的語音解碼和分類結果
Facebook的終極目標:非侵入式的腦機接口設備
UCSF研究團隊的實驗仍使用植入電極來獲取大腦信號:參與者 1 和 2 各自植入兩個 128 通道 ECoG 陣列,參與者 3 植入一個 256 通道 ECoG 陣列。不過,Facebook的最終目標是非侵入式的腦機接口設備。
Facebook Reality Labs 設計了非侵入式可穿戴腦機接口設備的原型(在今天發表的打字實驗中沒有使用)。
在今天發表的一篇博客文章中,Facebook解釋了這種未來設備:
就像身體里的其他細胞一樣,神經元在活動時也會消耗氧氣。因此,如果我們能檢測到大腦中氧氣水平的變化,我們就能間接地測量大腦活動。想象一下脈搏血氧計——一個夾子狀的傳感器,它會發出紅光,把它夾在食指上就可以測量血液的血氧飽和度。我們也可以使用類似紅外光的,以一種安全、非侵入性的方式來測量大腦中血液的氧含量。這類似于在功能性磁共振成像(fMRI)中測量到的信號——但使用的是由消費級零件制成的便攜式可穿戴設備。
我們不期待這個系統很快就能解決 AR 的輸入問題。目前它體積龐大,速度緩慢且不可靠。但潛力很大,因此我們認為隨著時間的推移,不斷改進這項最先進的技術是值得的。雖然測量氧含量可能無法解碼想象的句子,但是能夠識別哪怕只有幾個想象的命令,比如 “主頁”,“選擇” 和 “刪除”,都將為我們提供與今天的VR 系統以及未來的AR 眼鏡交互的全新方式。
我們還在探索各種方法,從把測量血氧含量作為檢測大腦活動的主要手段,轉向測量血管甚至神經元本身的運動。由于智能手機和激光雷達光學技術的商業化,我們認為可以創造出小型、方便的BCI設備,讓我們能夠測量更接近我們目前用植入電極記錄的神經信號,甚至有一天可以解碼無聲的語音。
這可能需要十年時間,但我們認為差距正在縮小。
Neuralink和Facebook,誰會最先商業化?
Facebook并不是唯一一家致力于腦機接口的大公司。還記得本月中旬馬斯克的Neuralink公司發布的腦機接口技術新突破嗎?
這套腦機接口系統利用一臺神經手術機器人向人腦中植入其稱為“線”的專有技術芯片和信息條,然后可以直接通過USB-C接口讀取大腦信號,甚至可以用iPhone進行控制,簡直是科幻片成真。
負責放大信號,并將信號發送到計算機的芯片
這套腦機接口系統已經成功連接到實驗鼠身上,可以從1500個電極讀取信息,馬斯克稱目前已經通過實驗證明,“猴子可以通過大腦控制電腦”,并表示“2020年底之前要將人腦連接到計算機上”。
Neuralink的系統植入實驗鼠的體內
詳見:《馬斯克發布iPhone可控大腦芯片!植入電極線細過發絲,機器縫線柔性無創》
與高調的馬斯克形成鮮明對比的是Facebook的這項研究。Facebook打算用紅外線制作一種從外部接收大腦信號的AR眼鏡,而Neuralink正在開發一種植入式陣列,由3000個柔性電極組成,以增強大腦功能。
這兩家公司似乎是在競爭第一名,看誰能把通過大腦-計算機接口來解碼大腦活動最先商業化。但朝著這一目標的進展可能更像是一場慢節奏的嘗試,而不是一次沖刺。Chevillet表示:“我們沒有任何實際的產品計劃,因為這項技術是早期階段的研究。”
與此同時,Chang希望盡快為那些不會說話的病人帶來有意義的改變。到目前為止,該團隊的所有工作都是由能夠說話的志愿者完成的,因此團隊現在將花費一年的時間與一位失語的參與者一起工作,在計算機屏幕上生成文本。所有數據將由UCSF收集并保密保存在大學服務器上。與此同時,與Facebook合作的所有結果都正在發布,并且可供學術界使用。
Chang說:“我希望這不僅有益于我們正在做的事情,而且有利于整個領域。”