頂尖學(xué)術(shù)期刊《自然》剛剛在線(xiàn)發(fā)表的一項工作就在腦機接口領(lǐng)域向前邁出了一大步。加州大學(xué)舊金山分校(UCSF)的神經(jīng)外科學(xué)家Edward Chang教授與其同事開(kāi)發(fā)出一種解碼器,可以將人腦神經(jīng)信號轉化為語(yǔ)音,為幫助無(wú)法說(shuō)話(huà)的患者實(shí)現發(fā)聲交流完成了有力的概念驗證。
腦機接口(BCI),指的是在人或動(dòng)物大腦與外部設備之間創(chuàng )建的直接連接,實(shí)現腦與設備的信息交換。近年來(lái),這一技術(shù)的快速發(fā)展正在為那些神經(jīng)受損或嚴重運動(dòng)障礙的人們改善生活質(zhì)量。比如,幫助癱瘓人士靠“想”控制機械臂取物,或是控制屏幕上的光標打出字詞。然而,“意念打字”的速度目前只能達到每分鐘10來(lái)個(gè)單詞,比正常的人類(lèi)說(shuō)話(huà)速度要慢得多,還遠不能滿(mǎn)足患者的溝通需求。
因此,一些科學(xué)家們試圖解碼大腦中的言語(yǔ)信號,并通過(guò)人工語(yǔ)音合成,把“想”的內容真正“說(shuō)”出來(lái)!
要挑戰重建語(yǔ)音的難題,需要首先實(shí)現對表征語(yǔ)音動(dòng)作的神經(jīng)活動(dòng)進(jìn)行解碼。一些接受開(kāi)顱手術(shù)的癲癇患者為神經(jīng)科學(xué)家提供了寶貴的數據。由于需要為一些患者定位癲癇發(fā)作的源頭,神經(jīng)外科醫生會(huì )通過(guò)手術(shù)在患者顱內植入電極,以便監測其大腦活動(dòng)。在此基礎上,研究人員采用了一種叫作高密度腦皮層電圖(ECoG)的技術(shù),直接記錄下受試者大腦皮層的神經(jīng)活動(dòng)。
受試者首先按要求大聲讀出幾百條句子,與此同時(shí),研究人員記錄他們大腦的語(yǔ)音產(chǎn)生中心——腹側感覺(jué)運動(dòng)皮層區域的神經(jīng)活動(dòng)。
利用循環(huán)神經(jīng)網(wǎng)絡(luò )(RNN),研究人員分兩步破譯了采集到的神經(jīng)信號。第一步,他們將神經(jīng)信號轉換為表征發(fā)音器官動(dòng)作的信號,包括下巴、喉、嘴唇和舌頭動(dòng)作相關(guān)的腦信號。然后,根據解碼出來(lái)的發(fā)音器官動(dòng)作,把信號轉換為說(shuō)出的詞句。
這種創(chuàng )新的解碼方法有助于解決重建語(yǔ)音時(shí)的聲學(xué)失真問(wèn)題,讓合成的語(yǔ)音更容易被人聽(tīng)清、聽(tīng)懂,接下來(lái)的測試結果驗證了這一點(diǎn)。研究人員在亞馬遜的眾包任務(wù)平臺Mechanical Turk上招募聽(tīng)眾來(lái)辨認解碼器合成的語(yǔ)音,包含325個(gè)單詞和101句整句。檢驗測試中,聽(tīng)眾可以成功地識別出單詞,和對自然語(yǔ)音的感知模式一致。對于合成語(yǔ)音發(fā)出的整句,聽(tīng)眾也能識別出句子的意思。
第一作者Gopala Anumanchipalli博士認為,該結果意味著(zhù),這種神經(jīng)合成語(yǔ)音對于現實(shí)世界的應用來(lái)說(shuō)已經(jīng)達到即刻聽(tīng)懂的實(shí)用程度。
更有意義的是,研究人員還測試了解碼器對于不出聲說(shuō)話(huà)的語(yǔ)音合成能力。一名被試先按要求說(shuō)出句子,然后默念同一個(gè)句子,也就是只有發(fā)音的動(dòng)作、并不發(fā)出聲音——這種情形更符合某些患者的實(shí)際情況。結果顯示,解碼器對默念動(dòng)作合成的語(yǔ)音頻譜與同一句句子的有聲頻譜是相似的。
盡管如生物工程學(xué)教授Chethan Pandarinath等人在同期《自然》上刊發(fā)的評論中所言,這一系統要真正成為一個(gè)臨床可行的語(yǔ)音腦機接口還面臨許多挑戰,但毫無(wú)疑問(wèn)的一點(diǎn)是,腦機接口技術(shù)的持續進(jìn)步將讓有發(fā)聲障礙的人重新獲得自由說(shuō)出心聲的能力,與周遭世界重新建立聯(lián)系。甚至,腦機接口的發(fā)展還會(huì )讓更多的人有可能突破人類(lèi)自身的局限,讓意識的疆界不斷拓展。
參考資料:
[1] Gopala Anumanchipalli et al., (2019) Speech synthesis from neural decoding of spoken sentences. Nature. DOI: 10.1038/s41586-019-1119-1
[2] Chethan Pandarinath & Yahia H. Ali, (2019) Brain implants that let you speak your mind. Nature
[3] Chartier Anumanchipalli et al., (2018) Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex. Neuron. doi:10.1016/j.neuron.2018.04.031.
點(diǎn)擊下圖,預登記觀(guān)展
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com