中風(fēng),創(chuàng )傷性腦損傷和神經(jīng)退行性疾病如帕金森病、多發(fā)性硬化癥和肌萎縮側索硬化癥(ALS或Lou Gehrig病)常常導致不可逆轉的說(shuō)話(huà)能力喪失。基于此,醫學(xué)上也曾給出相應解決辦法,就是借助輔助設備跟蹤眼睛或面部肌肉運動(dòng)。然而與正常的語(yǔ)音(每分鐘100-150字)表達相比,這樣輔助表達產(chǎn)生文本和合成語(yǔ)音費力且低效(每分鐘最多10個(gè)字)。
是否可以更好地幫助這類(lèi)語(yǔ)言嚴重障礙患者恢復流暢的溝通能力?科學(xué)家們不斷地在努力。
近日,加州大學(xué)舊金山分校(UCSF)語(yǔ)言科學(xué)家Gopala Anumanchipalli博士和Chang實(shí)驗室的生物工程研究生Josh Chartier領(lǐng)導開(kāi)發(fā)了人工智能新系統,可以通過(guò)控制患者大腦語(yǔ)音中心的活動(dòng)來(lái)創(chuàng )建其聲音的合成版本。Chang對此最新成果十分興奮,他表示,此項研究首次表明可依據個(gè)人大腦活動(dòng)生成完整的口語(yǔ)表達,這已然是成熟的技術(shù),臨床應用指日可待。相關(guān)研究結果發(fā)表在《Nature》雜志上。
這項研究是建立在之前一項研究的基礎之上,該研究首次描述了人類(lèi)大腦的語(yǔ)音中心是如何編排嘴唇、下巴、舌頭和其他聲道組件的活動(dòng),以產(chǎn)生流暢的語(yǔ)音。對此,Anumanchipalli和Chartier意識到,之前直接解碼大腦活動(dòng)語(yǔ)音的嘗試可能只取得了有限的成功,因為這些大腦區域并不能直接代表語(yǔ)音的聲學(xué)特性,而是協(xié)調運動(dòng)所需的指令。
他們招募了5名正在接受癲癇治療的志愿者,志愿者的大腦會(huì )暫時(shí)植入電極來(lái)監測大腦活動(dòng)。研究人員在 5 名受試者大聲說(shuō)出幾百個(gè)句子時(shí),記錄下參與語(yǔ)言生成的大腦區域的活動(dòng)。由于研究小組無(wú)法同時(shí)記錄志愿者的神經(jīng)活動(dòng)及其舌頭、口腔和喉部運動(dòng)。相反,他們只記錄志愿者的音頻,而這種記錄方法使研究人員卻讓他們發(fā)現了新大陸。通過(guò)識別不同的特定發(fā)聲神經(jīng)元群體,發(fā)現聲音運動(dòng)的神經(jīng)代碼能夠被模擬。
這種聲音與解剖學(xué)的詳細映射使科學(xué)家能夠為每個(gè)參與者創(chuàng )建一個(gè)真實(shí)的虛擬聲道,這些聲道可以通過(guò)他們的大腦活動(dòng)來(lái)控制。這當中包括兩個(gè)“神經(jīng)網(wǎng)絡(luò )”機器學(xué)習算法:將語(yǔ)音中產(chǎn)生的大腦活動(dòng)模式轉換為虛擬聲道運動(dòng)的解碼器,以及將這些聲道運動(dòng)轉換為參與者聲音的合成近似的合成器。
研究人員還發(fā)現,這些算法合成的語(yǔ)音明顯優(yōu)于直接從參與者大腦活動(dòng)中解碼的合成語(yǔ)音。這些算法所產(chǎn)生的合成語(yǔ)音在進(jìn)行測試時(shí),效果十分明顯。與自然語(yǔ)言的情況一樣,抄錄員能準確地識別出69%的合成詞,并且能在43%的句子上完成完美精準度的轉錄。
目前研究人員正在試驗更高密度的電極陣列和更先進(jìn)的機器學(xué)習算法,他們希望這些算法能夠進(jìn)一步改善合成語(yǔ)音。該技術(shù)的下一個(gè)主要測試是確定一個(gè)不會(huì )說(shuō)話(huà)的人是否能夠在該系統的學(xué)習下,表達他們想說(shuō)的任何內容。
“無(wú)法移動(dòng)手臂和腿的人已經(jīng)學(xué)會(huì )用大腦控制機器人肢體,”Chartier希望,“有一天,有語(yǔ)言障礙的人能夠學(xué)會(huì )用這種腦控制的人工聲道再次說(shuō)話(huà)。”
參考文獻:
[1] Speech synthesis from neural decoding of spoken sentences
[2] Syntheticspeech generated from brain recordings
[3] Study reveals brain activity patterns underlying fluent speech
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com