8 月 26 日消息受到生物神經網絡的啟發,目前深度神經網絡已經被證實效果很好。如今,深度神經網絡和深度學習在計算機視覺、語音識別和自然語言處理等許多重要問題上有著出色的表現。
神經網絡本身是一般的函數逼近,這就是為什么它們幾乎可以應用于任何從輸入到輸出空間復雜映射的機器學習問題。
然而深度神經網絡更多的是關心所謂的端到端學習,內部發生什么事情它并不關心。這在認知科學里面叫“弱等價”,也就是說人和機器可以干同一件事,但是它們的內部過程并不是一樣的。
或者和生物智能類似,深度神經網絡要在增加內部的認知過程中,也應該和生物系統類似。此時,站在生物神經學的參照系下,或許能賦予 AI 語言處理更精細的洞察。
經過多年研究,神經科學家發現了人類大腦中處理語言聲音的運行規則
8 月 18 日,美國加州大學舊金山分校的研究人員在《細胞》雜志上發表論文稱,聽覺處理和語言處理是并行進行的。這與長期以來認為大腦先處理聽覺信息,然后將其轉化為語言信息的理論相矛盾。
最新研究表明:當含有語意的聲音傳到耳中,耳蝸將其轉換成電信號,然后發送到位于顳葉的聽覺皮層。
幾十年來,科學家們一直認為,聽覺皮層在處理語音時像工廠流水線一樣有先后工序:首先,初級聽覺皮層處理簡單的聲音信息,比如聲音頻率。然后,顳上回(superior temporal gyrus,STG)提取更重要的特征,如輔音和元音,將聲音轉換為有含義的單詞。
但一直以來,這一理論缺乏直接證據的支持,因為它需要整個聽覺皮層極高時空分辨率的詳細神經生理學記錄。這是一個挑戰,原因是初級聽覺皮層位于大腦額葉和顳葉的裂口深處。
美國加州大學舊金山分校神經科學家和神經外科醫生 Edward Chang 說:"所以,我們進行了這項研究,希望找到聲音等低級表征轉化為詞匯等高級表征的證據。"
這項研究的開展離不開一些患者的支持。幾年時間里,有 9 名患者參與了實驗。因為需要切除腦部腫瘤或定位引發癲癇的病灶,這些患者接受了神經外科手術。與此同時,他們同意讓醫生在手術過程中將微電極陣列放置在他們的聽覺皮層,收集神經信號,用于分析語言功能和定位癲癇,以及研究聽覺皮層如何處理語音信息。
“這是我們第一次可以直接從大腦表面同時覆蓋聽覺皮層的所有區域,研究聲音到字詞的轉換。”Chang 教授說。相比過去只能在有限的幾個點記錄神經活動的電信號,無疑是巨大的進步。
接著,在實驗中,研究人員開始向參與者播放詞組和短句,試圖尋找信息從初級聽覺皮層流向顳上回的跡象。按照原來的假設,這兩個腦區應該會先后被激活。
然而,事實并非如此。他們觀察到,播放句子時,顳上回某些區域的反應速度與初級聽覺皮層一樣快,也就是說,這兩個區域同時開始處理聲音信息。
在另一項實驗中,研究人員用微弱的電流刺激患者的聽覺皮層。按照原來的假設,刺激初級聽覺皮層,很可能會扭曲患者對言語的感知。然而,這些患者表示,盡管刺激引起了某些聲音的幻聽,但他們仍能清楚地聽到并重復對他們播放的字詞。
相反,當研究人員用電流刺激患者的顳上回,患者報告說他們能聽到有人在講話,但分辨不出字詞。“事實上,有一名患者說,聽起來就像單詞的音節發生了互換。”Chang 教授說道。
綜合這些證據,研究小組認為,大腦聽覺皮層對聲音和語音的信息處理是并行的,而不是傳統模型所認為的串行處理。
傳統語音處理模型過于簡化,甚至很可能是錯誤的。研究人員推測,顳上回可能獨立于初級聽覺皮層而發揮作用,而不是作為初級聽覺皮層處理的下一步。
語言處理的并行性可能會給醫生提供治療誦讀困難癥等病癥的新思路。患有這些疾病的兒童在識別語音方面存在困難。
"雖然這是向前邁出的重要一步,但我們還不了解這個平行聽覺系統。這些發現表明,聲音信息的傳遞可能與我們想象的非常不同。這無疑帶來了更多問題。"Chang 說。
站在生物神經學的參照系下,AI 語言處理被賦予更精細的洞察
生物神經元構成一層一層的網絡,一層一層進行特征提取,這是深度學習已經模擬的,其實大腦還有一個根本不同,我們識別物體的時候不是像深度學習網絡一樣由簡單到復雜的特征提取,而是有多條通路:
我們看到一個物體的時候,第一步會快速的從皮層下通路,對物體的整體的性質進行識別,這些信息到了高級腦區,和記憶、先驗知識等進行融合,先猜測出來是什么東西,通過神經反饋再和深度學習模擬的那個慢速的腹側通路進行動態交互,這個過程可能會經過幾個回合,整個識別的過程都是輸入和大腦內部的先驗知識不斷的相互比較印證的過程,而這個過程在目前是深度學習沒有包含的,也是圖像理解這個數學上不適定問題(ill-posed problem)的一個解決方案。
那為什么我們好像深度學習網絡用的很好,我們沒有包含動態的過程,由粗到細、由 global 到 local 的過程,也能做的挺好?;蛟S是因為現在我們的任務太簡單了,如果只是做靜態圖像的識別根本不需要這個,但是如果真的要做一個能夠與環境動態交互、很自主的機器人,這樣的計算需求就會出現,那個時候就需要動態交互的過程了。
而深度學習一般認為是黑盒子,每個人的模型得到大致相同的結果,但是也不完全一樣,那么這里的一致性和不一致性到底體現在哪里。如果生物神經在語言處理方面搞的很清楚的話,實際上對深度神經網絡的架構也會很有幫助。