第一百一十八章 聽覺系統(一)

关灯護眼    字體:

[上一章] [目錄] [下一章]

可是要完成這麼一個宏偉而艱鉅而龐大的目標,工作量是可想而知的,但是,楊小樂堅信,如果只是從某一個專案開始進入人工智慧的研發,然後在逐步完善、改進、進而形成成熟的理論基礎,以此類推,當各個專案都完善後,再組裝整合起來,再進行下一步的公關,成功是有希望的。

那麼,從哪一個專案入手呢?

人類的大腦就像有程式一樣,一直在不斷迴圈地工作著,眼睛和耳朵,是我們判斷周圍環境的重要依靠,從而根據不同環境的聲音和影象,指揮身體做出不同的反應和動作。

因此,首先要涉及的專案肯定跟眼睛和耳朵有關,也就是視覺系統和聽覺系統,前者目前攝像器件還不成熟,暫時不用考慮。

目前最適合的就是聽覺系統了。

那麼,人類的聽覺系統是怎麼工作的呢?

當聲波碰擊倒耳廓,便會被反射和減弱,這些改變提供了額外的訊息去幫助腦部確定聲音來臨的方向。聲波進入耳道,一個看似很簡單的管,耳道會放大在3至12千赫之間的聲音。在耳道末端的是鼓膜,它標記著中耳的起點。

【穩定運行多年的小說app,媲美老版追書神器,老書蟲都在用的換源App,huanyuanapp.org】

在耳道傳送的聲波會碰擊到耳膜或鼓膜。這些波訊息透過一系列幼細的骨頭—錘骨(錘)、砧骨(砧)和鐙骨(鐙)在充滿空氣的中耳腔傳送。這些小骨扮演著槓桿和電報交換器的角色,把低壓的鼓膜聲音振動轉換成高壓聲音振動在另一個,更小的薄膜叫卵圓窗。更高的壓力是必要的,因為在卵圓窗之外的內耳包含的是分泌液而不是空氣。經過聽骨鏈的聲音並非平均地被放大。中耳肌肉的聽覺反射幫助保護內耳免受損傷。中耳仍然以波形式包含聲音資訊,然後聲音資訊會在耳蝸被轉換成神經衝動。

內耳包含耳蝸和幾個非聽覺的結構。耳蝸由三個充滿淋巴液的空腔組成,並支援分泌液波被壓力驅使橫跨基底膜分離兩部分。明顯地,一部分叫耳蝸管或[蝸管]],包含一種與內淋巴(通常在細胞裡面的)成分相似的細胞外液。柯蒂氏器形成一緞知覺上皮,它縱長向下整個耳蝸。柯蒂氏器的毛細胞把分泌液波變換成神經訊號。十億根神經的行程的第一步就在這裡開始,從這裡進一步帶到一系列廣泛的聽覺反應和知覺。

毛細胞是柱狀的細胞,每個上面都有100-200束特有的纖毛。這些纖毛是聽力的機械感應器。輕微靜止在最長的纖毛上面的是覆膜,它以每個聲音週期來前後移動,傾斜纖毛,並允許電流進入毛細胞。毛細胞,就像眼睛的光感受器,它顯示的不是其它神經元的動作電位的表現特徵,而是其等級反應。這些被等級反應不被動作電位的“所有或沒有任何”特點限制。這時,你也許問多少擺動的頭髮會觸發在膜潛力上的差別。當前的模型是,纖毛以“頂尖連線”(連線一纖毛頂尖到另一個一纖毛頂尖的結構)來互相依附著另一個。伸展和壓縮頂尖連線會開啟一個離子通道和導致在毛細胞上產生感受器電位。

耳蝸裡,毛細胞遠比傳入神經纖維少。受神經支配耳蝸的神經是前庭耳蝸神經,或腦神經viii。神經細胞的樹狀突受神經支配耳蝸毛細胞。神經傳送體本身被認為是穀氨酸。在神經原突觸前的會合處,有一個分明\"神經原突觸前的\"密集體\"或帶。這密集體被突觸神經泡圍繞,並被認為幫助快速釋放神經傳送體。由腦部到耳蝸的傳出投射也充當著聲音感知的角色。傳出突觸發生在外毛細胞的和內毛細胞之下的輸入樹狀突。

這些聲音的資訊,現在重新被編碼,透過部分的腦幹(例如,耳蝸核和下丘)沿著聽覺神經移下,進一步在各個小站被處理。資訊最終到達丘腦,並且從那裡它被傳遞到腦皮層。

那麼,作為仿生學的人工智慧,就需要用電子元件來實現聲音的採集、傳輸、編碼、轉換和譯碼,然後以顯示屏來代替大腦的感知來顯示收集到的聲音所代表的文字或物體。

另外,代替大腦感知的還應該有一個晶片或芯片組,來分析和處理所聽到的聲音中,那些是需要過濾掉的,哪些是需要送到下一個部件進行具體處理的。

如果,楊小樂能將這個聽覺系統設計得如同設想的一樣,那麼就標誌著他已經踏進了人工智慧的殿堂,因為,語言就是一個具備模糊和不確定、並且阻擾機器智能化的因素之一。

就比如,我們平常聊天時一樣,我們把別人說的話經耳朵送入大腦後,經大腦分析和思考之後,確定哪些詞我們需要注意、並回答,哪些可以忽略。

所以,如何將人說的話,透過聲電轉換,再編碼成一定格式的數據流,然後在晶片或芯片組中譯碼還原,並與資料庫中的資料進行比對,提取出對應的字型檔,一路送到顯示屏進行顯示,另一路送到邏輯分析電路,對這句句話進行分析,以判斷是否需要對這句話進行處理。

那麼,問題就來了,聲電轉換之後,編成什麼樣的格式?晶片或芯片組能用現成的cpu晶片嗎?需要對應的作業系統嗎?資料庫怎麼建立?字型檔是硬體化還是軟體化?怎麼設計邏輯分析電路?是用cpu加作業系統還是另外設計?

楊小樂躺在床上,越想越頭疼,越想越是勇氣不足。

前世的機器人聽覺系統主要是對人的聲音進行語音識別並做出判斷,然後輸出相應的動作指令控制頭部和手臂的動作,傳統的機器人聽覺系統一般是以pc機為平臺對機器人進行控制,其特點是用一臺計算機作為機器人的信息處理核心透過介面電路對機器人進行控制,雖然處理能力比較強大,語音庫比較完備,系統更新以及功能拓展比較容易,但是比較笨重,不利於機器人的小型化和複雜條件下進行工作,此外功耗大、成本高。

小型化和複雜條件下工作的機器人的聽覺系統,在前世基本上都是由於微型處理器效能的提高促進了機器人的迅速發展,特別是大存儲量及高速運算dsp處理晶片的出現使機器人在離線狀態下,獨立完成複雜的語音信號處理和動作指令成為可能。

因此數字信號處理dsp的出現,簡化了機器人聽覺系統的電路結構,只有四個元件就構成了聽覺系統:麥克風、語音處理晶片、dsp晶片和資料庫(flash)晶片,而聽覺系統的大腦就是fpga晶片。

也就是說,聽覺系統的系統硬體分為語音訊號的採集和播放,基於dsp的語音識別,fpga動作指令控制、步進電機及其驅動、dsp外接(flash也叫快閃記憶體)快閃記憶體晶片,jtag口模擬除錯和鍵盤控制幾個部分。

而工作流程是麥克風將人的語音訊號轉化為模擬信號,在經過音頻芯片量化轉化成數字信號輸入dsp.dsp完成識別後,輸出動作指令。

fpga根據dsp輸入的動作指令產生正確的正反轉訊號和準確的脈衝給步進電機驅動晶片,驅動晶片提供步進電機的驅動訊號,控制步進電機的轉動。片外flash用於存儲系統程式和語音庫並完成系統的上電載入。jtag口用於與pc機進行聯機線上模擬,鍵盤則用於引數調整和功能的切換。

這裡的dsp晶片主要就是作為語音識別處理器,它具有較快的處理速度,可以使機器人在離線狀態下,獨立完成複雜的語音信號處理和動作指令控制。

而fpga系統的開發降低了時序控制電路和邏輯電路在pcb板所佔的面積,使機器人的\"大腦\"的語音處理部分實現了微型化、低功耗。

因此,一個體積小、低功耗、高速度能完成特定範圍語音識別和動作指令的機器人系統的研製具有很大的實際意義。

而dsp晶片在前世最早出現於1978年,而在dsp出現之前數字信號處理只能依靠微處理器來完成。

但由於微處理器較低的處理速度不快,根本就無法滿足越來越大的信息量的高速實時要求,因此應用更快更高效的信號處理方式成了日漸迫切的社會需求。

到了70年代,有人提出了dsp的理論和演算法基礎,但那時的dsp僅僅停留在教科書上,即使是研製出來的dsp系統也是由分立元件組成的,其應用領域僅侷限於軍事、航空航天部門。

一般認為,世界上第一個單片dsp晶片是1978年ami公司釋出的s2811。1979年美國intel公司釋出的商用可編程器件2920是dsp晶片的一個主要里程碑。這兩種晶片內部都沒有現代dsp晶片所必須有的單週期乘法器。1980年,日本nec公司推出的mpd7720是第一個具有硬體乘法器的商用dsp晶片,從而被認為是第一塊單片dsp器件。

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀