麻省理工新ML模型 用「聲音」建構空間
麻省理工學院(MIT)和MIT-IBM Watson AI Lab的研究人員開發了一種特別的機器學習模型與「聲音」有關。透過捕捉到房間裡的任何聲音如何在空間中傳遞,讓模型可以模擬聽眾在不同位置聽到的聲音。該系統可以經由空間聲學建模,以學習空間的基本3D幾何。
該技術有可能可以應用在AR和VR上,以及協助人工智慧代理(artificial-intelligence agent) 更好發展對周圍世界的理解。因為目前的建模方式基本上都只注重視覺的部分,但用聲音來模擬也很重要。想像一下,若透過聲音建模,這對於水下探索機器人來說,可能可以感知到比視覺更遠的東西。
原先研究團隊運用了類似於隱式神經表示模型(implicit neural representation model)的機器學習模型來取得聲音在空間的傳播。隱式神經表示模型透過神經網路(neural networks)處理數據以完成任務。
經過一番嘗試後,研究團隊發現視覺模型的光度一致性(photometric consistency)並不適用於聲音。若我們以眼睛看物體,無論在什麼位置觀看物體都看起來差異不大,但是聲音會因為位置不同而有所差異,因為聲音會受到障礙物和距離等因素的影響。而這無異於讓預測聲音有一定挑戰性。
因此,研究團隊決定利用聲音的兩種特性來克服上述問題,即聲音的「對等性」和局部幾何特色的影響。「對等性」意味著聲源和聽者互換位置,聽者聽到的聲音是不變的。另外,聽者在特定區域聽到的聲音會受區域特徵影響,如聽者和聲源之間的障礙物。
為了讓研究團隊的neural acoustic field模型(NAF)也能具有這兩種特性,研究團隊透過網格來加強神經網路,該網格可以捕捉了場景中的物體和建築特徵。而該模型會在網格上取樣,以學習特定位置的特徵。這樣的方式讓NAF比起其他聲學模型方法,能建構出更精確的模型,因為NAF學習了局部位置的幾何訊息,這有助於NAF推算空間的位置。(編譯/施毓萱)
資料來源:MIT News
瀏覽 640 次