![]()
通過感知他人的行為來模仿運(yùn)動,是人類的本能。比如,嬰兒通過傾聽大人的聲音來咿呀學(xué)語,學(xué)徒通過觀察師傅的動作來掌握技藝。但這種根植于生物的感知-動作閉環(huán)機(jī)制,對于機(jī)器人而言,卻是難以復(fù)刻的難題。
近日,南加州大學(xué)(USC)的科學(xué)家們開發(fā)了一只四指機(jī)械手,它只需經(jīng)過 2 分鐘的鍵盤自學(xué)練習(xí),聽一遍陌生的旋律,就能將其完美演奏出來,完全不依賴樂譜或預(yù)設(shè)程序的指導(dǎo)。相關(guān)論文發(fā)表在 Journal of the Royal Society Interface 期刊。
領(lǐng)導(dǎo)這項(xiàng)研究的是 USC 維特比工程學(xué)院的弗朗西斯科·瓦萊羅-奎瓦斯 (Francisco Valero-Cuevas) ,他的實(shí)驗(yàn)室致力于研究復(fù)雜神經(jīng)肌肉系統(tǒng)(例如人手)的生物力學(xué)、神經(jīng)肌肉控制和臨床康復(fù)。
![]()
圖 | 音樂家之手(來源:USC)
這套被稱為“音樂家之手”(Musician Hand)的系統(tǒng),包括由肌腱驅(qū)動的四指機(jī)械手,以及一套全新的感知學(xué)習(xí)算法。
機(jī)械手采用輕量化 3D 打印結(jié)構(gòu),四個(gè)手指由微型電機(jī)控制的肌腱驅(qū)動。手指上安裝了彈簧,能像人體肌肉張力一樣被動回位,確保動作靈活且富有彈性。指尖還包裹了泡沫材料,模擬人類指腹的柔軟觸感,對在力度敏感的鋼琴鍵盤上演奏較為重要。其內(nèi)置的神經(jīng)網(wǎng)絡(luò)會分析旋律的聲音,并將其轉(zhuǎn)化為重現(xiàn)該旋律所需的運(yùn)動指令。
圖 | 音樂家之手概述(來源:上述論文)
與依賴大量編程和海量訓(xùn)練數(shù)據(jù)集的傳統(tǒng)機(jī)器人不同,這款機(jī)械手的訓(xùn)練過程類似于嬰兒時(shí)期的“咿呀學(xué)語”。在 2 分鐘的時(shí)間里,機(jī)械手會在琴鍵上隨機(jī)亂按。在亂按的過程中,它的內(nèi)部算法會記錄下什么樣的按鍵動作(力度和時(shí)間)會產(chǎn)生什么樣的聲音(頻率和強(qiáng)度)。
經(jīng)過 2 分鐘的訓(xùn)練后,再次聽到一段全新的旋律時(shí),系統(tǒng)會將這段聲音轉(zhuǎn)化為聲譜圖,并直接調(diào)用之前積累的經(jīng)驗(yàn),推導(dǎo)出需要哪些手指動作來重現(xiàn)這段旋律,全程不需要任何試錯(cuò)糾正。
為了驗(yàn)證效果,研究團(tuán)隊(duì)專門請兩位作曲家創(chuàng)作了三首只使用四個(gè)相鄰琴鍵(C4、D4、E4、F4)的簡單旋律,每首時(shí)長約 20-30 秒,節(jié)奏統(tǒng)一在每分鐘 90 拍。
![]()
圖 | 三首旋律的樂譜(來源:上述論文)
團(tuán)隊(duì)選擇了9 位人類參與者,包括 4 位訓(xùn)練有素的鋼琴手(3 位專業(yè)演奏者和 1 位業(yè)余愛好者,均有鋼琴演奏的訓(xùn)練和經(jīng)驗(yàn))和 5 位無任何鋼琴基礎(chǔ)的新手,他們被允許“咿呀學(xué)語”5 分鐘,然后練習(xí) 3 分鐘,最后有 1 分鐘時(shí)間正式演奏。機(jī)械手則只經(jīng)過 2 分鐘隨機(jī)探索,就直接聽一遍演奏。研究主要評估了他們在復(fù)刻旋律 1(有 37 個(gè)音符)上的表現(xiàn)。
結(jié)果顯示,在音符識別準(zhǔn)確率上,機(jī)械手達(dá)到了 100%,完整復(fù)現(xiàn)了三首旋律的所有音符;而新手參與者僅能正確彈出前 2-3 個(gè)音符,準(zhǔn)確率僅 6%-9%,無法完成完整演奏。專業(yè)鋼琴演奏者的音符準(zhǔn)確率為 92%-100%,一位演奏得完美無缺,其他人在演奏 37 個(gè)音符時(shí)犯了 1 到 4 個(gè)錯(cuò)誤。
在力度還原度上,機(jī)器人得分 68%,專業(yè)演奏者為 78%-100%,略勝一籌;節(jié)奏時(shí)差方面,機(jī)器人控制在 150 毫秒左右,專業(yè)演奏者低于 120 毫秒,同樣小幅領(lǐng)先。
研究人員還對機(jī)械手和 5 位鋼琴家彈奏的音樂片段,進(jìn)行了感知相似性、聽覺相似性和節(jié)奏相似性的量化。對于所有三個(gè)指標(biāo),得分為 0 表示無相似性(特征完全不同),0.5 表示中等相似性(有一些共享特征,但在頻譜圖和短期功率譜上有重大差異),1 表示完全相似(特征相同)。
對于旋律 1,“音樂家之手”在所有三個(gè)指標(biāo)上取得了與四位人類鋼琴家相當(dāng)?shù)南嗨菩缘梅郑瑑烧叩牡梅志?0.9+ 范圍內(nèi)。
![]()
(來源:上述論文)
在盲聽環(huán)節(jié),兩位專業(yè)作曲家進(jìn)行盲聽打分,不看演奏者、僅聽演奏音頻,評估它們與原曲在音樂美感上的相似度。最終排名結(jié)果為:3 位專業(yè)鋼琴手位列前三,機(jī)械手排名第四,超過一名業(yè)余鋼琴手,碾壓所有新手參與者。
隨后,研究人員又讓機(jī)械手嘗試了其他兩首音樂(分別有 28 和 24 個(gè)音符),在沒有額外“咿呀學(xué)語”或練習(xí)的情況下,它依然完美地彈奏出了所有音符,展現(xiàn)出了強(qiáng)大的泛化能力。
機(jī)械手同樣準(zhǔn)確識別了所有音符,在力度還原上,其在旋律 2 上的分?jǐn)?shù)為 84%,在旋律 3 上為 70%。最后,其平均節(jié)奏時(shí)差在旋律 2 上為 135 毫秒,在旋律 3 上為 150 毫秒。
![]()
圖 | 定量結(jié)果:音符檢測、力度估計(jì)、節(jié)奏時(shí)差(來源:上述論文)
這臺會聽音彈琴的機(jī)械手,實(shí)際上是研究團(tuán)隊(duì)對“感知機(jī)器人”理念的一次深度概念驗(yàn)證。在這一全新框架下,機(jī)器系統(tǒng)不再依賴于海量數(shù)據(jù)訓(xùn)練,而是能夠主動感知環(huán)境、自主試錯(cuò)并完成自我糾正。研究人員相信,這種模式未來將比現(xiàn)有的任務(wù)驅(qū)動型機(jī)器人更能以貼近直覺、極具個(gè)性化的方式造福人類。
比如瓦萊羅-奎瓦斯描繪的愿景:對于帕金森病患者而言,現(xiàn)有的輔助技術(shù)往往難以跟上患者身體變化的步伐。但在確診初期穿上機(jī)器外骨骼,用幾天時(shí)間去教它走路的樣子,伸手的方式......隨著病情的發(fā)展,當(dāng)患者再次穿上它并開啟輔助模式時(shí),它就能幫你原汁原味地找回專屬于你自己的生活習(xí)慣。不需要專門進(jìn)行繁瑣的定制編程,因?yàn)樗呀?jīng)懂你了。
此外,這項(xiàng)研究的一作、專注于神經(jīng)工程研究的赫薩姆·阿扎朱(Hesam Azadjou)也指出了該技術(shù)在治療領(lǐng)域的潛力。未來的康復(fù)機(jī)器人可以先拜師學(xué)習(xí)理療師的專業(yè)手法,隨后在患者家中充當(dāng)私人教練,并能夠根據(jù)每位患者實(shí)時(shí)的動作和身體反饋,動態(tài)調(diào)整康復(fù)訓(xùn)練計(jì)劃。
研究人員表示,只要投入足夠的時(shí)間與資源,同樣的系統(tǒng)完全可以用來輔助中風(fēng)患者的康復(fù)、與建筑工人并肩協(xié)作,甚至幫助年邁的老人安全、獨(dú)立地實(shí)現(xiàn)居家養(yǎng)老。
1.Hesam Azadjou, Ali Marjaninejad, Francisco J. Valero-Cuevas; Perception in action: a robotic system that can teach itself to melodiously play music by ear. J R Soc Interface 1 May 2026; 23 (238): 20250909. https://doi.org/10.1098/rsif.2025.0909
運(yùn)營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.