本期為 Springer 旗下 Autonomous Robots 期刊 2018年6月特刊,主題為人機(jī)協(xié)作(Human-Robot Collaboration)中的學(xué)習(xí)。
https://link.springer.com/journal/10514/volumes-and-issues/42-5link.springer.com本期共收錄10篇文章,涵蓋了協(xié)同操縱、醫(yī)療機(jī)器人和社交行為等方向。
引言:機(jī)器人一度被隔離在安全防護(hù)欄之內(nèi),但正在逐漸與人類共享使用空間,包括生產(chǎn)線、家里、博物館或者醫(yī)院。在這些使用情況下,人與機(jī)器人的協(xié)作(Human-Robot Collaboration, HRC)變得至關(guān)重要,給機(jī)器人算法帶來了新的挑戰(zhàn)。機(jī)器人必須了解人類協(xié)作者的意圖并傳達(dá)自己的意圖,預(yù)測(cè)人類行為并適應(yīng)其行為,決定何時(shí)主導(dǎo)任務(wù)或協(xié)助人類操作者。這需要機(jī)器人可以執(zhí)行不同的任務(wù),并迅速適應(yīng)用戶的動(dòng)作和需求,這種適應(yīng)性使得學(xué)習(xí)(Learning)成為協(xié)作機(jī)器人的關(guān)鍵需求。
Paper 1: Progress and Prospects of the Physical Human–Robot Collaboration
本文主要回顧了人機(jī)接口(Human-Robot Interfaces)、控制方法、系統(tǒng)穩(wěn)定性、基準(zhǔn)和相關(guān)實(shí)例的最新進(jìn)展,并對(duì)無縫的人-機(jī)器人-環(huán)境交互進(jìn)行展望。
機(jī)器人感知接口:致力于提升機(jī)器人感知人類行為的能力,目前涵蓋視覺、力反饋、生物信號(hào)、評(píng)估人類生理或情緒狀態(tài)、語言命令、多模態(tài)接口等研究方向。
人類感知接口:利用人類發(fā)達(dá)的觸覺反饋、視覺反饋(VR)、電子皮膚、紋理信息、機(jī)械壓力等手段提高人機(jī)交互速度和機(jī)器反應(yīng)時(shí)間。
互動(dòng)方式:給機(jī)器人交互過程賦予多種策略,包括阻抗控制框架、高斯混合模型預(yù)測(cè)意圖、動(dòng)態(tài)角色互換機(jī)制、視覺感知跟蹤人體運(yùn)動(dòng)、根據(jù)人類工作者狀態(tài)主動(dòng)觸發(fā)交互行為、隱馬爾科夫模型在線預(yù)測(cè)、多模態(tài)交互方式等。
穩(wěn)定性:考慮到即使人和機(jī)器人兩個(gè)系統(tǒng)獨(dú)立穩(wěn)定時(shí),耦合后的人機(jī)系統(tǒng)也可能是不穩(wěn)定的,分析人機(jī)協(xié)作系統(tǒng)在不同的相互作用情況下的穩(wěn)定性至關(guān)重要。此外透明度Transparency(順應(yīng)操作者意圖)、可讀性(易于被人類理解的運(yùn)動(dòng)意圖)、預(yù)測(cè)能力也是人機(jī)協(xié)作中的重要因素。
基準(zhǔn)與相關(guān)實(shí)例:基準(zhǔn)部分包括心理評(píng)估基準(zhǔn)、基準(zhǔn)測(cè)試應(yīng)用程序、機(jī)器人擬人化、人體工程學(xué)等方面。應(yīng)用部分包括建筑工地微型挖掘機(jī)、康復(fù)機(jī)器人、觸覺指導(dǎo)手杖、工業(yè)協(xié)同裝配、協(xié)作操縱非剛性物體(如疊桌布)等方面。
https://link.springer.com/article/10.1007/s10514-017-9677-2link.springer.comAjoudani, A., Zanchettin, A.M., Ivaldi, S.et al. Progress and prospects of the human–robot collaboration. Auton Robot 42,957–975 (2018).
Paper 2: Early prediction for physical human robot collaboration in the operating room
本文研究了手術(shù)室中協(xié)作機(jī)器人的任務(wù)轉(zhuǎn)換預(yù)測(cè)(Turn-taking Prediction),即機(jī)器人需要了解人類同伴正在進(jìn)行的動(dòng)作,預(yù)測(cè)下一步動(dòng)作并進(jìn)行相應(yīng)操作。這種早期預(yù)測(cè)能力可以準(zhǔn)確預(yù)測(cè)任務(wù)轉(zhuǎn)換的準(zhǔn)確時(shí)間,盡早開始運(yùn)動(dòng)計(jì)劃和執(zhí)行以平滑過渡,這種主動(dòng)行為可以減少協(xié)作者等待時(shí)間,提高任務(wù)執(zhí)行效率。
本文提出了一種手術(shù)室中使用的護(hù)士機(jī)器人用以緩解護(hù)士人力資源緊張,該機(jī)器人可以理解外科醫(yī)生的多模式信息(包括語言型顯式信息和姿態(tài)型隱式信息)并進(jìn)行預(yù)測(cè)。測(cè)試結(jié)果表明,在給出很少的部分輸入時(shí)(30%的全部動(dòng)作),該機(jī)器人精度比人類更高;當(dāng)數(shù)據(jù)量更大時(shí),該機(jī)器人精度與人類相當(dāng)。硬件采用了Myo臂章、Epoc耳機(jī)和Kinect運(yùn)動(dòng)感知器件用以檢測(cè)醫(yī)生的多模態(tài)信號(hào),保留相關(guān)特征并用LSTM網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),使用Demspter-Shafer方法融合不同預(yù)測(cè)結(jié)果,隨后觸發(fā)運(yùn)動(dòng)規(guī)劃算法,拾取正確的器械交給醫(yī)生。
Zhou, T., Wachs, J.P. Early prediction for physical human robot collaboration in the operating room. Auton Robot 42,977–995 (2018).
Paper 3: Skill-based human–robot cooperation in tele-operated path tracking
本文提出了一種基于共享控制的遙操作框架,并且能適應(yīng)不同操作者的操作能力。使用常規(guī)機(jī)器學(xué)習(xí)方法提取運(yùn)動(dòng)與任務(wù)相關(guān)的特征,并評(píng)估操作人員在執(zhí)行遙操作任務(wù)多方面的技能水平。評(píng)估出的技能水平用于相應(yīng)地修改機(jī)器人的行為,防止對(duì)熟練操作者進(jìn)行不必要的限制。
另外部署了四個(gè)輔助方法,三個(gè)觸覺輔助用運(yùn)動(dòng)學(xué)指導(dǎo)來改善任務(wù)性能,另外一種輔助方法用來幫助操作人員與主設(shè)備進(jìn)行交互并避免工作空間限制,以上四種分別為Guidance active constraint, Isotropic viscosity, Elastic penetration constraint, and Master workspace helper (MWH).
Enayati, N., Ferrigno, G. & De Momi, E. Skill-based human–robot cooperation in tele-operated path tracking. Auton Robot 42,997–1009 (2018).
Paper 4: Robot adaptation to human physical fatigue in human–robot co-manipulation
本文提出一種新的人機(jī)協(xié)作方法,機(jī)器人的行為可以隨著操作者的疲勞程度而在線適應(yīng)。機(jī)器人以跟隨者的身份模仿人類操作,逐漸學(xué)習(xí)與任務(wù)執(zhí)行相關(guān)的參數(shù)和軌跡。同時(shí)機(jī)器會(huì)檢測(cè)操作者的疲勞程度,當(dāng)操作者達(dá)到預(yù)定義的疲勞程度時(shí),機(jī)器將接管部分對(duì)體能有要求的任務(wù),使得操作者可以恢復(fù)體力。
本文通過EMG測(cè)得的人類肌肉力量模型來估計(jì)協(xié)作者的疲勞程度。在協(xié)作任務(wù)執(zhí)行的初始階段,機(jī)器人學(xué)習(xí)物理行為(參考軌跡)。使用動(dòng)態(tài)運(yùn)動(dòng)基元(Dynamical Movement Primitives, DMP)對(duì)機(jī)器人的運(yùn)動(dòng)軌跡進(jìn)行編碼,這些運(yùn)動(dòng)軌跡是通過局部加權(quán)回歸(Locally Weighted Regression)在線獲得的。機(jī)器人使用自適應(yīng)頻率振蕩器(Adaptive Frequency Oscillators)估計(jì)所需的任務(wù)執(zhí)行速度,并控制學(xué)習(xí)的DMP的相位和頻率。本文在材料切割和表面拋光上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
Peternel, L., Tsagarakis, N., Caldwell, D.et al. Robot adaptation to human physical fatigue in human–robot co-manipulation. Auton Robot 42,1011–1021 (2018).
Paper 5: Human robot cooperation with compliance adaptation along the motion trajectory
本文提出了一種直觀的人機(jī)交互協(xié)同方法,通過對(duì)人類操作者演示行為的初步學(xué)習(xí),機(jī)器人的行為演變成一項(xiàng)協(xié)作任務(wù),人類協(xié)作者可以在任何階段修改運(yùn)動(dòng)軌跡以及執(zhí)行速度。本方法主要特征是:機(jī)器人在Frenet-Serret框架下的操作路徑中調(diào)整剛度(stiffness),通過將機(jī)器人在操作空間中的動(dòng)力學(xué)解耦來得到所需動(dòng)力學(xué)性能,原始速度動(dòng)態(tài)動(dòng)作用于底層任務(wù)描述(Speed-scaled dynamic motionprimitives are applied for the underlying task representation.)該方法降低了人類操作者動(dòng)作精度要求,高精度操作可以由機(jī)器人進(jìn)行彌補(bǔ),人類操作者還可以通過簡(jiǎn)單地施加力來改變運(yùn)動(dòng)軌跡和速度。
Nemec, B., Likar, N., Gams, A.et al. Human robot cooperation with compliance adaptation along the motion trajectory. Auton Robot 42,1023–1035 (2018).
Paper 6: Co-manipulation with a library of virtual guiding fixtures
虛擬引導(dǎo)固定裝置(Virtual guiding fixtures)將機(jī)器人的運(yùn)動(dòng)限制在與任務(wù)相關(guān)的軌跡上,并且已成功應(yīng)用于外科手術(shù)和制造過程中。區(qū)別于此前工作考慮的針對(duì)單個(gè)任務(wù)的引導(dǎo)裝置,本文考慮了多個(gè)任務(wù)的引導(dǎo)裝置庫,并提出以下方法:1)基于機(jī)器學(xué)習(xí)創(chuàng)建和添加引導(dǎo);2)根據(jù)概率在線選擇相應(yīng)引導(dǎo)裝置;3)基于增量學(xué)習(xí)(incremental learning)完善現(xiàn)有引導(dǎo)。實(shí)例證明了在工業(yè)任務(wù)中,引導(dǎo)裝置庫提供了一個(gè)直觀的觸覺界面,用于人機(jī)協(xié)作完成任務(wù),并提高了操作者的心理狀態(tài)及減少錯(cuò)誤。
Raiola, G., Restrepo, S.S., Chevalier, P.et al.Co-manipulation with a library of virtual guiding fixtures.Auton Robot42,1037–1051 (2018).
Paper 7: One-shot learning of human–robot handovers with triadic interaction meshes
提出了一種模仿學(xué)習(xí)方法,使得機(jī)器人可以無縫的檢索對(duì)象并交給人類使用者。區(qū)別于手工編碼交互參數(shù),本文從兩個(gè)人的演示過程中提取相關(guān)信息,例如關(guān)節(jié)相關(guān)性和空間關(guān)系。本方法核心為交互模型(Interaction Model),該模型使得機(jī)器人能夠?qū)⒂^察到的演示操作從時(shí)間和空間上推廣到新的情況。為此,提出了一種數(shù)據(jù)驅(qū)動(dòng)的方法,用于生成將兩個(gè)交互伙伴鏈接到被操作對(duì)象的交互網(wǎng)絡(luò)。實(shí)驗(yàn)表明人與人之間的任務(wù)演示可以訓(xùn)練出人與機(jī)器人的無縫交互。
Vogt, D., Stepputtis, S., Jung, B.et al. One-shot learning of human–robot handovers with triadic interaction meshes. Auton Robot 42,1053–1065 (2018).
Paper 8: Learning proactive behavior for interactive social robots
本文提出一種從人與人的交互過程中學(xué)習(xí)機(jī)器與人社交行為的方法,選取了照相店主與客戶交互行為作為訓(xùn)練場(chǎng)景。通過檢測(cè) yield interactions, 合并交互歷史,以及使用注意力機(jī)制來了解哪些歷史步驟對(duì)于預(yù)測(cè)機(jī)器人行為。該方法可以再現(xiàn)機(jī)器人的反應(yīng)行為(如回答問題),而且可以再現(xiàn)從人與人交互中學(xué)習(xí)到的前瞻性行為(如提供未經(jīng)請(qǐng)求的信息)。這種框架下的機(jī)器人能產(chǎn)生更主動(dòng)的行為,更有效的與客戶進(jìn)行互動(dòng),擴(kuò)展以往工作中的數(shù)據(jù)驅(qū)動(dòng)型方法來重現(xiàn)店員行為,提高與真實(shí)世界的交互能力。
Liu, P., Glas, D.F., Kanda, T.et al. Learning proactive behavior for interactive social robots. Auton Robot 42,1067–1085 (2018).
Paper 9: Hierarchical emotional episodic memory for social human robot collaboration
對(duì)于社交型人機(jī)協(xié)作,機(jī)器人需要有效地記住人的經(jīng)歷并管理情感經(jīng)歷和重復(fù)性經(jīng)歷。為了實(shí)現(xiàn)這些功能,本文提出使用深度自適應(yīng)共振理論網(wǎng)絡(luò)(deep adaptive resonance theory network)的分層情緒情節(jié)記憶。這種記憶不僅可以學(xué)習(xí)情緒經(jīng)歷,也可以預(yù)測(cè)未來情緒狀況。本文提供了兩個(gè)參數(shù)設(shè)置環(huán)節(jié),即延遲合并(delayed consolidation)和即時(shí)更新(instant update), 使得情感經(jīng)歷得到更快的增強(qiáng),保持更長(zhǎng)的時(shí)間,并且對(duì)類似體驗(yàn)變得更加穩(wěn)定和敏感。在廚房環(huán)境中進(jìn)行了一項(xiàng)實(shí)驗(yàn),以演示社交型人機(jī)協(xié)作。
Lee, W., Kim, J. Hierarchical emotional episodic memory for social human robot collaboration. Auton Robot 42,1087–1102 (2018).
Paper 10: Efficient behavior learning in human–robot collaboration
本文為機(jī)器人提供了一種新穎的方法,可以在執(zhí)行人機(jī)協(xié)同任務(wù)時(shí)進(jìn)行交互式學(xué)習(xí),并適應(yīng)人類的任務(wù)執(zhí)行偏好。考慮到不同操作者具有不同的能力、經(jīng)驗(yàn)和個(gè)人偏好,我們?cè)噲D使機(jī)器人學(xué)習(xí)任務(wù)和用戶的偏好,以提供更有效的協(xié)同執(zhí)行能力,本文主要采用多智能體協(xié)作模型下半馬爾可夫決策過程(Multi-agent collaboration semi-Markov decision),并展示了如何對(duì)團(tuán)隊(duì)行為進(jìn)行建模并了解預(yù)期機(jī)器人行為。
本文提出了一種交互式學(xué)習(xí)系統(tǒng),允許機(jī)器人學(xué)習(xí)以協(xié)助操作人員,分為交互式學(xué)習(xí)、融合訓(xùn)練和執(zhí)行三個(gè)階段,具有以下有點(diǎn):1)只要對(duì)任務(wù)有信心,就可以利用當(dāng)前執(zhí)行數(shù)據(jù)開始自動(dòng)執(zhí)行操作,使得教學(xué)過程更短更輕松,因?yàn)闄C(jī)器人在執(zhí)行確定正確的動(dòng)作時(shí)可以自動(dòng)執(zhí)行操作;2)如果某些部分執(zhí)行錯(cuò)誤,嘖可以使用新的經(jīng)驗(yàn)和用戶反饋來修正學(xué)習(xí)行為,或者如果預(yù)期行為發(fā)生變化,則采用新的訓(xùn)練和反饋。
Munzer, T., Toussaint, M. & Lopes, M. Efficient behavior learning in human–robot collaboration.Auton Robot42,1103–1115 (2018).