當前,全球范圍內(nèi)前沿技術(shù)與顛覆性技術(shù)正以前所未有的速度實現(xiàn)突破,新一輪科技革命和產(chǎn)業(yè)變革正在加速推進,科學技術(shù)對社會經(jīng)濟發(fā)展的影響變得更為直接、迅速且廣泛。機器人正處于一個重要的轉(zhuǎn)折點上,人工智能、大數(shù)據(jù)、新材料、新型傳感、生物仿生等多種技術(shù)迅速崛起,并與機器人加速融合,推動機器人向更智能、更高效、更靈活和更安全的方向發(fā)展,不斷拓寬機器人技術(shù)和應(yīng)用的邊界。
相關(guān)技術(shù)的飛速發(fā)展,使得對機器人未來發(fā)展的預(yù)測已經(jīng)難以用傳統(tǒng)的線性方式加以推斷。在此背景下,2024年美國《機器人路線圖》放棄制定此前一貫的5年、10年和15年的愿景與目標,不再以明確的時間框架推動技術(shù)的發(fā)展,轉(zhuǎn)而更側(cè)重于表達趨勢和方向,共提出物理具身、操作、感知、控制、規(guī)劃、邊緣AI、機器學習和與人交互八個研究方向,以保持可持續(xù)發(fā)展和確保美國成為機器人技術(shù)的領(lǐng)導者之一。以下是對這八個研究方向的簡要概述。
物理具身
物理具身指的是智能不能僅以抽象算法的形式存在,而需要一個物理身體與世界互動,機器人系統(tǒng)是具身智能的體現(xiàn)。
軟體機器人技術(shù)
軟體機器人技術(shù)運用軟材料和結(jié)構(gòu)設(shè)計、制造和控制機器人系統(tǒng),并借助形態(tài)計算簡化與外界的交互。為模擬生物的多功能性,需在材料、制造、建模和控制上不斷創(chuàng)新。借助生成設(shè)計和多材料增材制造等前沿設(shè)計與制造方法,軟體機器人技術(shù)或?qū)⒊缴飭l(fā),實現(xiàn)新的物理能力。數(shù)字化生產(chǎn)和即時制造為個性化機器人設(shè)計帶來新機遇,實現(xiàn)軟性與剛性組件的無縫過渡。
作動與動力
創(chuàng)建高力量、長壽命、低成本的機器人作動與動力系統(tǒng)仍具挑戰(zhàn)。動物的肌肉和新陳代謝被視為黃金標準,工程系統(tǒng)尚未企及。電磁作動器適用于剛性機器人但功率重量比待提升。液壓系統(tǒng)功率高但不適于移動機器人。氣動作動器適用于軟體機器人但控制難。智能材料如電活性聚合物、HASEL作動器,有優(yōu)勢但力量小,并需專用電源。作動技術(shù)和電源存儲/傳輸系統(tǒng)的新突破將幫助機器人實現(xiàn)長期移動性、安全性和強度。
感知
對于軟體機器人,感知能力尤為關(guān)鍵。生物體擁有密集的感知系統(tǒng),同時監(jiān)測外界與自身。應(yīng)推動柔性及軟性傳感器與軟體機器人的融合,集成多類型傳感器信息,并有效利用這些信息,以建模并控制軟體機器人執(zhí)行精細操作、狹窄空間移動及安全人機交互等復雜任務(wù)。
操作
目前,機器人操作器面臨著成本高、通用性不足的雙重挑戰(zhàn)。為克服這些不足,可以開展以下研究活動。
發(fā)展先進的抓握機制:利用仿生學和軟體機器人的概念來設(shè)計多功能抓握機構(gòu);探索柔韌性和適應(yīng)性突出的新材料;開發(fā)功能性的非傳統(tǒng)抓握器設(shè)計。
加強先進的觸覺感知:開發(fā)密集、耐磨的觸覺傳感器,并能完全覆蓋操作器;創(chuàng)建復雜的算法,將密集的感知信號解釋為可操作的運動策略。
基于學習的控制策略:通過應(yīng)用機器學習和強化學習技術(shù),使機器人能夠適應(yīng)性地控制操作任務(wù),并通過反復試驗學習新技能,并將學到的技能轉(zhuǎn)移到不同的機器人平臺上,以增強機器人系統(tǒng)的通用性和效率。
人機協(xié)作領(lǐng)域:提高協(xié)作式機器人系統(tǒng)與人在共享工作空間中的安全性,包括發(fā)展自然語言處理和手勢識別技術(shù),以能確保無縫互動和協(xié)作的安全機制。
復雜環(huán)境中的靈巧操縱:增強機器人系統(tǒng)在動態(tài)雜亂環(huán)境下的操縱能力,包括開發(fā)用于路徑規(guī)劃和避障的先進算法,以及探索多模態(tài)感知技術(shù)的集成。
規(guī)劃和控制的基本算法:穩(wěn)固發(fā)展基本算法,以改善機器人在日常任務(wù)中的穩(wěn)健性、效率和易用性,為新的操作器和傳感器設(shè)計提供更強有力的支持,使學習大模型能夠自我探索。
自主機器人操作:整合用于對象識別和場景理解的復雜感知系統(tǒng);開發(fā)能夠?qū)崿F(xiàn)自主決策和任務(wù)規(guī)劃的算法,并打造動態(tài)抓握和操作策略。
感知
感知是連接機器人與物理世界的關(guān)鍵方式,可以開展以下研究活動。
復雜的高維推斷:高維推斷在計算機視覺中是關(guān)鍵,尤其是在預(yù)測抓取對象等任務(wù)上。這些任務(wù)要求的方法和架構(gòu)與識別或檢測任務(wù)不同。隨著AI和大型語言模型(LLMs)的發(fā)展,系統(tǒng)往往變得像“黑盒子”,缺乏透明度。這不僅影響了機器人的問責性,也影響了人們對機器人的信任。
網(wǎng)絡(luò)安全和計算機視覺:確保網(wǎng)絡(luò)安全與計算機視覺系統(tǒng)設(shè)計緊密融合至關(guān)重要,以避免錯誤預(yù)測和推論。采用對抗性訓練和輸入驗證等方法可有效降低安全風險。
主動感知:目前系統(tǒng)主要被動處理數(shù)據(jù),未能充分利用主動感知和捕獲冗余信息的能力。開發(fā)能夠主動探索環(huán)境的系統(tǒng),將顯著提升其性能。
開放世界的表現(xiàn):計算機視覺系統(tǒng)往往基于封閉世界假設(shè),僅從有限數(shù)據(jù)學習。然而,機器人需適應(yīng)未知刺激和新任務(wù)變化,實現(xiàn)在開放世界中泛化的能力。
與系統(tǒng)集成:視覺系統(tǒng)需與其他系統(tǒng)集成,提供自我性能評估,包括驗證視覺組件或基于視覺系統(tǒng)的方法,并確保輸出與可靠性和不確定性相關(guān)的信息。
系統(tǒng)結(jié)構(gòu):通過圖像任務(wù)進行端到端強化學習,但不利于相似任務(wù)或環(huán)境的遷移。傳統(tǒng)方法分別訓練視覺與動作模塊,但現(xiàn)代視覺模塊在動作或規(guī)劃上的適應(yīng)性受限于可靠性問題。
控制
安全控制:在高度非線性的機器人系統(tǒng)、高維系統(tǒng)、多機器人系統(tǒng)和人機協(xié)同系統(tǒng)中,設(shè)計安全控制器面臨挑戰(zhàn),需對數(shù)據(jù)驅(qū)動型控制器的安全性進行認證,解決實時性能問題,嵌入式控制器或邊緣計算單元上有效運行。
生物啟發(fā)控制:研究新生物機制以設(shè)計控制器,構(gòu)建和利用大規(guī)模數(shù)據(jù)集嚴格設(shè)計控制器,并考慮機器人的傳感器、作動器和通信系統(tǒng)的限制。
控制高維度和不連續(xù)系統(tǒng):機器人與人類和現(xiàn)實環(huán)境的交互會導致系統(tǒng)狀態(tài)的突變,設(shè)計協(xié)調(diào)機器人關(guān)節(jié)執(zhí)行任務(wù)的控制器極具挑戰(zhàn),需開發(fā)混合系統(tǒng)控制器,確保機器人能成功應(yīng)用于現(xiàn)實世界。
機器人機構(gòu)、控制和學習的共同發(fā)展:未來機器人需在材料、設(shè)計、控制、學習、感知和測試等方面實現(xiàn)協(xié)同,優(yōu)化整體性能以適應(yīng)現(xiàn)實任務(wù)?刂葡到y(tǒng)是連接設(shè)計與學習的關(guān)鍵,需進行基礎(chǔ)研究來認證機器人性能,以支持機構(gòu)-控制-學習的整合設(shè)計。
規(guī)劃
隨著機器人繼續(xù)走出實驗室,進入現(xiàn)實世界,它們將繼續(xù)需要規(guī)劃和控制算法,更好地處理它們將遇到的非結(jié)構(gòu)化、不可預(yù)測和更復雜的情況。
不確定性下的規(guī)劃
規(guī)劃方法必須適應(yīng)真實世界的不確定性,優(yōu)先考慮概率方法和那些不依賴于對世界的準確高保真模型;在危險環(huán)境中,評估潛在錯誤的嚴重性和對機器人操作可行性的影響,以避免完全故障;傳統(tǒng)離線規(guī)劃和實時執(zhí)行模型在動態(tài)環(huán)境中效果不佳,而在線規(guī)劃可能因短視錯過更優(yōu)解,實現(xiàn)方法間的平衡是當前的重要挑戰(zhàn)。
與人類互動中的安全性
隨著機器人進入人類空間,需平衡效率與安全,提高透明度和可解釋性;研究人機共同規(guī)劃,探討任務(wù)分配和避免物理干擾;混合自治允許在故障時移交控制權(quán)給人類;大語言模型將促進機器人與人類的對話。
操作和全身規(guī)劃
深入研究操作規(guī)劃和全身規(guī)劃,將兩者結(jié)合會增加問題復雜性,需開發(fā)新技術(shù)和算法,并與GPU等硬件集成。
邊緣AI
能源效率和自主性:探索諸如模型量化、修剪和壓縮等技術(shù),降低AI算法的計算復雜性;發(fā)展能源感知硬件設(shè)計,包括低功耗處理器、能源高效傳感器和功率管理技術(shù),延長機器人系統(tǒng)的運行自主性。
實時處理和減少延遲:重點優(yōu)化AI算法,在邊緣設(shè)備上以低延遲執(zhí)行,利用諸如模型并行性、流水線和硬件加速等技術(shù);邊緣計算架構(gòu)必須設(shè)計成最小化處理延遲,通過將AI推理與數(shù)據(jù)采集和執(zhí)行同步。
硬件-軟件協(xié)同設(shè)計:探索協(xié)同設(shè)計方法,將硬件架構(gòu)定制為機器人應(yīng)用中使用的AI算法的特定計算要求,包括開發(fā)專門用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)推理、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)處理和傳感器數(shù)據(jù)融合等任務(wù)的加速器,集成高效的軟件框架,實現(xiàn)無縫部署和管理。
穩(wěn)健的感知和態(tài)勢感知:提高AI算法的魯棒性以實現(xiàn)傳感器融合、SLAM、目標檢測和跟蹤、語義分割和場景理解,并處理光照條件的變化、遮擋、雜亂環(huán)境和傳感器噪聲等挑戰(zhàn)性場景,增強機器人系統(tǒng)的態(tài)勢感知。
適應(yīng)性和持續(xù)學習:探索持續(xù)學習技術(shù),機器人可以逐步獲得新技能,調(diào)整其行為以適應(yīng)不斷變化的任務(wù)和環(huán)境,并通過經(jīng)驗不斷改善性能,包括在線強化學習、元學習、遷移學習和知識蒸餾方法。
隱私保護和安全性:重點開發(fā)強大的加密、認證和訪問控制機制,以維護數(shù)據(jù)的完整性和隱私;探索安全多方計算、聯(lián)邦學習和差分隱私等技術(shù),以實現(xiàn)協(xié)作AI而不損害安全性。
邊緣-云協(xié)作和資源管理:探索動態(tài)工作負載分配、數(shù)據(jù)卸載和邊緣-云同步等技術(shù),以平衡資源利用率,同時最小化延遲、帶寬和能源消耗,包括分散式編排算法、邊緣緩存策略和適應(yīng)性通信協(xié)議的開發(fā)。
互操作性和標準化:開發(fā)用于在邊緣設(shè)備和機器人之間交換數(shù)據(jù)、命令和服務(wù)的開放標準、通信協(xié)議和軟件接口;簡化即插即用的互操作性、可互操作的軟件框架以及促進機器人系統(tǒng)中可重用性、可擴展性和靈活性的模塊化架構(gòu)。
機器學習
深度學習極大推動了機器視覺和機器人控制;A(chǔ)模型使機器人能對話、實現(xiàn)語言訓練,并與視覺演示相結(jié)合,推進了從演示中學習的機器人(LfD)。然而,大型多模態(tài)模型雖有價值,但缺乏可解釋性可能導致系統(tǒng)不受信任?山忉孉I和可解釋性的研究正在填補這一差距。此外,完全自主系統(tǒng)的性能超過其他部件之和,學習組件需根據(jù)其對整體性能的影響評估,而評估過程耗時費力。為構(gòu)建和評估完整的自主系統(tǒng),需要改進評估方法,包括主動測試、利用歷史數(shù)據(jù)的評估方法,以及適用于復雜環(huán)境的可擴展技術(shù)。
與人交互
協(xié)作機器人(物理人機交互)
協(xié)作機器人能與人安全直接地進行交互,以提高任務(wù)的速度、準確性、力量或規(guī)模,協(xié)作機器人需要更安全、靈活、緊湊且易于使用。
安全:在保證完成任務(wù)的同時,設(shè)計低慣性質(zhì)量、柔順表面的機器人以防止對人造成傷害。材料上,研究新材料,包括漸變剛度的作動器和表面,輕量級可部署和形狀可控的結(jié)構(gòu),以及將作動器與結(jié)構(gòu)集成在一起的智能材料;軟件上,強化安全評級和人體檢測,提高自主機器人可解釋性。
靈活性:通過演示學習或模仿學習,借助少量數(shù)據(jù),機器人能夠執(zhí)行自主任務(wù),也是實現(xiàn)協(xié)作的有效方法;強化學習可以調(diào)整以符合用戶偏好,也有助于創(chuàng)建以人為本的協(xié)作系統(tǒng);在交互背景下,構(gòu)建用戶模型,涵蓋感知、行動、目標和偏好,適用于多用戶與機器人協(xié)同,也可在特定交互中實現(xiàn)高度個性化。
緊湊性:發(fā)展新的智能材料和作動器,實現(xiàn)在人類工作空間內(nèi)占用最小體積的機器人;探索利用機械相互作用來改變其姿勢或形狀的新設(shè)計。
易用性:探索人機互助的交互模式,確保機器人以“零學習曲線”相似的無縫方式傳達其能力和限制;進一步發(fā)展可解釋性;深入研究協(xié)作機器人在家庭移動操作、人類護理及動態(tài)任務(wù)如協(xié)作工具處理、物體共同操縱等領(lǐng)域的應(yīng)用。
社交陪伴機器人(社交人機交互)
陪伴機器人在人類生活各領(lǐng)域潛力巨大,包括老年人護理、兒童發(fā)展、教育、治療和心理健康支持。盡管自然語言處理提升了機器人的交流能力,但穩(wěn)健和易用的對話系統(tǒng)尚未普及,特別是對于具有口音、語音不連貫的用戶。機器人需發(fā)展多模式通信能力,包括頭部、身體姿勢、面部表情、手勢等非語言信號;機器人需要感知和理解用戶狀態(tài)、行為和意圖,基礎(chǔ)模型雖有望推動這一能力,但訓練數(shù)據(jù)可能不足且存在偏見,影響對特殊群體的正確理解;情感計算研究將幫助機器人理解人類情感,并需考慮到不同的環(huán)境,包括不同的視角、光照條件、運動、遮擋等;陪伴機器人的物理設(shè)計需跨學科合作,考量安全性、成本、效能和文化適應(yīng)性,需探索機器人形態(tài)與功能在不同環(huán)境中的最優(yōu)組合。
媒介交互
協(xié)作機器人和社交機器人不僅可以與用戶共享空間,還能執(zhí)行遠程操作,以及在危險環(huán)境中執(zhí)行任務(wù),如遠程手術(shù)、管道橋梁等基礎(chǔ)設(shè)施檢查和太空探索。交互媒介也多種多樣,如搖桿、語音指令、腦機接口等。交互難點一般在于操作者要具有足夠的“處境意識”,并做出正確的控制決策。需發(fā)展增強現(xiàn)實和混合現(xiàn)實技術(shù)以提高“處境意識”,新的可穿戴設(shè)備也可為“處境意識”的集成提供機會;觸覺反饋對精準操作和社交互動至關(guān)重要,需進一步實現(xiàn)大面積接觸感知和高效封裝,并開發(fā)輕巧、舒適和便攜的可穿戴觸覺設(shè)備,可以從軟體機器人技術(shù)借鑒。此外,在安全場景中,人類可以操作控制非人形或運動學不匹配的機器人,如一群機器人或連續(xù)外科機器人,需開發(fā)能夠直觀映射人類輸入與機器人動作的界面。