看過《蟻人》的朋友肯定會為蟻人靈活的身姿和矯捷的身手所折服。
現(xiàn)如今,雖然你成為不了蟻人,卻有機(jī)會擁有一位 “類蟻人” 朋友 —— 四足機(jī)器人 RealAnt。RealAnt 是一種低成本的四足機(jī)器人,可以通過強(qiáng)化學(xué)習(xí)來完成指定動作。擁有螞蟻般靈活四肢的機(jī)器人 RealAnt 一經(jīng)問世,便廣受好評。
?
?
在過去的十幾年里,機(jī)器人學(xué)家和計算機(jī)學(xué)家們試圖利用強(qiáng)化學(xué)習(xí)(RL)的方法來訓(xùn)練機(jī)器人有效地導(dǎo)航和完成各種基本任務(wù)。然而,到目前為止,制作一個能夠支持 RL 算法且大眾負(fù)擔(dān)得起的機(jī)器人仍相當(dāng)具有挑戰(zhàn)性。
令人興奮的是,最近研究人員發(fā)明了一種四腿機(jī)器人,并用它來實現(xiàn)一種低成本的機(jī)器人算法。在 arXiv 上發(fā)表的一篇論文中提出了相關(guān)的新型機(jī)器人平臺,這是一個簡單且價格合理的真實世界版 “螞蟻” 機(jī)器人模擬環(huán)境,通常被用于 RL 研究。
?
?
Ote 機(jī)器人公司的 RealAnt 機(jī)器人平臺是為實現(xiàn)現(xiàn)實世界中的強(qiáng)化學(xué)習(xí)而研究和開發(fā)的。其擁有完整的解決方案,并有網(wǎng)絡(luò)攝像機(jī)為基礎(chǔ)的跟蹤系統(tǒng)。
“我們工作的最初靈感來自 RL 研究,該研究成功地證明了在仿螞蟻以及仿人機(jī)器人上,可以通過強(qiáng)化學(xué)習(xí)從零開始學(xué)會走路。”O(jiān)te Robotics 的聯(lián)合創(chuàng)始人 Jussi Sainio 表示,算法的基本前提是編程,目的是使機(jī)器人完成任務(wù)的過程變得更容易、更自然,通過確定可用的傳感器測量值、運(yùn)動動作設(shè)定目標(biāo),并將它們?nèi)坎迦霃?qiáng)化學(xué)習(xí)算法,該算法就能解決其余問題。
一般來說,大多數(shù)機(jī)器人的研究是利用昂貴的設(shè)備進(jìn)行的,花費(fèi)高達(dá)數(shù)千美元,并不是所有研究人員都負(fù)擔(dān)得起。與此同時,傳統(tǒng)的控制算法需要易于實現(xiàn)的精確硬件模特,這使得機(jī)器人在設(shè)計上面臨諸多限制。而強(qiáng)化學(xué)習(xí)算法能夠在不建立動力學(xué)模型的情況下學(xué)習(xí)控制器,還可以處理噪聲的觀測和控制,優(yōu)勢有目共睹。
近年來,強(qiáng)化學(xué)習(xí)領(lǐng)域取得了顯著的進(jìn)展,在解決具有挑戰(zhàn)的控制問題方面取得了許多成功。這很大程度上取決于模擬器可以用快速測試算法性能。然而,模擬器也有弊端,其常常會對世界做出不切實際的假設(shè)。為了減少因誤判而付出的無用勞動,研究人員們需要一種將強(qiáng)化學(xué)習(xí)的發(fā)展建立在現(xiàn)實世界的問題上的方法。
Sainio 認(rèn)為,與模擬器環(huán)境相比,沒有一個完整的軟件和硬件組合可以從現(xiàn)實世界的強(qiáng)化學(xué)習(xí)開始。因此,他們開始構(gòu)建自己的機(jī)器人和接口軟件原型。
基于此,Sainio 和他同事們工作的主要目標(biāo)是基于現(xiàn)有的基線 RL 解決方案創(chuàng)建一個簡單而低成本的機(jī)器人平臺。這樣一個平臺將允許更多的研究人員建造和測試能夠在現(xiàn)實世界中完成各種基本任務(wù)的自主機(jī)器人。
經(jīng)過不斷探索,Ote 機(jī)器人公司開發(fā)了一個最小的低成本四足機(jī)器人 ——RealAnt 以及一個物理版本的基準(zhǔn)測試平臺。
?
RealAnt 的優(yōu)點(diǎn)是顯而易見的,它功能齊全、簡約、成本低廉。此外,它可以自主學(xué)習(xí)走路,協(xié)調(diào)地移動腿,并能在給定的環(huán)境中感知自己的位置和方向。利用 RL 算法,可以訓(xùn)練它像真正的螞蟻那樣行動,從而執(zhí)行各種簡單而有價值的任務(wù)。
最初,RL 算法只有在機(jī)器人模擬訓(xùn)練數(shù)千小時后才能表現(xiàn)良好。然而,通過計算機(jī)科學(xué)家的努力,已經(jīng)能夠用很少的訓(xùn)練數(shù)據(jù)來教螞蟻四足機(jī)器人 RealAnt 學(xué)會行走,從而達(dá)到了高樣本效率。這使得在現(xiàn)實世界中直接訓(xùn)練機(jī)器人成為可能,消除了基于仿真的訓(xùn)練需求成本。
圖 | 噪聲對降低學(xué)習(xí)效率的觀測
研究人員們是通過強(qiáng)化學(xué)習(xí)實驗一步步驗證了自己創(chuàng)建的機(jī)器人平臺,并同時提供了一組基準(zhǔn)任務(wù)的基線結(jié)果。通過實驗,他們證明了運(yùn)用 TD3 算法可以從不到 45 分鐘的經(jīng)驗中學(xué)會行走實相。他們在 MuJoCo 和 PyBullet 中提供了機(jī)器人的模擬器版本(具有相同的尺寸、狀態(tài)動作空間和延遲噪聲觀測)。
?
繪制每個任務(wù)三次運(yùn)行的平均值和標(biāo)準(zhǔn)差,TD3 能夠在 40 分鐘內(nèi)學(xué)會所有任務(wù)。
實驗中考慮進(jìn)了三個基準(zhǔn)任務(wù):
實驗發(fā)現(xiàn),TD3 算法能夠成功地學(xué)習(xí)所有三個任務(wù)。學(xué)會站立大約需要 12 分鐘的經(jīng)驗,學(xué)會轉(zhuǎn)身需要 35 分鐘的經(jīng)驗,學(xué)會走路需要 40 分鐘的經(jīng)驗。
“人們可以把 RealAnt 平臺想象成‘Ant’模擬器環(huán)境的真實版本,這是 RL 的一個流行基準(zhǔn)。”Sainio 說,他們創(chuàng)建的是最便于在現(xiàn)實世界展開強(qiáng)化學(xué)習(xí)的機(jī)器人平臺之一。
RealAnt 平臺包括機(jī)器人接口所需的機(jī)器人硬件(電機(jī)、傳感器)和軟件堆棧(通信、跟蹤),而已經(jīng)對外公布的基線強(qiáng)化學(xué)習(xí)解決方案就是教它從零開始走路的方法。Sainio 表示,示例解決方案很簡單,對每項學(xué)習(xí)任務(wù)都較少使用 ML 方面的指導(dǎo),且不用做太多的人工獎勵工程來塑造學(xué)習(xí)績效,這使得定義新任務(wù)變得簡單明了。
值得一提的是,RealAnt 平臺的主要優(yōu)勢在于,它是現(xiàn)成的,而且價格合理。低制造成本和易于組裝的特點(diǎn)使得 RealAnt 可以更便捷地被世界各地的人所使用。此外,與當(dāng)今市場上更昂貴、更復(fù)雜的機(jī)器人相比,它容易大規(guī)模進(jìn)行生產(chǎn)部署。
RealAnt 作為一個最小的、低成本的物理版本的 “Ant”,其基準(zhǔn)研究對現(xiàn)實世界中的強(qiáng)化學(xué)習(xí)有深刻意義。與 “Ant” 基準(zhǔn)測試類似,RealAnt 是一個 8 自由度的四足機(jī)器人,并基于易于獲得的電子元件和 3D 打印體。RealAnt 中使用的所有組件都較易得到。
“機(jī)器人的身體部位都是三維打印的,它們足夠小,可以用大多數(shù)消費(fèi)者的三維打印機(jī)打印?!盨ainio 提到,這使得該機(jī)器人的生產(chǎn)和改裝成本比采用激光切割或機(jī)械加工金屬、塑料板制造的機(jī)器人要低很多。由于 RealAnt 設(shè)計采用低成本電機(jī),通過限制電機(jī)的最大扭矩能夠小心地驅(qū)動電機(jī),因此它們能夠承受隨機(jī)探索和任務(wù)訓(xùn)練期間的連續(xù)粗暴運(yùn)動。
具體來看,RealAnt 主體由 4 個 3D 打印支腿,8 個 Dynamixel AX-12A 伺服系統(tǒng)(和 8 個 FP04-F2 機(jī)架一起銷售)以及 3 個三維打印的上下軀干構(gòu)成。機(jī)器人的每只腿由兩個 Dynamixel 伺服關(guān)節(jié)組成,使用 Robotis FP04-F2 框架相互連接。使用 3D 打印的軀干頂板和底板將四個腿部組件連接在一起。3D 打印機(jī)易于使用,允許快速打印和經(jīng)濟(jì)高效的制造。零件可以使用消費(fèi)類 3D 打印機(jī)(Creality Ender 3 v2)以 PLA(Prusament 燈絲)打印。
圖 | RealAnt 機(jī)器人的示意圖細(xì)節(jié)(所有單位均為毫米)
令手殘黨倍感欣慰的是,RealAnt 可以在不到一小時的時間內(nèi)使用十字螺絲刀、切邊鉗這些組件組裝起來。這比很多同類型機(jī)器人的組裝更加友好。
另一方面,上文提到,目前可供研究的機(jī)器人平臺要么非常昂貴,要么無法處理強(qiáng)化學(xué)習(xí)中探索控制的濫用。而此次開發(fā)的用于強(qiáng)化學(xué)習(xí)基準(zhǔn)測試的最低成本物理版本平臺價格上是絕對的實惠。RealAnt 的材料成本僅為 350AC(410 美元)。
RealAnt 機(jī)器人比其他支持 RL 的現(xiàn)有四足類機(jī)器人更便宜的原因之一是它的身體使用 8 個低成本的智能伺服電機(jī)移動,而不是更昂貴和復(fù)雜的電機(jī)。此外,為了追蹤機(jī)器人的位置和方向,還利用了可以輕松打印在紙上的 AR 標(biāo)簽和廉價的外部攝像頭。
?
經(jīng)過反復(fù)測試,Sainio 和他的同事在模擬和真實世界的實驗中綜合評估了 RealAnt,事實證明,該機(jī)器人在所有這些測試中都表現(xiàn)得非常出色,顯示出廣闊的應(yīng)用前景。
到目前為止,大多數(shù)用于機(jī)器人應(yīng)用的 ML 和 RL 技術(shù)主要是在模擬環(huán)境中訓(xùn)練的。研究人員希望 RealAnt 能開辟新的令人興奮的可能,使機(jī)器人可以在模擬和物理世界中一同進(jìn)行訓(xùn)練和測試。
一個好消息是,RealAnt 的硬件和軟件都是開源的,完全組裝好的機(jī)器人也可以在 Ote Robotic 的網(wǎng)站上輕松在線購買。這為更多研究者得到并使用它提供了很大便利。
?
此套餐包括:一個完全組裝的 RealAnt V1 機(jī)器人、帶有 8 個 Robotis Dynamixel AX-12A 智能執(zhí)行器、Robotis OpenCM9.04A 板、USB 和電源線、一個機(jī)器人標(biāo)簽和一個參考標(biāo)簽板、12V 5A 電源。
Sainio 和他的同事們創(chuàng)建的機(jī)器人平臺可以很快幫助其他團(tuán)隊在真實的機(jī)器人上測試他們的 RL 和 ML 算法。研究人員們希望 RealAnt 未來可以促進(jìn)更廣泛的應(yīng)用和發(fā)展,例如在農(nóng)業(yè)環(huán)境中,自主學(xué)習(xí)的機(jī)器人可以用來根除雜草和收獲植物,幫助促進(jìn)生物多樣性,甚至可能減少殺蟲劑的使用。
Sainio 說:“我們現(xiàn)在打算對 RealAnt 平臺進(jìn)行微調(diào)和擴(kuò)展,以增強(qiáng)硬件的能力,比如讓機(jī)器人擁有更先進(jìn)的感知能力和可能的操縱器,并在現(xiàn)有在線平臺的基礎(chǔ)上同時運(yùn)行多個機(jī)器人。同時,我們也在研究如何讓 RealAnt 更快地完成其他更具挑戰(zhàn)性的任務(wù),進(jìn)一步縮短訓(xùn)練時間?!?br>
關(guān)注【深圳科普】微信公眾號,在對話框:
回復(fù)【最新活動】,了解近期科普活動
回復(fù)【科普行】,了解最新深圳科普行活動
回復(fù)【研學(xué)營】,了解最新科普研學(xué)營
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識】,學(xué)習(xí)觀鳥相關(guān)科普知識