‧ 有 「靈魂」 的機械臂是怎樣煉成的？

leiphone 逸炫

我猜，要你把東西撿起來絕對沒問題。好棒！這是因為當你還是個小屁孩的時候，你已經在沒日沒夜地抓東西、掉東西，並從經驗中學習。可是機器人不想就此虛度他們的童年，總得有辦法加快進程吧——在Google Research，十多個機器人手臂連續數月地在撿起不同的物品，重的、輕的、扁的、大的、小的、硬的、軟的、還有半透明的（雖然不是同時）。研究員們告訴我們為何他們的方法獨一無二，以及為什麼80萬次抓取（天啦擼！）還只是個開頭。

為什麼動物們抓取物件完全沒問題，部分原因是眼睛，而不僅僅是手。你可以閉著眼睛抓起一個物品，但是如果你能看見手與物品之間的互動，你會好得多。在機器人領域，這叫做視覺伺服，除了能增加抓取的精準度，還能讓機器人抓取正在移動或改變方向的物品，這在煩死人的「真實世界」中非常普遍。

教會機器人不容易，因為在感測器資訊和動作之間沒有必然聯繫，尤其是當你一直有無數的傳感資訊輸入（就像人在視覺系統裡一樣）。聰明的辦法不是填鴨式教學，而是讓機器人自學成才。

在Google Research，一組研究員在Google X同事的幫助下，讓一個7-DoF機器人手臂抓起雜亂的物品，利用單眼視覺伺服和深度卷積神經網路（CNN）來預測抓取結果。卷積神經網路會持續自我訓練，開始失敗如山倒，然後漸入佳境。Google為了加快進程，讓14個機器人同時投入工作。這完全是全自動的：人只需要往盤子裡裝上東西，然後打開電源開關。

Image: Google Research

一個資料收集試驗中的機器人。每個單元包括一個七自由度的手臂，帶有兩個手指的抓取器，和一個從機器人肩膀上俯視下來的攝影機。研究員說攝影機記錄了單眼RGB和深度圖像，但只有單眼RGB圖像用於預測抓取成功。

Google Develops Robot Arms that Learn to Pick Up Objects

“實質上，通過觀察自己手臂的運動，機器人時時刻刻都在預測接下來哪種運動，會把成功的幾率最大化。這帶來了持續的回饋：我們可以稱作眼手協調。觀察了80萬次機器人的抓取，相當於大約3000小時的機器人練習，我們可以略見智慧反應行為的端倪。

機器人觀察著自己的抓取，並即時糾正自己的行動。它還表現出了非常有趣的抓取前動作，例如將一個單獨物品從一對物品中分離。所有這些行為自然地從學習中出現，而非編寫進系統的程式裡。“

當14個機器人同時工作，資訊收集就更多更快了，但與此同時，許多計畫外的變數也引入了試驗中。攝像頭的位置略有不同，打光對每一個機器人都不太一樣，以及每一個標準的抓取器都有不同類型的磨損，影響表現。

Image: Google Research

試驗後機器人的抓取器。研究者說機器人“經歷了不同程度的磨損和拉扯，造成外表和幾何方面重要的變化。”

積極的一面是，機器人能更好處理對類似硬體細微差異和攝影機校準差異的問題，使得抓取更加強大。即便這樣，這種方法沒法過分概況，而且不能用於差別很大的硬體和抓取環境中（例如從架子上拿取一個物品）。

研究員計畫在未來嘗試讓訓練設置更加多元化，看看他們的技術的適應性如何。他們還希望研究如何將這種方法用於“真實世界”的機器人，”在非常複雜多樣的環境、物件、燈光以及磨損情況下“。

我們與Google Research的Sergey Levine聊了聊他們的研究。

IEEE Spectrum：能否說說你們的研究與其他類似研究的關聯呢，例如Brown的百萬物品挑戰或者加州大學伯克利分校的Dex-Net？

Sergey Levine：和Dex-Net及Brown的研究一樣，我們的研究也是基於大資料可以提升機器人能力這個假設。我們和他們的研究最主要的不同是，我們採取的是一種非常直接和資料導向的方法，依靠最少的前期資訊，來解決抓取這個非常具體的問題。Dex-Net使用基於模型的方法和類比資料，而Brown的目標更大，是掃描非常多的物品（我們的方法不收集掃描資料，而只是憑經驗學會抓取）。