【新知關(guān)鍵詞:無監(jiān)督學(xué)習(xí)】
據(jù)谷歌博客研究室網(wǎng)站日前報道,在上個月將波士頓動力公司出售給軟銀之后,谷歌并沒有終結(jié)機器人探索之路,而是相繼發(fā)表了數(shù)篇關(guān)于機器人學(xué)習(xí)的研究論文,試圖開發(fā)機器人的無監(jiān)督學(xué)習(xí)功能。
在這里,監(jiān)督并非指是否有人看守,而是指一種標簽狀況。在機器學(xué)習(xí)中,程序員編寫代碼,設(shè)定動作,機械按照代碼內(nèi)容,完成任務(wù),這屬于監(jiān)督學(xué)習(xí)。整個過程中的每一步驟都存在標簽,機器人就像剛學(xué)寫字的小學(xué)生,老師說如何做就如何做。但無監(jiān)督學(xué)習(xí)則是不安插標簽,機器人此時已晉級成為高中生,在老師的教導(dǎo)下學(xué)會了各種解題方法,考試中的未知題目,都能用學(xué)過的方法解題。
對人類來講,無監(jiān)督學(xué)習(xí)是本能,孩子只要經(jīng)??创笕四每曜映燥?,自然就學(xué)會握筷子的技巧。研究者希望機器學(xué)習(xí)也能如此,因此在第一篇論文《用于模仿學(xué)習(xí)的無監(jiān)督感知激勵》中,谷歌就用“開門”的簡單動作構(gòu)造出極小數(shù)據(jù)集,并在機器人身上啟用深度視覺特征技術(shù),使其無需培訓(xùn)就能懂得動作含義,并以無監(jiān)督的學(xué)習(xí)方式習(xí)得激勵函數(shù)。
而在第二篇論文《時間對比網(wǎng)絡(luò):從多視角觀察中進行自我監(jiān)督學(xué)習(xí)》中,谷歌則提出讓機器人依靠觀察向周圍世界學(xué)習(xí)。比如完成姿態(tài)模擬任務(wù)時,研究者并不首先定義人體關(guān)節(jié)與機器人軀干之間的映射關(guān)系,而是讓機器人進行“端到端”的模仿學(xué)習(xí)。在觀察訓(xùn)練中,即便沒有提供映射關(guān)系,機器人也可以自主發(fā)現(xiàn)對應(yīng)方式,并模仿人的姿勢。
在另一篇《“端到端”的語義掌握學(xué)習(xí)》論文中,谷歌還將人工標注的數(shù)據(jù)和機器人自動收集的數(shù)據(jù)相組合。首先讓機器人自主抓取物體,獲得數(shù)據(jù)集,隨后對成功抓取的案例進行拍照和人工標注,將物體與指令聯(lián)系到一起,從而讓機器人習(xí)得語義,自主完成抓取任務(wù)。
在業(yè)界人士看來,谷歌出售波士頓動力公司本就是雙贏行為,既是為谷歌在機器人領(lǐng)域重辟新路制造機會,又是為軟銀加速走向機器人領(lǐng)跑地位鋪墊。如今,谷歌研究室已著手推進無監(jiān)督學(xué)習(xí)的研究,有了深度視覺、語義理解等核心技術(shù),未來機器人的學(xué)習(xí)能力將不亞于人類。