多知網10月23日消息,英偉達(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓練實體機器人的動作指令,例如,轉筆、開抽屜、使用剪刀等超復雜動作。具備零樣本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行大幅度優化,達到人類專家級水平。
英偉達AI高級研究總監兼該論文作者Anima Anandkumar表示,在過去十年,強化學習取得了空前成功,但仍面臨許多困難,例如,獎勵設計需要不斷試錯才能完成。Eureka的出現開創了一種全新的算法,將生成式AI與強化學習相結合以實現更高的執行效率。
強化學習是機器學習的一種類型,其目標是讓一個智能體在與環境的交互中學習如何實現最優行為,以獲取最大累積獎勵。
在強化學習中,需智能體不斷地從環境中獲取狀態,并在此基礎上選擇一個行動。環境對智能體的行動給出反饋,這個反饋稱為“獎勵”。強化學習的目標是找到一個最優的策略,關鍵元素包括智能體、環境、狀態、行動和獎勵。
研究人員對Eureka在多樣化的實體機器人和任務中進行了全面評估,測試了其生成獎勵函數、解決新任務等能力。
測試環境由由10個不同的機器人和29個使用IsaacGym模擬器實現的任務組成。首先,包括了來自IsaacGym(Isaac)的9個原始環境,涵蓋了從四足動物、雙足動物、四旋翼、協作機器人臂到靈巧手的多樣化機器人形態。除了對機器人形態因素的覆蓋,還通過包含雙手操作基準中的所有20個任務,確保了評估的深度。
結果顯示,Eureka可以生成超過人類水平的獎勵函數。在29個任務中,Eureka的獎勵在83%的任務中,超過了人類專家編寫的獎勵函數,平均規范化改進為52%。尤其是在高維靈活性環境中,Eureka實現了更大的收益。