<wbr id="gyjju"><th id="gyjju"></th></wbr>
    <samp id="gyjju"></samp>
  • <nav id="gyjju"></nav>

  • 展會信息港展會大全

    英偉達用ChatGPT-4訓練機器人,代碼水平超過人類專家
    來源:互聯網   發布日期:2023-10-24 18:14:24   瀏覽:6325次  

    導讀:多知網10月23日消息,英偉達(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓練實體機器人的動作指令,例如,轉筆、開抽屜、使用剪刀等超復雜動作。具備零樣本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行大幅度優化,達到人類專家...

    多知網10月23日消息,英偉達(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓練實體機器人的動作指令,例如,轉筆、開抽屜、使用剪刀等超復雜動作。具備零樣本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行大幅度優化,達到人類專家級水平。

    英偉達AI高級研究總監兼該論文作者Anima Anandkumar表示,在過去十年,強化學習取得了空前成功,但仍面臨許多困難,例如,獎勵設計需要不斷試錯才能完成。Eureka的出現開創了一種全新的算法,將生成式AI與強化學習相結合以實現更高的執行效率。

    強化學習是機器學習的一種類型,其目標是讓一個智能體在與環境的交互中學習如何實現最優行為,以獲取最大累積獎勵。

    在強化學習中,需智能體不斷地從環境中獲取狀態,并在此基礎上選擇一個行動。環境對智能體的行動給出反饋,這個反饋稱為“獎勵”。強化學習的目標是找到一個最優的策略,關鍵元素包括智能體、環境、狀態、行動和獎勵。

    研究人員對Eureka在多樣化的實體機器人和任務中進行了全面評估,測試了其生成獎勵函數、解決新任務等能力。

    測試環境由由10個不同的機器人和29個使用IsaacGym模擬器實現的任務組成。首先,包括了來自IsaacGym(Isaac)的9個原始環境,涵蓋了從四足動物、雙足動物、四旋翼、協作機器人臂到靈巧手的多樣化機器人形態。除了對機器人形態因素的覆蓋,還通過包含雙手操作基準中的所有20個任務,確保了評估的深度。

    結果顯示,Eureka可以生成超過人類水平的獎勵函數。在29個任務中,Eureka的獎勵在83%的任務中,超過了人類專家編寫的獎勵函數,平均規范化改進為52%。尤其是在高維靈活性環境中,Eureka實現了更大的收益。

    贊助本站

    人工智能實驗室
    AiLab云推薦
    展開

    熱門欄目HotCates

    Copyright © 2010-2023 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港
    国产又粗又大又长又深又刺激,国产又粗又大在线观看,国产又粗又猛又爽的视频

    <wbr id="gyjju"><th id="gyjju"></th></wbr>
    <samp id="gyjju"></samp>
  • <nav id="gyjju"></nav>