上面插圖顯示了一些使用 actor-critic 方法的學習方法。(左)具有共享獎勵的獨立學習者,(中)具有共享信息和共享獎勵的獨立學習者,(右)具有獨立獎勵的聯合學習者。美國陸軍
美國陸軍研究人員開發了一個開創性的框架,為協作多智能體系統的開發提供了基線。
該框架在調查論文“利用集中訓練的近期多智能體強化學習算法調查”中有詳細介紹,該論文在 SPIE 數字圖書館中有特色。研究人員表示,這項工作將支持強化學習方法的研究,以開發協作多智能體系統,例如可以與未來士兵并肩工作的機器人團隊。
“我們認為潛在的信息共享機制在多智能體系統的集中學習中起著關鍵作用,但研究界對這種現象的研究有限,”美國陸軍研究員兼計算機科學家皮尤什·K·夏爾馬博士說,他來自美國陸軍作戰能力發展司令部( DEVCOM)陸軍研究實驗室?!拔覀儗娀瘜W習算法及其信息共享范式的最先進技術進行了這項調查,以此為基礎詢問有關多智能體系統集中學習的基本問題,以提高它們的協同工作能力?!?/p>
Sharma 在該項目上的合作者包括 DEVCOM ARL 研究人員 Drs。Erin Zaroukian、Rolando Fernandez、Michael Dorothy、Derrik Asher 和 Anjon Basak,橡樹嶺聯合大學獎學金計劃的博士后研究員。
這項對強化學習最先進技術的調查為尋求通過增強的信息共享機制(例如獎勵功能或觀察和狀態空間共享)開發自主多智能體系統的研究人員建立了基線。
由于復雜環境的動態特性,可能會受到維度災難的影響,因此同時訓練多個智能體更加困難;夏爾馬說,代理越多,協調就越復雜。本文開發了一個框架來表征經常令人困惑且不易理解的關鍵信息共享參數。
研究人員預測,集中訓練可能是更快開發自主系統的解決方案,這些系統可以在未來靈活地與士兵一起工作。
“一致、集中的訓練可以使多智能體系統更可靠地協同工作,提高人工智能士兵的信任水平,”夏爾馬說?!熬唧w來說,我們專注于識別和表征最新集中式學習算法的基礎數學框架?!?/p>
美國陸軍研究人員開發了一個開創性的框架,為協作多代理系統的開發提供了基線。信用:Spc。艾德琳·威瑟斯彭
他說,這樣的數學模型可以提供一種途徑來探索替代的集中學習技術,以衡量它們對學習率和緊急協作行為的影響。
該調查在兩個方面超越了先前的研究文獻:
創建強化學習算法最新技術的綜合視圖
概述了一種描述集中學習期間共享信息的新方法
研究人員專注于五到六年內發布的算法。由于這些算法是最新的,研究界還沒有對它們進行廣泛的探索。在出版時,他們沒有找到全面的先前工作。
研究人員試圖對共享機制進行定義和分類,以實際共享什么而不是如何共享為導向。他們樂觀地認為,他們已經發現了最近的強化學習技術中值得進一步研究的差距,這些差距可能會增強代理培訓過程。
研究人員表示,他們樂觀地認為,這項調查將引發對機器學習問題空間的討論和進一步探索,以訓練自主多智能體系統。
“隨著商業行業對多代理系統協同工作的需求變得越來越普遍,例如亞馬遜倉庫機器人、英特爾在 2018 年冬季奧運會上的無人機展。也出現了對這些多代理系統技術的新興需求,以協助陸軍在協同戰術行動中,”夏爾馬說。“這份調查文件產生的研究可以實現可靠的協作人工智能的目標。”
展望未來,團隊感覺更有能力研究基于多智能體強化學習的方法的特定方面,這些方法以集中方式訓練智能體。
Sharma 說,集中式技術有一定的局限性,因此他們還將對現有的分散式學習技術進行實證分析。他們計劃轉向多智能體強化學習訓練的建模和模擬,以驗證和擴展智能體學習、行為和協調的理論。