強化學習的新突破,相較於過去alphago這類基於DQN的智能體(model free)主要是基於嘗試錯誤的過程中學習如何採用正確的行動策略,而基於世界模型的強化學習則是希望利用模型模擬外在環境,讓智能體可以提早預測外部變化,以大幅降低嘗試錯誤的龐大算力消耗,谷歌推出世界模型Dreamer....
https://mp.weixin.qq.com/s/8uBlkOQeblTCIgC02jEwRA
強化學習dqn 在 AppWorks Facebook 的精選貼文
【 DeepMind 開源 TRFL ,又一個強化學習拓展、創新好幫手】
.
➡AppWorks Accelerator #18 正在招募 AI & Blockchain 團隊!現在就申請加入大東南亞區最大的創業者社群 (Early Mover Round 至 10/29 截止):http://bit.ly/2CwEqOr
.
繼今年 8 月 Google 開源發布了專為學術研究人員設計的簡單但強健的強化學習框架「多巴胺」(Dopamine)之後,早已被 Google 母公司收購但保持獨立運作的 DeepMind 也把自己日常使用的程式庫拿出來開源,繼續為領域內的研究人員們提供功能豐富、高可複現性及高可拓展性的實驗工具。
DeepMind 宣布開源一個用於在 TensorFlow 環境中開發強化學習智慧體的程式庫,打包了許多有用的基礎元件。 它的名字是 TRFL(讀作「truffle」)。DeepMind 自己用來開發 DQN 、 DDPG 以及 IMPALA(重要性加權行動者-學習者架構)等知名強化學習技術的許多關鍵演算法元件都包含在其中。
強化學習dqn 在 洞見國際事務評論-Insight Post Facebook 的最佳解答
[#新聞分享]電腦超越人腦? 圍棋五連戰第二回合電腦勝
AlphaGo 與圍棋世界棋王李世乭對弈第二戰落幕,由 AlphaGo 人工智慧再次獲得勝利!下一場對決將於本周五舉行。這場全球矚目的人工智慧對決世界棋王的大戰將在下周二前將陸續舉行5局比賽,優勝者獎金超過新台幣 3000 萬。
第三戰將於 12 日中午 12 點進行,有興趣的讀者亦可直接收看現場直播。
為什麼要關注這個比賽?人工智慧不是早就有了嗎?
之所以受到關注是因為演算法的改變,google人工智慧AlphaGo 能做到的並不僅僅只是以既有的資訊持續推斷最佳結果,而是能真正因應棋局而做出適當的下一步。不像以往的人工智慧。
另外在AlphaGo中還借鑒了一種名為深度強化學習(Deep Q-Learning,DQN)的技巧。和蒙地卡羅樹狀搜尋演算法(Monte Carlo Tree Search),在判斷下一步的策略上有著非常好的表現,遠超過上一個能夠和人類棋手旗鼓相當的圍棋程式。
新聞連結:
http://technews.tw/…/why-is-alphago-so-great-and-what-is-d…/
http://3c.ltn.com.tw/news/23329