close

AlphaGo在圍棋界“孤獨求敗”,Deepmind再出新一代機器人

撰文 | 李傢勁(加州大學洛杉磯分校)

AlphaGo又“進化”瞭!新一代機器人AlphaGo Zero誕生,在圍棋領域,它會不會感到孤獨?

本周,Nature雜志報道瞭英國DeepMind團隊的最新進展:他們開發出瞭新一代的圍棋AI——AlphaGo Zero。AlphaGo Zero使用強化學習技術(Reinforcement Learning),大幅提升瞭棋力。它現在能夠以更少的計算資源,輕松擊敗曾經戰勝世界冠軍李世石、柯潔的AlphaGo前代版本。

AlphaGo Zero與之前版本最大的區別在於,AlphaGo Zero從隨機對局開始,通過自我對弈來提升自己的棋藝,從不依靠任何人類的監督或對局數據。而在以往版本中,AlphaGo都是使用業餘和專業人類棋手的對局數據來訓練自己。雖然使用人類棋手的數據可以讓AI學習到人類的圍棋技巧,但是人類專傢的數據通台中產後護理之家介紹常難以獲得且很昂貴。此外,即使是專業棋手,也難免會有失誤,而使用錯誤的訓練數據可能會降低AlphaGo的棋力。況且,僅僅使用人類數據會讓AI局限於人類的圍棋知識。

AlphaGo Zero的自我強化學習,圖片來自Nature


更重要的是,AlphaGo在圍棋界已是台中坐月子中心推薦“獨孤求敗”的境界,所以,要突破自己的界限,甚至圍棋知識的界限,顯然隻有AlphaGo自己才能做自己的老師。

張崢(上海紐約大學終身教授、國傢千人計劃特聘專傢):

從算法上來說,AlphaGo Zero更簡潔、漂亮,讓我想起愛因斯坦的KISS原則:simple but not simpler。這一次,AI在人類的幫助下,在一個給定的規則下,自主發現新知識,並且糾正人類的錯誤知識,而且以驚人的速度達到這一點。有趣的是,AlphaGo無法解釋,隻能demo給人類。在這個特定的小領域,人類和人工智能一起創造瞭新知識。

經過幾百萬盤的自我博弈後,AlphaGo Zero進步明顯,不僅棋力大幅增強,運算速度也提升瞭不少。在100盤對局中,僅使用1臺機器、4個TPU的AlphaGo Zero對使用多臺機器、48個TPU的AlphaGo Lee取得全勝,後者曾經擊敗韓國名將李世石。在同樣配置下,AlphaGo Zero對AlphaGo Master取得89勝11負的壓倒性優勢,後者就是2017年1月在頂級圍棋在線對戰平臺上取得60戰60勝的神秘選手Master。而且,AlphaGo Zero訓練瞭72小時就完勝AlphaGo Lee,僅用40天就超越瞭AlphaGo Master。這主要得益於DeepMind團隊開發的新型強化學習技術。

何為強化學習技術?簡單來講,強化學習使用一套獎勵機制,讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分,蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)與神經網絡算法。其中,神經網絡算法給出落子方案,以及預測當前形勢下的勝方;MCTS算法可以看成是一個弈棋策略的評價和改進工具,它能夠模擬出AlphaGo Zero落子在哪些地方可以獲得更高的勝率。如果AlphaGo Zero從神經網絡得出的下一手棋的走法越相似於MCTS算法輸出的結果,則勝率越大,即所謂回報越高。如此,在每一著棋中,AlphaGo Zero都要優化神經網絡中的參數,使其計算出的落子方案更接近MCTS算法的結果,同時盡量減少勝者預測的偏差。開始的時候,AlphaGo Zero的神經網絡完全不瞭解圍棋,隻好盲目下棋。但經過日以繼夜的“左右互搏”般的訓練,無數盤對局後,AlphaGo Zero迅速從圍棋小白成長為傳奇棋神。

除瞭改進人工智能技術外,DeepMind團隊也希望能夠通過AlphaGo項目獲得對圍棋更深的認識。他們發現,AlphaGo Zero僅僅自我對弈幾十天就掌握瞭人類幾百年來研究出來的圍棋技術,而且棋路獨特。例如,AlphaGo Zero很喜歡下出定石(台中產後照護介紹圍棋術語)的新型變種。這是因為它沒有使用人類數據,不再囿於人類現有的圍棋理論。

“當前的最強版本,AlphaGo Zero向我們展示瞭即使不用人類的數據,即使使用更少的計算資源,也能夠取得長足進步。最終我們想用這些技術進展去解決現實問題,如蛋白質折疊或者新材料設計。如果我們能夠在這些問題上取得同樣進展,這將會增進人類的認知,從而改善每個人的生活。”DeepMind的共同創辦者兼CEO,Demis Hassabis如是說。

參考資料

Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.

作品來源:《知識分子》(微信公號:The-Intellectual)

《知識分子》是由饒毅、魯白、謝宇三位學者創辦的移動新媒體平臺,致力於關註科學、人文、思想


文章很值,贊賞激勵一下贊 賞首席贊賞官虛位以待贊賞是一種態度1元3元6元12元50元108元其他金額金額(元):贊 賞


2017年10月31日11:24

【能源局:可再生能源已成為我國新增電力主力】三季度以來,國傢能源局啟動瞭風電平價上網示范工作。與有關部門共同發文進一步強化光伏“領跑者”技術要求,前三季度新增風電裝機中約一半位於中東部和南方地區。將再組織實施一批光伏領跑者項目,同時正在組織各地編制光伏扶貧“十三五”計劃,擬於近期統籌各地情況後下達實施。


2017年10月31日11:16

【保監會:切實維護保險消費者合法權益】近日,保監會針對“亮劍行動”中發現的侵害消費者合法權益違法違規行為,依法對中華聯合財產保險股份有限公司、華安財產保險股份有限公司、安盛天平財產保險股份有限公司、渤海財產保險股份有限公司、光大永明人壽保險有限公司和國華人壽保險股份有限公司等6傢保險公司進行瞭處罰,共計罰款121萬元,處罰個人11名,罰款49萬元。


2017年10月31日11:03

【shibor連續兩日全線上漲】隔夜shibor報2.7360%,上漲1.60個基點;7天shibor報2.8940%,上漲0.60個基點;3個月shibor報4.3954%,上漲0.28個基點。


2017年10月31日10:54

【樂視網估值再遭下調】10月最後一個交易日,多傢公司發佈公告下調樂視網估值。諾安基金旗下產品估值調整不低,仍有9.05元,而國投瑞銀、國海富蘭克林等公司已將估值下調至7.82元。以停牌前15.33元收盤價計算,樂視網估值下跌近49%,幾近腰斬。


2017年10月31日10:45

【小金屬概念股拉升】寒銳鈷台中產後月子中心價格業漲逾8%,華友鈷業、天齊鋰業、翔鷺鎢業、東方鉭業、道氏技術、洛陽鉬業、鵬欣資源等股均有上漲。


2017年10月31日10:35

【美國商務部初裁中國產封箱釘存在傾銷行為】美國商務部30日公佈初裁結果,認定從中國進口的封箱釘存在傾銷行為。根據美方程序,美國商務部和國際貿易委員會將於明年初作出終裁。數據顯示,2016年美國從中國進口的這類產品金額為7320萬美元。(新華社)


2017年10月31日10:24

【嘉能可將在港交所撤回上市】嘉能可在港交所公告稱,建議其股份在香港聯交所撤回上市,預期明年1月10日收市後停止買賣,1月31日正式除牌。在香港退市後,嘉能可股份繼續在英國及約翰內斯堡證券交易所上市。


2017年10月31日10:16台中月子中心親子房

【河北:加大去產能工作力度】10月30日河北省委召開常委會(擴大)會議,會議強調,要大力推進京津冀協同發展,全面落實“三區一基地”功能定位,全力支持服務北京和天津協同發展。深入推進供給側結構性改革,加大鋼鐵、水泥、煤炭等去產能工作力度。(河北日報)


2017年10月31日10:00

【重慶市出臺三十六條金融創新舉措 助力重慶自貿試驗區建設】據瞭解,此次推出的36條舉措,主要涉及八個方面:簡化跨境收支管理,提高跨境結算效率;創新跨境結算管理方式,支持新興業態發展;擴大人民幣跨境使用,降低匯率風險和匯兌成本;拓展跨境投融資,支持用好兩個市場、兩種資源;優化結售匯管理,促進提高資金使用效率等。(重慶日報)


【音頻】O2O市場雙雄爭霸將走向何方?

聽!財新周刊:O2O變局 · 眾安招股 · 打破剛兌

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    tcj56xbn66 發表在 痞客邦 留言(0) 人氣()