登錄  
飄劍的博客
  個人資料

用戶:飄劍
網名積分:1500
實名積分:1500
博客等級:0
博客訪問:194846
關注粉絲:8
  好友
暫無好友
  正文
AlphaZero的天敵——奇襲象棋 2018-12-11 15:04:00 類別:棋軟

            AlphaZero上了《科學》封面,有關的論文正式發表,又一次引起世界的關注。這兩年中Alpha系列棋類人工智能程序可謂出盡了風頭,火的不得了。尤其是AlphaZero竟然不用人類的知識,只憑棋規就可以自學國際象棋、圍棋、日本將棋,并且戰勝他們的頂級棋軟,人類棋手已經到了望塵莫及的地步。

        AlphaZero雖然如此風光,但并非就無所不能,實際上它的天敵30多年以前就已經誕生,這就是奇襲象棋。目前的AlphaZero如果和一個幾歲的孩童比賽下奇襲象棋,失敗是大概率的事情。

        在AlphaZero的文章中有這樣兩句話:1,“DeepMind說,現在AlphaZero已經學會了三種不同的復雜棋類游戲,并且可能學會任何一種完美信息博弈的游戲”,2,“為了創建能夠解決各種現實問題的智能系統,它們需要更加靈活,能夠適應新情況。雖然目前在實現這一目標方面取得了一些進展,但AI的通用化問題仍然是研究中的一項重大挑戰,經過訓練的AI系統面對特定任務時能夠以極高標準完成,但任務只要稍有變化往往就會失敗。”這兩句話可以說明, AlphaZero不會下如奇襲象棋這樣的“不完全(完美)信息博弈”的棋類。

          完美信息博弈,是一種明確的、可知的、不需要進一步判斷就能確定的信息,AlphaZero的算法實質是將這些海量(短時間內大量的自我對弈,人幾輩子不可能作到)的對弈信息,根據規則和求勝的目標進行記憶和挑選,留下最正確(勝利)的儲存起來,名曰:深度學習。假如信息不是完美(完全)的,信息是不確定的,那么就不可能有確定的對應。這就應了這第二句話,“但任務只要稍有變化往往就會失敗。       這里的稍有變化不是指下棋中的各種招數的變化,指的是同一局面下任務不一定一樣,任務并不確定,可能是A也可能是B還可能都不是,或根本就是完全虛假的誘惑,這個時候AlphaZero將不知所從,它所儲存的信息再多與當前的判斷也無關聯,最多只能以某種概率瞎蒙來決策,此種狀況下程序可能會死機。

      以上情況下,如果是人類棋手下棋,人的表現將是人工智能無法比擬的,因為人的大腦本身就是在“不完美(完全)信息”環境下不斷進化而來的,人的智慧很大程度上體現在對未知的判斷、對危險性問題的處理。即便是一個幾歲的孩童,它也能察言觀色,能夠以棋手的神態舉止、下棋習慣等等因素做出判斷,雖然判斷不一定正確,但是人可以從中不斷增長經驗,不斷增長自己的洞察能力,最后形成一種正確率比較高的對未知判斷的能力。也就是說一個小孩下棋,他可能也瞎蒙,但是瞎蒙時面對不同的個體、不同的人,不斷的增長自己的能力。這些與人的閱歷、文化、性格、修養等等東西都是的聯系,是一個人綜合素質的體現。這一切一切,想要以程序的方式固定下來作為判斷的依據,簡直是不可能,因為還有時間、時機的差別、還有環境的、欲望的、情緒的、輿論影響的、··········差別。程序不可能把這些都提前都輸進去,因為這是時刻都可能變化的東西。能夠迅速了解這一切并能夠迅速進行分析的只有人才能做到。

   奇襲象棋一款“不完全信息博弈”象棋,他與象棋的區別只有車、馬、炮六只棋子,也只是在這六只棋子的暗面又布置了隱蔽的雙車、雙馬、雙炮,用翻轉的方法實現明暗的轉變,達到隱蔽意圖的目的。六只棋子之間,體現出萬事萬物之間的對比關系:表同里也同;表同里不同;里同表不同;表里都不同,這是一種開創性的、革命性的設計,使象棋變化暴增且更符合人的智慧的發揮,懸念重重、和棋大減、趣味橫生,壓制棋軟的不當使用,擺脫人工智能程序對人類棋手的無情肆虐。

      AlphaZero確實風光,但是,在這里30年前就給你預備好了敵人!

    

閱讀(2823) | 評論(1) | 轉載(0) | 舉報
評論
140.243.30.1:
飄友,見字回復
2019-1-22 10:34:00
qq飞车网名
我要評論:

匿名評論  


大師網博客 | 注冊須知
電話:13603119508  電子郵箱:[email protected]    © 2006,版權所有(象棋大師網)    冀ICP備06022471