阿法元遠超哥哥阿法狗?

我們都知道去年,阿法狗勤奮刻苦,讀遍了人世間的所有棋譜,用高超精進的棋藝,以4-1打敗了世界冠軍李世石,從此無敵天下,就差孤獨求敗了。就在前天DeepMind在世界頂級科學雜誌《Nature》上發表文章《Mastering the game of Go without human knowledge》,引發了科研學術界的巨大轟動。這篇文章讓我們知道了,阿法狗有了一個弟弟叫AlphaGo Zero阿法元,他在沒有看過一個棋譜,沒有一個人指點的前提下,從零開始,完全依靠自我的強化學習和參悟,棋藝增長,在短短三天內,成為頂級高手,以100-0擊敗哥哥阿法狗,可謂是百戰百勝。

在得知這個消息后,中國棋手柯潔在微博上發文稱「一個純凈、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了」......這可能是一種略帶調侃又無奈的情緒吧,畢竟AI的迅速發展對於人類社會來說,是利是弊,還有待定論,關鍵還是看人類如何去應用AI的發展吧。

Advertisements

不過,就這篇文章來說,阿法元的學習不受人類知識的限制,並且足夠的「低碳」。只用到了一台機器和4個TPU,極大的節省了資源。而此前版本的阿法狗在強化學習的監督學習中結合數百萬人類圍棋專家的棋譜,依靠的是多台機器和48個TPU。

據AlphaGo Zero團隊負責人Dave Sliver介紹AlphaGo Zero使用新的強化學習方法,讓自己變成老師。系統一開始甚至不知道什麼是圍棋,只是從單一神經網路開始,通過神經網路強大的搜索演算法,精心自我對弈。隨著自我對弈的增加,神經網路逐漸調整,提升預測下一步的能力,最終贏得比賽。並且DeepMind團隊發現,AlphaGo Zero獨立發現了遊戲規則,走出了新的策略,為圍棋這項古老的遊戲注入了新的見解。簡直是研究中的驚喜。

Advertisements

不過這篇文章讓大家也關注到了一個白板理論(Tabula rasa),而AlphaGo Zero最大的突破是實現了白板理論。所謂的白板理論是哲學上的一個著名觀點,認為嬰兒生下來是白板一塊,通過不斷訓練、成長獲得知識和智力。只不過現代科學了解到的事實並非如此,嬰兒生下來就有先天的一些能力,比如偏愛高熱量的食物,餓了就會哭鬧以希望得到注意。這是生物體在億萬年的演化中學來的。

作為 AI 領域的先驅,圖靈使用了這個想法。在提出的著名的「圖靈測試」的論文中,他從嬰兒是一塊白板出發,認為只要能用機器製造一個類似小孩的 AI,然後加以訓練,就能得到一個近似成人的智力,甚至超越人類智力的AI。

不過,在將這個理論應用於機器身上的同時,也許我們也可以關注到我們人類自身的學習,我們究竟該如何看待人類經驗的作用呢?勿過分依賴於經驗,還是經驗至上。

也許擺脫現有經驗模塊是意義重大的。我們的經驗是基於對世界的觀察和探索,只是這觀察結果的局部正確可能會導致後續研究的止步不前。同時,隨著AI的快速發展,我們不得不承認機器的學習及運算速度是遠遠超過人類的。

碎碎念之後,不禁感嘆於金庸武俠小說的思想之廣博,邏輯之精深。猶記得射鵰英雄傳中老頑童在山洞裡,左手畫圓右手畫方,就是這左右互博術,自己和自己打,不斷參悟,不斷提升自我。還有倚天屠龍記中,張三丰教張無忌太極劍,待張無忌將劍法忘得乾乾淨淨之後,讓他前去應敵。果然,人一生最大的敵人從來都只有自己,自我博弈,自我突破,自我提升。

阿法元就像一個無招勝有招的獨孤大俠,完勝

Advertisements

你可能會喜歡