升級AlphaGo自練絕世棋藝 閉關3天克「前輩」 只需4枚晶片

By on October 20, 2017

原文刊於信報財經新聞

新版本的AlphaGo Zero無師自通,閉關自修3天就練成一身「絕世武功」。(網上圖片)

新版本的AlphaGo Zero閉關自修3天就練成一身「絕世武功」。(網上圖片)

人工智能(AI)技術更上一層樓,多次跟世界圍棋高手「挑機」都所向披靡的AI棋王AlphaGo成功進化。新版本的AlphaGo Zero無師自通,透過自行學習及摸索,閉關自修3天就練成一身「絕世武功」,更迅速完勝「前輩」版本的AI程式。研究人員希望,這套AI程式在棋壇打遍天下無敵手後,能夠開始轉攻製藥、設計新材料等新領域。

想出3000年來未有之策略

以往版本的AlphaGo能稱霸圍棋界,全因預先學習了各路高手的棋藝秘笈,在比賽上依賴大量棋譜加以運算。AlphaGo Zero則打破傳統,由零開始。研究人員只教了圍棋的基本玩法,AlphaGo Zero就能「閉門造車」,在毋須學習人類棋譜下,3天內透過自行演算,自身跟自身下了490萬局棋來精通棋藝。

AlphaGo Zero學習了3天,就以100比0大勝在去年曾戰勝韓國棋手李世乭的第二代AlphaGo,並在40天內自成一派新策略,擊敗曾打贏世界排名第一柯潔的第三代AlphaGo,超越舊版本,且想出了圍棋3000年歷史中都未有人類想到的下棋策略。研究人員形容今次是巨大突破,認為是AI只須靠自身摸索便能迅速自學人類的知識。敗給舊版的柯潔也慨嘆,在網上留言稱:「一個純粹自我學習的AlphaGo是最強的……人類太多餘了。」

這種AI透過嘗試時出錯來自我學習的過程,名為強化學習(reinforcement learning),而目前大部分AI都是需要人類輸入數據才可運作。這次研究顯示,AI的能力不是靠輸入多少數據來取勝,而是靠演算法的質量。

擬應用於藥物研究

AlphaGo Zero另一優勝之處,是它只需要4個張量處理單元(TPU)晶片,遠較之前版本AlphaGo的48個為少。

AlphaGo系列由Alphabet旗下子公司DeepMind負責,DeepMind行政總裁兼創辦人哈薩比斯(Demis Hassabis)稱,希望AlphaGo不僅能贏得圍棋遊戲,更希望應用於其他範疇,利用AI的運算,替人類找出本來要花數百年才研究得出的領域。公司現正着手把AlphaGo Zero用於研究複雜的蛋白質結構,以尋求針對各種疾病的藥物。近年,Alphabet對醫療行業愈來愈有興趣。

支持 StartupBeat

如欲投稿、報料,發佈新聞稿或採訪通知,按這裡聯絡我們