Don't Miss

淺談AlphaGo演算法

By 轉載文章 on June 3, 2017

本文作者陳重鈞為零機壹觸專欄作家，同時營運創科生意，有商管碩士學位，原文刊於作者網誌

在朋友fb 上的熱烈討論中﹐分享了少少有關AlphaGo的討論。在這裡正式深入淺出寫文，解釋 AlphaGo 神袐演算法背後的邏輯。筆者覺得大部分寫 AlphaGo 的文章或報道，都寫得一般人看不明。但實際上它的演算法，並不算是深奧的演算法。

AlphaGo 的演算法，是由四部分組成：

1. Value Network，一個 deep learning 的神經網絡（Convolutional/Space Invariant Artificial Neural Network, CANN/SIANN）；
2&3. 兩個 Policy Network，一個快一個慢；
4. 所謂蒙地卡羅樹搜尋演算法，將整件事串合。

先談談蒙地卡羅樹搜尋（Monte Carlo Tree Search，一般都稱為 MCTS），其實這概念並不深奧，而且是在日常生活裡很常用的方法。

在電腦 algorithm 的範疇，講個「甚麼蒙地卡羅模擬」「甚麼蒙地卡羅方法」，其實都是和隨機有關。「蒙地卡羅方法」的定義，是「當一個問題未能夠用邏輯推理解決，就試用隨機方法解決，不斷隨機試試到正確為止」。最簡單的例子，例如年輕人未識選擇對象，嘗試跟不同異性去街，試試是否合得來；或大量買六合彩電腦票，都可以算是一種蒙地卡羅演算法。但正宗「蒙地卡羅方法」的意思，通常是用盡量多、數以萬計的隨機數，使到答案漸漸浮現出來。

一個用「蒙地卡羅方法」找 pi 的演算法，每個紅點藍點都是一次隨機（圖片來源：維基百科）

圍棋是個經典電腦工程難題，主要原因是它的「遊戲樹」（game tree）大到電腦處理不到。遊戲樹就是所有的棋局可能性。「蒙地卡羅方法」用在圍棋上，就是不斷隨機地在這「遊戲樹」中揀不同的位置，然後用上文的三個神經網絡得出三個百分率，然後用這三個百分率去引導下棋。這便大概總括了 AlphaGo 的演算法。

稱為「蒙地卡羅樹」，是因為這個不斷隨機的嘗試，最終要收納為一個樹狀結構。

讀者讀到這裡，基本上可以不看下文講神經網絡，都算對 AlphaGo 的演算法有個概念。

繼續講講那三個神經網絡是做甚麼。

Value Network 只有一個，用途是「估計」現在的局勢，AlphaGo 自己的勝算是多少。「估計」打了星，是因為這真的是估計，而不是數學：因為是用神經網絡做。設計 AlphaGo 的電腦科學家，是以模擬人腦捉棋的思維去想。若你捉過棋，例如飛行棋、鬥獸棋也可以：通常捉到某處，你會大約腦中知道，自己是處於上風或下風。這個「處於上風或下風」的人腦估計，就是 Value Network 的主要功能。

神經網絡不是邏輯組成的，是個比較像人類的「感性思維」的技術。結構不複雜，讀 Computer Science 的大學一年級生也做到出來，結構詳情網上有很多，這篇主要講 AlphaGo 不贅。而且筆者會建議，看不明人工神經網絡的人，跳過不看，總之知道它是個「用電腦扮人腦」的演算法就可以。因為看不明這個，一樣可以明白 AlphaGo 的演算法。

其實用神經網絡去辨認圍棋格局，有點像用人工智能（下稱AI）認一張 19×19 pixel 闊的黑白相片。

一個超級簡化的人工神經網絡模型，可用作解釋原理：左邊是輸入，要不斷以計算廻圈改線上的 weight 使右邊y=t，完成一個訓練數據。一般人工神經網絡都要用上百萬數據做數億廻圈以達致準確。（圖片來源：qcloud.com）

Convolutional Artificial Neural Network 的設計，右半由上圖的人工神經網絡組成（圖片來源：pyimagesearch）

講過 Value Network，便說說 Policy Network。這就是當你下棋時，例如飛行棋 / 鬥獸棋，通常到你行棋，你見到個棋局大約會有個「最有可能贏的下一步」的想法。Policy Network 做的就是這個功能。

快的 Policy Network 準確度較低，慢的 Policy Network 準確度較高。兩者都會用來估計下一步。AlphaGo 演算法中，亦加入了個「盡量不用太常見的下法」的變數。

以上便大約講解了 AlphaGo 的整個演算法。

有朋友提出疑問，在這裡寫一下。

問：AlphaGo 的技術可以用在其他地方嗎？

答：其實 AI 的演算法，好多都是只在該 AI 精通的地方可行，AlphaGo 也只是 ANI（Artificial Narrow Intelligence）。AlphaGo 可以用在其他棋類或遊戲上，但大部分遊戲都沒有需要，因為遊戲樹沒有圍棋大。而這個研究是啟發了電腦科學對包含神經網絡的 AI的潛能，提升期望。而包含神經網絡的 AI，則可以用在很多地方；AlphaGo 的示範是一個大到不能以邏輯或數學去完全計算的問題。

問：圍棋定麻雀複雜點？有無其他問題複雜過圍棋？

答：以人類歷史上發明過的遊戲，包括棋、賭博、電子遊戲，圍棋都是無出其右的。筆者在《信報》零機壹觸專欄講過：「國際象棋的遊戲樹大小為10^123（10的123次方）；圍棋則是10^360。試比較中國象棋10^150，和黑白棋10^58。」麻雀是 10^12。

問：其他人做不做到 AlphaGo？

答：大概做到。你只要找部大型電腦，輸入大量訓練資料，然後給它大量時間去訓練，並不斷嘗試提升準確度，大概都可以做到。不過這個程度的投資，不如做其他更有盈利的項目好過。

問：AlphaGo 象徵著甚麼？

答：圍棋一直以來都是人類最後防線。圍棋輸給電腦，正式揭開 AI 時代的序幕：電腦已在所有對戰遊戲中完勝人類。想像下：玩電腦第一身射擊遊戲，20人類對20電腦，電腦科學現有技術，已有能力 100 局 100 勝。

AlphaGo 的技術並不是新事，都是上世紀90年代已有；AlphaGo 的突破只是演算法，而不是科技。而且 AlphaGo 勝棋的原因，很大程度是它的龐大運算力和訓練時數。所以這事情上，對學術和專業領域的震撼不大，倒是很有娛樂性。

Tic-Tac-Toe的整個「遊戲樹」。圍棋的遊戲樹要比這個大上許多。（圖片來源：維基百科）

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI AlphaGo

Tweet

Pin It

Related Posts

Perplexity融資5億｜AI搜尋引擎初創成獨角獸貝索斯輝達跟投

Perplexity融資5億｜AI搜尋引擎初創成獨角獸貝索斯輝達跟投

AI之戰｜路透消息：中國多家學術機構繞過美國禁令取得AI晶片

AI之戰｜路透消息：中國多家學術機構繞過美國禁令取得AI晶片

香港資訊及通訊科技獎｜HKICT Awards今起接受報名今年增最佳AI應用獎

香港資訊及通訊科技獎｜HKICT Awards今起接受報名今年增最佳AI應用獎

騰訊成內地AI專利王｜AI專利數量摘冠 10年1.56萬項超越百度平安保險

騰訊成內地AI專利王｜AI專利數量摘冠 10年1.56萬項超越百度平安保險

Latest News

本地創科動態｜中大藉大數據揪出老化神經元
所謂「細胞周期」是指細胞持續分裂、生長，再到下次分裂的循環過程。不過，神經元在大腦發育成熟後，便會停止分裂、無法再生。香港中文大學生命科學學院助理教授周熙文領導的團隊，最近研發一套基於大數據的生物信息分析流程，有助識別人類腦部變異神經元的特徵及生物標記，證實重新進入細胞周期的神經元，對阿茲海默症及相關腦退化症，其發病及疾病進展有重大影響。

Posted April 25, 2024

0

Perplexity融資5億｜AI搜尋引擎初創成獨角獸貝索斯輝達跟投
美國人工智能（AI）搜尋引擎初創Perplexity宣布，獲得B1輪融資6270萬美元（約4.9億港元），由《時代100》評為「AI領域最具影響力百大人物」的企業家Daniel Gross領投；Perplexity幾位早期支持者包括亞馬遜創辦人貝索斯、輝達亦有跟投。該公司累籌1.65億美元（約12.87億港元），估值突破10億美元（約78億港元），順利晉身「獨角獸」企業行列。

Posted April 25, 2024

0

4.22走塑｜紙飲管VS塑膠飲管？紙飲管好易淋？「走塑」最優解是什麼？
首階段管制「走塑」措施本週一（22日）正式實施，本港餐廳即日起全面禁止提供及出售發泡膠餐具、膠飲管、攪拌棒、膠碟、膠食具（叉刀匙），但政府亦為「走塑」設置六個月適應期，希望市民可以藉此提高環保意識。自「走塑」後，有市民反映，堂食所用的紙飲管浸在飲品中容易變淋，有些甚至無法篤破手搖茶的包裝。那麼紙飲管和膠飲管在環保方面差別有多大？生產成本又差多少？紙飲管是環保的最優解嗎？市面上還有哪些環保飲管選擇？塑膠飲管優缺點｜紙質飲管優缺點｜環保方面比較｜竹飲管｜玻璃飲管｜不鏽鋼飲管｜總結走塑｜塑膠飲管有哪些優缺點？塑膠飲管優點：由於塑膠硬管的成本十分低廉，因此餐飲行業普遍較多使用。在耐用性方面，塑膠飲管相對紙質飲管而言較為堅固，不會輕易折斷或變形，無論是扎破手搖茶包裝和篤檸檬茶中的檸檬都不在話下。而因為塑膠飲管不會因為飲品溫度的變化而變軟甚至破裂，因此在飲用冷熱飲料時表現良好。同時，塑膠飲管通常不會影響飲料的味道，且使用後可立即丟棄，所以使用起來非常方便。缺點：大部份塑膠飲管都是以聚丙烯這種以石油來生產的塑料來製造，而有研究顯示，聚丙烯的化學物質會滲進液體之中，尤其當暴露在熱力和酸性飲料之下，所釋放的化學物質會影響人體的雌激素水平。而人體的肝臟、神經系統亦有可能受到危害。而由於塑膠飲管的原材料大多數由聚丙烯（PP）或聚苯乙烯（PS）製成，在自然環境中降解十分困難，通常需要數百年甚至更長時間才能夠被完全分解。走塑｜紙質飲管有哪些優缺點？優點：由於一般的紙質飲管通常由可再生的原材料製成，如木漿等，因此在可以在自然環境中由微生物的活動進行降解，時長通常由幾週到幾個月不等。該降解過程自然且無害，不會在環境中積累持久的污染物，也不會對野生動物造成傷害，因此對比塑膠飲管更為環保。缺點：雖然紙飲管不失為一種環保的選擇，但是其缺點亦十分明顯。比如相比在液體中較為堅固的塑膠飲管，紙飲管若長時間浸泡在飲品，特別是熱飲中更容易變軟甚至破碎。因此，在使用感受方面，有不少人都反應由於紙飲管太容易變軟斷裂，從而不得不一次拿多一根飲管備用，從某種方面來講此舉亦不利於環保。...

Posted April 24, 2024

0

培訓員工迎數字化機遇（車品覺）
筆者在很多培訓場合中都提及過，在數字化轉型、人工智能及大數據的全面運用，戰略規劃的重要性不容忽視。正如阿里巴巴（09988）所言，「路走對了就不怕遠」，企業需要一張高層與員工都看得明白的施工路線圖。此外，在企業數字化的過程中，需要依靠大量的團隊協作，絕非只是資訊科技部門的責任，因此，如果不重新審視或調整部門架構及員工的崗位職責，即使有關鍵績效指標（KPI）及大老闆的口頭重視，也很難在這個數據驅動的時代取得成功。

Posted April 24, 2024

0

IBM設免費科技網課｜夥拍VPET 橫跨主流中學及專上教育
科技急速發展，培訓本地人才工作需不斷推進。國際商業機器（IBM）香港區總經理潘鳳瑤在網誌表示，教育是一項重要的社會使命，IBM與學校、大學、非營利組織及行業夥伴合作，為各行各業培養更多樣化人才。她以賽馬會多元出路計劃CLAP-TECH為例，在香港浸會大學等夥伴支持下，為全港首個結合職業及專業教育培訓（VPET）學習途徑，橫跨主流中學及專上教育，讓學生掌握所需軟硬技能，並通過IBM提供暑期實習機會。

Posted April 24, 2024

0

全球首架螺旋單車｜英國YouTuber研發開放CAD設計程式碼供下載
英國YouTuber布魯頓（James Bruton）（圖）研發世上第一輛螺旋單車，最大特色是設有4組麥卡納姆輪（Mecanum Wheel），除了像平衡車Segway不易翻側，透過控制車輪的速度和方向，能任意移動或原地旋轉。他已在Patreon眾籌平台，開放單車的CAD設計及程式碼，讓網民3D打印各項組件。

Posted April 24, 2024

0

Sony新品｜穿戴式冷暖機連續用足7.5小時
索尼（Sony）在香港推出新一代穿戴式冷暖調溫裝置REON POCKET 5（圖），新機除了有冷熱功能，同時提供5級降溫效果，最低可降溫至攝氏23.5度。若以第四級製冷，能連續使用約7.5小時。產品於5月7日正式發售，售價為1499港元；由即日起至5月6日預購，更附送專用機套（價值180元）。

Posted April 24, 2024

0

EJ Tech Video

POPULAR POSTS

南韓揭新型詐騙手法｜黑客鑽蘋果提貨漏洞行騙主謀疑身處內地？

曇花一現？｜iOS首款紅白機模擬器作者出於恐懼主動下架

 Tesla 救人｜美國男突發心臟病靠Model Y保命

 華為獨食中國市場？｜iPhone 首季銷量跌19%華為反增69.1%

三星跑贏蘋果｜本港5G網速測試三星S24勝iPhone 15

中國速度的低空經濟（廖錦興博士）

電動車能源｜港企研氫燃料電池轉化率提三成安全性可保障

 APP Store｜iOS非官方App Store上架年費12.5元

 中國禁西方Apps｜WSJ：Apple 從中國Apps Store 下架WhatsApp

foodpanda｜賴偉昕：正面競爭推動行業進步 foodpanda數據分析回應市場變化分析點餐喜好按區變陣

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe