您現(xiàn)在的位置:海峽網(wǎng)>新聞中心>IT科技>科技前沿
分享

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

內(nèi)功修煉到了十段,微軟打算讓Suphx出來走兩步。

今年6月,由微軟亞洲研究院開發(fā)的麻將AI系統(tǒng)Suphx成為首個在國際專業(yè)麻將平臺“天鳳”上榮升十段的AI系統(tǒng),這是目前AI系統(tǒng)在麻將領(lǐng)域取得的最好成績,其實力超越該平臺公開房間頂級人類選手的平均水平。

今天,微軟首次對外正式披露了該項目的詳細進展,這個項目由微軟亞洲研究院副院長劉鐵巖帶隊的四人團隊組成,用時一年,成績顯著。

大家可能有很多疑問,麻將AI和我們熟知的圍棋AI有哪些不同?都是人工智能那誰更厲害?麻將AI又能做什么?網(wǎng)易智能同微軟團隊進行了深入的交流。

他們?yōu)槭裁催x擇麻將!

實際上,打造麻將AI要比打造已經(jīng)壓制人類的谷歌圍棋AI難度更大。因為如果是圍棋,棋局信息是公開的,但對于麻將而言,有太多的隱藏信息,并且有更多的隨機性。

換句話講,麻將這類非完美信息游戲,與圍棋、象棋等完美信息游戲相比,對人工智能來說具有更大的挑戰(zhàn)性,如果說圍棋的可觀測狀態(tài)信息是10的172次方,隱藏的不確定信息為0,那么,麻將的可觀測狀態(tài)信息則是10的121次方,可怕的是隱藏的不確定信息達到了10的48次方。

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

劉鐵巖向網(wǎng)易智能表示,我們生活的世界是由許許多多的隨機事件構(gòu)成的,而且在很多情況下,無法知曉的信息也許遠多于我們能夠掌握的信息,而我們?nèi)匀灰谶@樣信息不完全的條件下做出大大小小的決策。

“AI在非完美信息游戲中的突破,將有助于協(xié)助人類應(yīng)對更多高度復(fù)雜的現(xiàn)實問題,尤其是在智能交通、金融投資等容易受到隨機突發(fā)狀況影響的場景中“。他談到。

AI如何在天鳳“打怪升級”

據(jù)介紹,由于長期在民間廣為流傳,不同地區(qū)的麻將玩法非常多樣,缺乏統(tǒng)一的規(guī)則標準和評價體系。日本在線麻將競技平臺“天鳳”,因其完善的競技規(guī)則、專業(yè)的段位體系,成為專業(yè)麻將平臺,受到職業(yè)麻將界的廣泛承認。

劉鐵巖介紹,天鳳平臺為高水平麻將玩家提供兩種競技房間:“特上房”對四段以上所有玩家免費開放,允許AI參與游戲,目前所有玩家在此房間的最高段位是十段;

“鳳凰房”僅對七段以上的人類付費玩家開放,目前不允許AI參與游戲,在該房間能夠達到的最高段位是十一段,稱為“天鳳位”。自天鳳平臺在2006年推出以來,全平臺達到四人麻將天鳳位的麻將高手僅有13位[JL1] ,曾經(jīng)達到過十段的選手約有180位,而現(xiàn)役十段的人類選手也僅有十幾位。

而微軟亞洲研究院開發(fā)的麻將AI系統(tǒng)Suphx于3月登陸天鳳平臺,在AI能夠參與的公開競技房“特上房”,Suphx與人類選手展開了5000余場四人麻將對局,在這5000余場對局中,Suphx的穩(wěn)定段位超過了8.7。

劉鐵巖透露,他們也在和天鳳平臺探討,以怎樣的方式讓Suphx進入還不允許AI參與的鳳凰房。

麻將AI到底難在哪?

與象棋、圍棋、德州撲克等棋牌類游戲相比,麻將具有更復(fù)雜的隱藏信息和更高的難度。

總體而言,微軟亞洲研究院將麻將AI面臨的挑戰(zhàn)總結(jié)為以下三點:

首先,巨大的狀態(tài)空間:與只有52張牌的德州撲克相比,136張麻將牌的排列組合可能性更多。同時,麻將中同一個玩家兩次出牌之間,夾雜了其他三個玩家的出牌和自己摸的底牌,可能出現(xiàn)的不同局面數(shù)目非常巨大。值得特別指出的是,在麻將中,4位玩家的出牌順序是不固定的,任意一位玩家的“吃碰杠”都可能使出牌順序突然改變,導(dǎo)致游戲樹不規(guī)則、且動態(tài)變化。這些特點使麻將很難直接利用AlphaGo等棋盤游戲AI常用的蒙特卡洛樹搜索算法。

其次,非完美信息博弈:象棋和圍棋屬于完美信息游戲,玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏信息。具體而言,麻將中每個玩家可以有13張手牌,另外還有84張底牌。對于一個玩家而言,他只知道自己手里的13張牌和之前已經(jīng)打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌,所以最多可以有超過120張未知的牌[JL2] 。這么多的未知信息使得麻將的難度非常高。一方面,由于隨機性太大,玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌,也無法避免不確定性對于游戲走向的影響。這將對AI模型的訓(xùn)練帶來很大挑戰(zhàn):AI模型很難發(fā)現(xiàn)已知牌面信息和最優(yōu)打法之間的邏輯鏈路。另一方面,豐富的隱藏信息導(dǎo)致游戲樹的寬度非常大,對樹搜索算法的可行性提出了進一步的挑戰(zhàn)。

其三,復(fù)雜的獎勵機制:日本麻將的規(guī)則是“無役不能和牌”,多樣的特殊牌面構(gòu)成了復(fù)雜的“役種”和番數(shù)計算規(guī)則。一輪游戲共包含8局,單局得分與役種和番數(shù)相關(guān),最后根據(jù)8局的得分總和進行排名,來形成最終影響段位的點數(shù)獎懲。因此有時麻將高手會策略性輸牌,例如,在第8輪時如果A玩家已經(jīng)大比分領(lǐng)先第二名,他可能會故意放炮給排名第四的玩家,來防止總分被排名第二的玩家反超,保證自己在最終結(jié)算時獲得最大的點數(shù)獎勵。這為構(gòu)建高超的麻將AI策略帶來了額外的挑戰(zhàn),AI需要審時度勢,把握進攻與防守的時機。

三大技術(shù)見招拆招

“面對麻將游戲的巨大挑戰(zhàn),AI僅靠強大的計算力無法從根本上解決問題,而需要更強的直覺、預(yù)測、推理和模糊決策能力,“微軟亞洲研究院副院長、機器學(xué)習領(lǐng)域負責人劉鐵巖博士表示。他們的主要技術(shù)應(yīng)用可以概況為先知教練、全盤預(yù)測、自適應(yīng)決策。

據(jù)了解,微軟亞洲研究院針對麻將的特點與難點嘗試了一系列基于強化學(xué)習的新算法,比如,為了應(yīng)對巨大的狀態(tài)空間,研究團隊引入了全新的機制對探索過程的多樣性進行動態(tài)調(diào)控,讓Suphx可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能;另一方面,一旦某一輪的底牌給定,其狀態(tài)子空間會大幅縮小;所以研究團隊讓Suphx在推理階段根據(jù)本輪的牌局來動態(tài)調(diào)整策略,對縮小了的狀態(tài)子空間進行更有針對性的探索,從而更好地根據(jù)本輪牌局的演進做出自適應(yīng)的決策。

微軟麻將AI來了!第一波人類高手已經(jīng)被打爆

其次,針對非完美信息博弈的挑戰(zhàn),Suphx嘗試了先知教練技術(shù)來提升強化學(xué)習的效果。其基本思想是在自我博弈的訓(xùn)練階段利用不可見的一些隱藏信息來引導(dǎo)AI模型的訓(xùn)練方向,使其學(xué)習路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑,從而倒逼AI模型更加深入地理解可見信息,從中找到有效的決策依據(jù)。

另外,對于麻將復(fù)雜的牌面表達和計分機制,研究團隊還利用全盤預(yù)測技術(shù)搭建起每輪比賽和8輪過后的終盤結(jié)果之間的橋梁??梢宰孉I理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導(dǎo),并使得Suphx可以學(xué)會一些具有大局觀的高級技巧。(文/丁廣勝)

責任編輯:肖舒

       特別聲明:本網(wǎng)登載內(nèi)容出于更直觀傳遞信息之目的。該內(nèi)容版權(quán)歸原作者所有,并不代表本網(wǎng)贊同其觀點和對其真實性負責。如該內(nèi)容涉及任何第三方合法權(quán)利,請及時與ts@hxnews.com聯(lián)系或者請點擊右側(cè)投訴按鈕,我們會及時反饋并處理完畢。

最新科技前沿 頻道推薦
進入新聞頻道新聞推薦
首屆福建中青年美術(shù)書法作品雙年展在省
進入圖片頻道最新圖文
進入視頻頻道最新視頻
一周熱點新聞
下載海湃客戶端
關(guān)注海峽網(wǎng)微信
?

職業(yè)道德監(jiān)督、違法和不良信息舉報電話:0591-87095414 舉報郵箱:service@hxnews.com

本站游戲頻道作品版權(quán)歸作者所有,如果侵犯了您的版權(quán),請聯(lián)系我們,本站將在3個工作日內(nèi)刪除。

溫馨提示:抵制不良游戲,拒絕盜版游戲,注意自我保護,謹防受騙上當,適度游戲益腦,沉迷游戲傷身,合理安排時間,享受健康生活。

CopyRight ?2016 海峽網(wǎng)(福建日報主管主辦) 版權(quán)所有 閩ICP備15008128號-2 閩互聯(lián)網(wǎng)新聞信息服務(wù)備案編號:20070802號

福建日報報業(yè)集團擁有海峽都市報(海峽網(wǎng))采編人員所創(chuàng)作作品之版權(quán),未經(jīng)報業(yè)集團書面授權(quán),不得轉(zhuǎn)載、摘編或以其他方式使用和傳播。

版權(quán)說明| 海峽網(wǎng)全媒體廣告價| 聯(lián)系我們| 法律顧問| 舉報投訴| 海峽網(wǎng)跟帖評論自律管理承諾書

友情鏈接:新聞頻道?| 福建頻道?| 新聞聚合