[No.H100]
據(jù)國(guó)外媒體報(bào)道,人工智能技術(shù)越來(lái)越厲害,近日,一款名為“Pluribus”的人工智能撲克機(jī)器玩家在頗受歡迎的“德州撲克”游戲中擊敗了人類頂級(jí)職業(yè)撲克手。這是人工智能程軟件首次在超過(guò)兩名玩家的游戲中擊敗人類精英玩家。
這款撲克機(jī)器玩家的開(kāi)發(fā)者,包括美國(guó)卡耐基梅隆大學(xué)團(tuán)隊(duì)以及社交網(wǎng)絡(luò)公司Facebook旗下的人工智能研究團(tuán)隊(duì)。
據(jù)國(guó)外媒體報(bào)道,美國(guó)紐約大學(xué)研究游戲和人工智能的學(xué)者朱利安·滕力思(Julian Togelius)表示:“雖然從兩名玩家增加到六名似乎是漸進(jìn)的,但這實(shí)際上是一件大事。多人游戲是目前正在研究的其他人工智能游戲中一個(gè)空白的領(lǐng)域。”
據(jù)悉,撲克機(jī)器玩家Pluribus的開(kāi)發(fā)團(tuán)隊(duì)過(guò)去已經(jīng)開(kāi)發(fā)了一款名為L(zhǎng)ibratus的人工智能軟件,它在雙人撲克比賽中擊敗了專業(yè)人士。隨后,團(tuán)隊(duì)通過(guò)升級(jí)Libratus構(gòu)建了Pluribus,并創(chuàng)建了一個(gè)只需要更少計(jì)算能力就能玩比賽的人工智能機(jī)器玩家。
在為期12天的訓(xùn)練中,這個(gè)機(jī)器玩家在一萬(wàn)多手撲克游戲中打敗了15名頂尖的人類選手。
美國(guó)內(nèi)基梅隆大學(xué)的諾姆·布朗(Noam Brown)和Facebook公司下屬的紐約人工智能研究所表示:“許多人工智能研究人員曾經(jīng)認(rèn)為,用我們的技術(shù)不可能做到這一點(diǎn)。”
實(shí)際上,越來(lái)越多的人工智能軟件已經(jīng)涉足了人類游戲中,比如上述撲克機(jī)器玩家Libratus,以及谷歌機(jī)器學(xué)習(xí)公司DeepMind的圍棋玩家。在兩個(gè)玩家的零和游戲中,這些人工智能玩家被證明是難以戰(zhàn)勝的。
在這些場(chǎng)景中,總是有一個(gè)贏家和一個(gè)輸家,博弈論提供了一個(gè)明確的最佳策略。
但博弈論對(duì)于涉及多個(gè)利益沖突方、且沒(méi)有明確的贏輸條件的情形就沒(méi)有那么有用了——這些情況反映了現(xiàn)實(shí)生活中的大多數(shù)挑戰(zhàn)。
布朗表示,通過(guò)解決多人撲克游戲,Pluribus為未來(lái)人工智能解決這類復(fù)雜問(wèn)題奠定了基礎(chǔ)。他認(rèn)為他們的成功是邁向自動(dòng)化談判、更好的欺詐檢測(cè)和自動(dòng)駕駛汽車等復(fù)雜應(yīng)用的一步。
技術(shù)復(fù)雜性
為了解決六人撲克游戲的問(wèn)題,布朗和一位同事從根本上改進(jìn)了Libratus的搜索算法。大多數(shù)人工智能游戲玩家會(huì)通過(guò)決策樹(shù)向前搜索,以在給定的情況下做出最佳的移動(dòng)。比如,Libratus軟件在選擇動(dòng)作之前會(huì)搜索到游戲的結(jié)束。
但額外玩家?guī)?lái)的復(fù)雜性使得這種策略不切實(shí)際。撲克需要使用隱藏的信息來(lái)進(jìn)行推理,玩家必須制定出一個(gè)策略,考慮對(duì)手手中可能有什么牌,下一步會(huì)怎么出牌。
但是更多的玩家使得在任何特定時(shí)刻選擇一個(gè)動(dòng)作變得更加困難,因?yàn)檫@涉及到評(píng)估更多可能性。
關(guān)鍵的突破是開(kāi)發(fā)出一種方法,讓人工智能玩家Pluribus能夠在只看后續(xù)幾個(gè)牌不是比賽結(jié)束后做出正確的選擇。
Pluribus使用一種類似DeepMind公司人工智能圍棋玩家的的強(qiáng)化學(xué)習(xí)形式,從零開(kāi)始自學(xué)。它從隨機(jī)地玩撲克開(kāi)始,計(jì)算出哪個(gè)動(dòng)作贏得更多的錢而改進(jìn)。每手牌結(jié)束后,它都會(huì)回顧自己的玩法,并檢查如果采取不同的選項(xiàng),看它是否能賺到更多的錢。如果替代方案能帶來(lái)更好的結(jié)果,那么未來(lái)更有可能選擇這一方案。
通過(guò)與自己對(duì)弈數(shù)萬(wàn)億張牌,Pluribus創(chuàng)造了一種基本策略,可以在比賽中使用。在每個(gè)決策點(diǎn),它都會(huì)將游戲的狀態(tài)與自己的藍(lán)圖進(jìn)行比較,并提前搜索一些步驟,然后決定是否可以改進(jìn)它。由于它自學(xué)了在沒(méi)有人類輸入的情況下玩游戲,人工智能獲得一些人類玩家通常不會(huì)使用的撲克策略。
AI效率
Pluribus的成功很大程度上歸功于它的運(yùn)行效率。當(dāng)進(jìn)行撲克游戲時(shí),它只運(yùn)行在兩個(gè)中央處理器。相比之下,DeepMind最初的圍棋玩家在首次擊敗頂級(jí)專業(yè)人士時(shí),使用了近2000個(gè)處理器, Libratus使用了100個(gè)處理器。
當(dāng)與自己對(duì)弈時(shí),Pluribus在大約20秒內(nèi)就能打出一只手——大約是專業(yè)玩家速度的兩倍。
事實(shí)證明,游戲是衡量人工智能進(jìn)步的一種很好的方式,因?yàn)闄C(jī)器人可以在與頂尖人類的比賽中得分,而且如果它們獲勝,還能被客觀上譽(yù)為超人。但是布朗認(rèn)為人工智能的發(fā)展已經(jīng)超出了他們的游戲范圍。他說(shuō):“這一次是撲克比賽中最后的挑戰(zhàn)。”
但是滕力思認(rèn)為人工智能研究人員和游戲還有很長(zhǎng)的路要走。他說(shuō):“還有很多未開(kāi)發(fā)的領(lǐng)域。”很少有人工智能能夠掌握一種以上的游戲,這需要綜合能力而不是特定技能。
滕力思表示,不僅僅是玩現(xiàn)有的游戲,“設(shè)計(jì)游戲也是一個(gè)巨大的人工智能挑戰(zhàn)領(lǐng)域。”(騰訊科技審校/承曦)
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...