人工知能はすでに最高のポーカープレイヤーを打ち負かしています

人工知能は、最近研究され始めた科学です。それにもかかわらず、私たちはすでにこの分野で驚異的な進歩を目撃しており、この主題に関する研究が人類にもたらす可能性を示しています。

AI の最も印象的な偉業の 1 つは、ディープブルーマシンを通じて、世界で最も偉大なチェスプレーヤーに匹敵する (そしてほぼ超える) ことができたことです。ガルリ・カスパロフは 1997 年、IBM マシンと対峙したとき、非常にデリケートな状況を経験しました。その瞬間、多くの人は、人工知能がついに人間を超えたと考えるようになりました。

しかし、ポーカーなどの他のスポーツについては、AI が人間と対決できるでしょうか?オンラインカジノゲームサイト Betwayのコンテンツチームは調査を実施し、次の情報を導き出しました。

なぜポーカーはこれまでと違うのでしょうか?

人工知能がポーカーでもチェスと同じようにパフォーマンスを発揮できると信じられがちですが、これは完全に真実ではありません。カードゲームはボードゲームとはまったく異なるスポーツです。

チェスでは、すべての情報がボード上で入手できます。 AI にとって、それぞれの動きの後に利用可能な何千もの動きを計算して探索するのは簡単であり、これに基づいてマシンがこのモダリティでうまくなり始めます。ただし、ポーカーでは、多くのカードゲームと同様に、予測不可能性が敗北と勝利の決定要因となります。

ゲーム中、プレイヤーが利用できる情報は、手札自体 (2 枚のカード) とテーブルに開かれた 5 枚のカードの構成だけです。ゲームが進化する際の流動性も考慮する必要があります。

「悪いハンド」でゲームを開始することも可能ですが、裏返されたカードに基づいてそれが優れていることがわかります。優れたポーカープレーヤーは、この予測不可能性に対処し、それに基づいて正しい決定を下す方法を知る必要があります。これは人工知能の課題でもあります。

ポーカーで勝つための AI の課題

ポーカーの複雑さは、このゲームで最も有名な形式であるテキサスホールデムで人間に匹敵する能力を持つマシンが出現するまでに非常に長い時間がかかった理由です。このスタイルでは、各プレイヤーは 2 枚のカードを受け取ります。その後、さらに 5 つがテーブル上にオープンされます。最初は 3 つ一緒に (フロップ)、次に 2 つずつ (ターンとリバー)、一度に 1 つずつオープンされます。

各ステージの間にプレイヤーからの賭けが行われる場合があり、目的は (手札とテーブルから) 5 枚のカードを集めて可能な限り最高のゲームを作成することです。この方式にはいくつかのバリエーションがあります。たとえば、制限の有無にかかわらず賭けをしたり、複数のプレーヤーが参加するテーブルを用意したりすることが可能ですが、これはほとんどのチャンピオンシップで見られるシナリオです。ただし、ヘッズアップ変数(ヘッズアップとも呼ばれます) は、実際には別のゲームです。このゲームでは、2 人のプレイヤーがどちらかが負けるまで対戦します。

国際的なチェスマスターでプロのポーカープレーヤーでもあるヴィニシウス・マルケスは、バリエーションの複雑さを次のように説明しています。テーブルのプレイヤーの数が少ないほど、誰かがハイゲームをする可能性が低いため、[関与する] スキルは高くなります。テーブルにいるプレイヤーが多ければ多いほど、誰かに非常に良いハンドが配られる可能性が高くなるため、ハンドをより慎重に選択する必要があります。ヘッズアップはそれ自体がゲームであり、最も重要なことは相手のスタイルに適応することですが、常に攻撃的な行動をすることです。」

ポーカーで最初に勝ったマシン

テキサスホールデムのバリエーションを考慮すると、制限付きのヘッズアップが最も単純なモードです。このスタイルでは、マシンがプレイヤーと向かい合い、賭けのオプションが制限されます。これに基づいて、カナダのアルバータ大学は、この方式の長期戦で誰とでも対戦でき、最終的により多くの資金を獲得できる最初のシステムであるケフェウスの開発に成功しました。

このシステムを専門とする研究グループは 1997 年からプログラムを開発し、2015 年に Cepheus を生み出す結果に至りました。このロボットは 2 か月かけて数十億のハンドをプレイし、受け取ったカード、賭けの決定と結果を含むデータベースを構築しました。

広範なトレーニングの終わりに、AI は考えられるすべてのハンドの記録を持ち、どの決定が利益を生み、どの決定が損失を生み出したかを記録しました。しかし、特にポーカーのバリエーションが他にもあったことを考慮すると、研究者たちはまだ結果に満足していませんでした。克服する。何かが欠けているように見えましたが、その問題をなんとか要約してくれたのはマルロス・マチャドでした。アルバータ州で AI の博士号を取得し、そこでケフェウスを作成したグループと接触したこのブラジル人は、次のように述べました。 ” 。

バランスは勝利ではない

ジョン・ナッシュは、意思決定とプレイヤーがリターンを向上させるために採用する戦略を研究する数学の分野であるゲーム理論への貢献により、ノーベル経済学賞を受賞しました。ナッシュの研究はバランスポイントを発見しました。

バランス？マチャドは、これが「どの選手もこの均衡から抜け出す動機を持っていない」状況であると説明する。彼らが自分たちが生み出している活動以外のことをすれば、さらに苦しむことになるでしょう。」この状況をよく表している話があります。

2 人の容疑者が犯罪を犯したとして警察に逮捕されたと想像してください。当局は彼らを有罪にするのに十分な証拠を持っていないため、合意に達するために彼らは別室に置かれている。一方が自白し、もう一方を裏切った場合、その人は釈放され、同僚は懲役10年となる。両方とも自白した場合、それぞれ懲役5年を宣告される。二人とも黙秘すれば、それぞれ懲役1年となる。囚人同士のコミュニケーションがなければ、自白するか黙秘するか、決断を迫られる。

この場合の最善の戦略は、相手が何をするかに関係なく、告白することです。マチャドは、ナッシュの法則がこの状況にどのように適用されるかを説明します。「ナッシュ均衡に従って行動していれば、相手が何をしていても、自分は苦しまないことが保証されます。」しかし、これらすべてがポーカーと何の関係があるのでしょうか?

ポーカーゲーム中、「時間が与えられれば、[プレイヤーが] ナッシュ均衡に到達するという理論上の保証があります。技術的な観点から言えば、この均衡への収束速度はより速くなりました。 2015 年には、さらに多くのコンピューティングが利用可能になりました。最終的に、ケフェウスはナッシュ均衡に到達するまでに約 1,000 年の計算を費やしました。」これらすべては 1 対 1 の制限内で行われます。しかし、無制限モードはどうなるのでしょうか?

このバリエーションでは、可能性の数が指数関数的に増加します。「私がいくらでも賭けることができ、あなたもすべての金額を賭けることができるとしたら、可能性が多すぎるため、戦略を少し変える必要があります。過去と同じアプローチを使用することはできないからです」とマチャド氏は説明します。「ノーリミットのヘッズアップポーカーでは、可能な組み合わせの数は宇宙の原子の数よりも多くなります。原子を使用してあらゆる可能性を保存したいと思ったら、宇宙には（十分な）原子が存在しないでしょう。」言い換えれば、人工知能の問題の規模は巨大です。

最高のポーカープレイヤーに勝つマシン

人工知能マシンにとってその複雑さは非常に大きいように見えますが、人工知能マシンは、無限の対戦バリエーションにおいてすでに人間を超えることができています。 2017 年には、2 つのプログラムがほぼ同時にこの偉業を達成しました。

アルバータ大学の DeepStack は、44,000 ハンドのポーカーで 11 人の対戦相手を破りました。ピッツバーグのカーネギーメロン大学は、Libratusと呼ばれる同大学のプログラムが、世界最高のプロ選手4人との20日間のマラソンで勝利を収めたと発表した。

これはすべて非常に印象的に聞こえますが、AI はマルチプレイヤーテーブルでのノーリミットテキサスホールデムポーカーのゲームに勝つことができるでしょうか?今年、Libratus 開発者はこの一歩をさらに進めることに成功し、ついにこの驚くべき偉業を実現できるマシンを作成しました。

Pluribus は 13 人のプロ、一度に 5 人ずつマシンに対してテストされ、ポーカー 100 ハンドごとに約 5 つのビッグブラインド (各ハンドで必須の 2 つのベットのうち大きい方。指標としてよく使用されます) を獲得しました。

しかし、この人工知能は、ほぼ無限の可能性を秘めたこのような不利な状況からどのようにして抜け出すことができたのでしょうか?マシンの作成者は、Pluribus 自体に対抗するように動作させました。最初は完全にランダムな動きが、プログラムが最終的にどの行動が最大の利益を生み出すかを理解するまで、ますます優れた戦略を提供していました。

「感情の人間的要素」を排除するために、人工知能は戦略を変えるようにプログラムされました。彼が常に同じアプローチを採用したり、ブラフをまったくかけなかったりすると、対戦相手に簡単に読まれてしまうでしょう。この人間の特性 (予測不可能性) を組み込んでいたにもかかわらず、プルリバスには恐怖などの感情がありません。そのため、マシンは通常よりも大きな賭けをすることができ、良いハンドを持っているときに賞金を最大化することができました。

「ポーカーはカード以前に人間のゲームであり、カオス (人間)、ランダム (デッキ)、科学 (戦略) という 3 つの柱によって導かれます。これはファジーロジックのゲームであり、この数学的モデリングは、混乱ではなく、結果を変える小さな変更によって混沌とした要因によって複雑になります。言い換えれば、コンピューターは 2 つの柱 (ランダムとカオス) を解決するのに大いに役立ちますが、カオスの問題では依然として人間が優勢です」とマルケス氏はコメントしています。この件についてさらに詳しく知りたい場合は、 Betway Insiderの他の記事をご覧ください。

人工知能はすでにを通じて

ソース