인공 지능 '강인한 일관성'으로 무제한 홀덤에서 한 번에 5 명의 포커 챔피언을 흡연

 인공 지능 '강인한 일관성'으로 무제한 홀덤에서 한 번에 5 명의 포커 챔피언을 흡연


기계는 체스와 바둑, 심지어 포커와 같은 일대일 게임에서 우위를 보여주었지만 복잡한 멀티플레이어 형태의 게임에서 사람들은 지금까지 우위를 유지했습니다. 포커 에이스를 독점적으로 혼란시킨 마지막 AI 전문가의 개발은 현재 타이틀 스타일의 6인 게임에서 명백히 그들을 이기고 있습니다.카지노온라인포커

오늘 사이언스 다이어리에 배포된 논문에 기록된 바와 같이, 그들이 Pluribus라고 부르는 CMU/Facebook 협력은 유사한 게임에서 5명의 전문 포커 플레이어 또는 5명의 무료 복제에 반대하는 1명의 마스터 세트를 확실하게 이깁니다. 이는 기계의 용량이 크게 향상되었으며 과거 전문가보다 훨씬 더 효과적입니다.

일대일 포커는 이상한 게임이며 간단한 게임이 아니지만 오히려 지는 게임의 특성(당신이 무엇을 잃든 다른 플레이어는 얻음)으로 인해 PC가 바로 작동할 준비가 된 특정 시스템에서는 무력합니다. 충분히 이익을 얻을 수 있습니다. 그러나 일반적인 mish-mash에 4명의 플레이어를 추가하면 상황이 진정으로 복잡하고 빠르게 진행됩니다. 6명의 플레이어가 있으면 핸드, 내기 및 잠재적 결과의 기회가 완전히 다양하여 모든 플레이어를 대표하기가 현실적으로 어렵습니다. 그 중 하나, 특히 잠시 후. 파도 사이의 바다 쪽 모래 알갱이 하나하나를 종합적으로 보고하려는 시도와 비슷합니다.

10,000개 이상의 핸드가 챔피언과 플레이했지만 Pluribus는 일관된 속도로 현금을 획득하는 방법을 알아냈고, 라이벌이 악용할 수 있는 단점이나 경향을 발견하지 못했습니다. 미스터리는 무엇입니까? 꾸준한 임의성.

사실 PC에도 애도가 있다

Pluribus는 오늘날 다른 게임 플레이 AI 전문가와 마찬가지로 사람들이 플레이하는 방식에 집중하지 않고 자신과의 플레이로 준비했습니다. 시작 단계에서 이것은 아마도 아이들을 지켜보는 것과 비슷할 것입니다. 또는 내가 우려하는 한 포커를 하는 것과 비슷합니다. 그러나 기본적으로 AI와 아이들은 그로부터 얻는 꾸준한 오류입니다.

준비 프로그램은 몬테카를로 반사실적 비탄 최소화라고 부르는 것을 활용했습니다. 도박 클럽에서 모든 것을 잃은 후 아침 식사로 버번을 먹었을 때와 같은 방식으로 AI 스타일입니다.

Lament 최소화는 단순히 프레임워크가 핸드를 완료할 때(자신에 대해, 회상) 해당 핸드를 다양한 방식으로 다시 재생하여 제기보다는 여기에서 확인하고 호출보다는 축소 등을 조사하는 것을 의미합니다. (실제로 발생하지 않았기 때문에 역설입니다.)

몬테카를로 나무는 분류하고 잠재적인 결과의 다발을 평가하는 방법입니다. 마치 나무를 가지별로 올라가서 발견한 각 잎의 특성을 알아차린 다음, 그 시점에서 가장 좋은 것을 선택하는 것과 같습니다. 충분히 올랐다고 생각하세요.

일찍 할 기회가 없을 때(예: 체스에서 수행) 살펴보기에 가장 좋은 동작을 찾고 있는 것입니다. 어쨌든, 그것을 애도 작업과 통합하면 게임이 최상의 결과를 얻었을 수 있는 잠재적인 방법 목록을 살펴보고 있는 것입니다.

따라서 몬테카를로 반사실적 비탄 최소화는 PC가 예상치 못한 방식으로 작동했다면 어떻게 되었는지를 효율적으로 탐색하고 그에 따라 플레이 방법의 모델을 변경하는 방법일 뿐입니다. 물론 게임의 양이 필요하다고 가정하면 무한에 가깝습니다. 100달러가 아닌 101달러를 베팅했거나 7이 아닌 8명의 키커를 가졌을 가능성이 큰 오프 찬스에서 승리했을 때 발생할 수 있는 일에 대해 생각하는 것입니다. 거기에 추가로 무한한 애도에 가깝습니다. 점심이 끝날 때까지 숙소에서 침대에 누워있게 하는 종류입니다.

문제는 이러한 사소한 변화가 매우 드물기 때문에 근본적으로 기회를 완전히 간과할 수 있다는 것입니다. 추가로 1달러를 베팅하는 것은 결코 중요하지 않습니다. 따라서 70 및 130과 같은 내부 베팅은 PC에서 정확히 동등한 것으로 볼 수 있습니다. 카드와 동일합니다. 잭이 하트인지 스페이드인지에 관계없이 틀림없는(그리고 일반적으로 자명한) 상황 외에는 아무런 차이가 없으므로 99.999%의 시간이 손을 동일하게 볼 수 있습니다.온라인포커리뷰

진행 중인 상호 작용 준비의 이러한 "반영"과 생각할 수 있는 결과의 "버케팅"은 Pluribus가 고려해야 할 예상 가능한 결과를 엄청나게 감소시킵니다. 마찬가지로 계산 부하를 낮게 유지하는 데 도움이 됩니다. Pluribus는 일반적으로 관례적인 64-센터 서버 랙에서 7일 동안 준비된 반면, 다른 모델은 고성능 그룹에서 프로세서 수년이 걸릴 수 있습니다. 2개의 CPU와 128GB의 RAM이 탑재된 (솔직히 거추장스러운) 장비에 대한 수요가 갑자기 급증하기도 합니다.여우처럼 불규칙

준비는 일반적으로 견고하고 많은 플레이어를 이길 가능성이 있는 플레이 방법에 대해 그룹이 "개요"라고 부르는 것을 생성합니다. 어쨌든 AI 모델의 단점은 인식하고 활용할 수 있는 성향을 키운다는 것입니다.

Pluribus에 대한 Facebook의 글에서 두 대의 PC가 가위바위보 놀이를 하는 경우를 제공합니다. 하나는 무작위로 선택하고 다른 하나는 지속적으로 바위를 선택합니다. 가상으로 둘 다 비슷한 게임에서 승리할 것입니다. 그러나 PC가 올록 시스템에 인간에게 기회를 주면 빠른 속도로 지기 시작하고 멈추지 않을 것입니다.

포커의 직접적인 모델로서, 아마도 특정 일련의 베팅은 PC가 모든 것을 손에 거의 신경 쓰지 않고 지속적으로 내도록 만듭니다. 플레이어가 해당 시리즈를 인식할 수 있다면 언제든지 PC를 가지고 마을로 갈 수 있습니다. 이러한 참호를 찾아 예방하는 것은 독창적이고 통찰력 있는 사람들을 이길 수 있는 게임 플레이 전문가를 만드는 데 중요합니다.

이를 위해 Pluribus는 몇 가지 작업을 수행합니다. 우선, 게임이 무너지거나, 콜하거나, 올리는 방향으로 기울어지면 게임에 배치되도록 다이어그램의 표현을 조정했습니다. 다양한 게임에 대한 다양한 방법론은 덜 놀랍지 않다는 것을 의미하며, 베팅 디자인이 변경되고 핸드가 콜에서 가장하는 핸드로 바뀌면 순간적으로 전환될 수 있습니다.

마찬가지로 메이저 노에서 스트레이트 플러시까지 각각의 핸드가 있다면 어떻게 플레이할지, 그리고 어떻게 내기를 할 것인지 살펴보는 짧지만 철저한 반사 추적에 참여합니다. 그런 다음 그 시점에서 모든 항목과 관련하여 내기를 선택하고 특정 항목을 강조 표시하지 않도록 주의합니다. 비슷한 핸드와 같은 플레이가 한 번 더 주어지면 Pluribus는 비슷한 내기를 선택하지 않고 대신 독특하게 유지하기 위해 다르게 합니다.

이러한 시스템은 내가 이전에 암시한 "안정적인 임의성"에 추가되며, 이는 점진적이지만 확실하게 지구상에서 절대적인 최고의 플레이어를 이길 수 있는 모델의 능력의 일부였습니다.

인간의 애도

Pluribus가 게임에 강력한 영향력으로 제시한 힘을 보여주는 특정 핸드 또는 10개를 강조하기 위해 수많은 핸드가 있습니다. 포커는 재능 기반 콘테스트, 카르마 및 확신이며 소수 또는 많은 핸드 후에 챔피언이 나오는 게임입니다.

게다가 여기에서 테스트 배열은 일반적인 6인 포커 게임에서 완전히 지능적이지 않다고 말해야 합니다. 실제 게임과 달리 칩 고려 사항은 연속 집계로 유지되지 않습니다. 각 핸드에 대해 모든 플레이어가 원하는 대로 사용할 수 있는 10,000개의 칩이 제공되었으며, 승패에 관계없이 다음 핸드에도 10,000개의 칩이 제공되었습니다. 분명히 이것은 상당히 제한적입니다. 페이스북 AI 리서치 연구원인 노암 브라운(Noam Brown)은 "봇은 적의 단점을 찾아내지 못한 채 이용할 수 있다"고 말했다. 정말 플루리부스는 당시에 사람이 많지 않은 방식으로 살고 있었습니다.

그러나 라이벌의 독특한 성향이나 스타일에 대한 장기적인 인식과 관련하여 플레이를 통합하지 않았다는 이유로 시스템이 얕았다는 의미는 아닙니다. 예상할 수 있는 것에도 불구하고, 행동 표시나 개인의 결점에 대한 이중 처리에 의존하지 않는 승리의 시스템이 존재한다는 것은 표면적으로 더 놀랍고 다른 관점에서 게임을 투영합니다.

달갑지 않은 플루리버스에게 점심 현금을 빼앗긴 천재들은 그럼에도 불구하고 받아들일 만한 게임이었다. 그들은 프레임워크의 부인할 수 없는 수준의 플레이, 기존 절차의 승인 및 새로운 절차의 창의적 활용에 박수를 보냈습니다. 다음은 타락한 사람들의 유감의 결의입니다.

저 아마도 봇을 테스트하는 가장 빠른 플레이어였을 것이므로 이전 버전을 볼 수 있었습니다. 봇은 정복할 수 있는 공정한 플레이어에서 반 달 만에 지구 최고의 플레이어와 경쟁하게 되었습니다. 중요한 강점은 혼합 시스템을 활용하는 능력입니다. 그것은 사람들이 시도하는 것과 정확히 같은 것입니다. 이것은 사람들을 위한 실행의 문제입니다. 완전히 불규칙한 방식으로 이 작업을 수행하고 안정적으로 수행하는 것입니다. 봇이 활용하는 수많은 기술이 현재 가장 높은 수준의 포커에서 우리가 하고 있는 일이라는 사실을 알게 되어 더욱 만족스러웠습니다. 당신의 시스템이 슈퍼컴퓨터에 의해 옳다고 거의 확인되는 것은 긍정적인 감정입니다. - 대런 엘리아스

포커 봇과 대결하고 포커 봇이 선택한 방법론의 일부를 보는 것은 놀랍도록 매혹적이었습니다. 사람들이 기본적으로 어떤 수단으로도 만들지 않는 몇 가지 플레이가 있었는데, 특히 베팅 측정으로 식별됩니다. - 마이클 '개그스' 갈리아노 포커하는방법

봇을 플레이하는 어느 시점에서든 내 게임에 융합할 새로운 것을 얻은 것 같은 기분이 듭니다. 내가 생각하기에 우리는 게임을 왜곡하지 않는 경우가 더 많아 시스템을 더 쉽게 받아들이고 기억할 수 있습니다. 봇은 이러한 대체 경로를 사용하지 않으며

댓글

이 블로그의 인기 게시물

Tips Which Will Help you Play at Online Roulette

유럽 온라인 카지노 게임 및 가이드

How the club games assist people with bringing in genuine cash by means of wagering?