Comprehensive Survey · 전수분석

포커 GTO 솔버 전수분석

프로그램 동향 · 기술적 방법 · 2026 트렌드 · 무결성 지형까지 — 합법적 학습용 솔버 생태계를 한눈에 정리한 리서치 리포트

📅 2026년 6월 29일 기준 🃏 NLHE · PLO · Multiway 📚 30+ 학술 레퍼런스
목차 펼치기
  1. 개요 & 합법 범위
  2. 프로그램 전수조사
  3. 기술적 방법 & 알고리즘
  4. 2026 트렌드
  5. 무결성 & 공정성
  6. 학술 레퍼런스

1. 개요 & 합법 범위

GTO 솔버가 무엇이고, 어디까지가 합법적 학습 도구인가.

GTO(Game Theory Optimal)는 포커의 내쉬 균형(Nash Equilibrium) 전략을 뜻한다. 2인 제로섬 게임에서 GTO를 따르면 상대가 내 전략을 알아도 착취할 수 없다 — "최대 이익"이 아니라 "최소 손실 보장(지지 않는 방어선)"이다. 솔버(solver)는 이 균형을 수치로 계산해 주는 프로그램이다.

솔버의 정수는 밸런스(혼합 전략)다. 강한 보드에서 밸류 핸드만 벳하면 상대가 폴드해 착취당하므로, 솔버는 "밸류:블러프 = 2:1" 같은 정확한 비율을 계산한다. 이 비율은 인간 직관으로 불가능해 솔버가 필요하다.

2. 프로그램 전수조사

2026년 6월 기준 — 데스크톱(CPU) · 클라우드/신경망 · 오픈소스 · 신규 진입자.

A. 데스크톱 솔버 (로컬 · CPU · 1회 구매)

PioSOLVER

Piotr Lopusiewicz · piosolver.com
유형
HU 포스트플랍(+Edge 프리플랍)
강점
업계 표준. 트리 커스터마이즈·노드락·집계 리포트·UPI 스크립팅
가격
Pro €450 / Edge €800 (평생, 1년 업데이트)
플랫폼
Windows. Edge 프리플랍 ≥64GB RAM
NLHE

GTO+

Eighty3 · gtoplus.com
유형
HU 포스트플랍 + 계산기
강점
가성비 1위. 초저메모리·압축(파일 수백 KB)·Flopzilla 연동
가격
1라이선스 $75 / 2번째 $40 (평생 전체 업데이트)
최근
v1.9.1 베타 (2026-06-23)
NLHE$75 가성비

MonkerSolver

MonkerWare · monkerware.com
유형
프리+포스트플랍, 멀티웨이·PLO
강점
3인+ 멀티웨이 & 오마하 전문 (유일에 가까운 지위)
가격
€499 1회 (무료=턴/리버)
한계
엔진 버전 노후(1.4/2020 참조), 업데이트 느림
PLOMultiway

JeSolver (Jeskola)

Oskari Tammelin · jeskola.net
유형
UPI 엔진 (Pio 드롭인 대체)
강점
압축 → 초고속(32s vs Pio 7min)·소형 파일. 보드 스캔용
가격
무료판 + 상용 라이선스(공식 BTC 표기)
상태
여전히 beta(build 1085)
NLHE압축속도

Simple Poker 패밀리

Simple Software · simplepoker.com
구성
Postflop·GTO Trainer·3-Way·Omaha·Nash
강점
노드락·1,755 플랍 추상·트레이너 실시간 피드백
가격
Postflop $299 / Trainer $99~199
플랫폼
Windows (클라우드 솔브 옵션)
NLHEPLO3-Way

HRC (Hold'em Resources)

holdemresources.net
유형
토너먼트 ICM·push/fold + 포스트플랍(Pro)
강점
대형 필드 ICM ±0.01% 정확·고속
가격
Classic $9.99~/mo · Pro $29.99~/mo
최근
2026-03 안정판 (신 ICM 모델·GG/CoinPoker 지원)
MTT/ICM

B. 클라우드 / 신경망 솔버 (웹 기반)

GTO Wizard 시장 1위

gtowizard.com · 엔진=인수한 Ruse AI
유형
1000만+ 사전솔브 라이브러리 + 실시간 신경망 커스텀 솔브 + 트레이너
강점
2코어/8GB에서 즉시. Slumbot +19.4bb/100, Nash거리 ~0.12%. Nodelocking 2.0·Single Size·QRE 엔진
가격
Starter $39~ / Premium $79~ / Elite $139~ / Ultra $229~ (연·2026-03 개편)
2025–26
멀티웨이 9인(2월)·PLO4(5월)·3-way·5.3만 ICM 시뮬·2026 WSOP 공식 파트너
신경망+CFRGPUPLO9-way

DeepSolver

deepsolver.com · "세계에서 가장 빠른 솔버"
유형
클라우드 온디맨드 (사전 라이브러리 없음)
강점
CFR+신경망 하이브리드, 분/시간→초. Nash거리 ~0.59%. 노드락·exploit 탐색
가격
Essential $29.4~/mo · Pro $41.4~/mo · API ~$650/mo(GPU 포함)
한계
2인 포스트플랍 NLHE. 멀티웨이 없음·모바일앱 없음
신경망+CFRNVIDIA GPU클라우드
🔀 Ruse → "GTO Wizard AI"

Ruse AI(2022, Mila 출신 P.Beardsell·M-A.Provost 개발, Slumbot +19.4bb/100로 화제)는 2023년 GTO Wizard에 인수돼 더 이상 독립 제품이 아니다. 현재 GTO Wizard AI 엔진의 핵심. 이 업계의 대표 M&A 사건.

C. 오픈소스 (무료)

TexasSolver / TexasSolverGPU

bupticybee · GitHub (AGPL-3.0)
유형
무료 포스트플랍 솔버 (Pio와 결과 일치)
CPU
C++ GUI/콘솔, v0.2.0 (2024-11, 사실상 휴면)
GPU
세계 첫 GPU 포커 솔버, CUDA, ~Pio 4배. v0.2.0 (2026-03-21, 활발)
게임
NLHE + 숏덱. PLO/멀티웨이 없음
무료CUDA

연구 라이브러리

OpenSpiel · PokerRL · WASM Postflop
OpenSpiel
DeepMind, ~4.8k★, 2.0 준비 중. Kaggle Game Arena LLM 포커 평가 기반
PokerRL
Deep CFR/DREAM 레퍼런스 (안정·휴면)
WASM Postflop
브라우저 무료 솔버 — 2023-10 개발 중단
무료연구

D. 2025–2026 신규 진입자 & 니치

도구카테고리가격(2026)플랫폼특징
Vision GTO TrainerPLO 트레이너/솔버 (Phil Galfond)$129~249/moWebPLO/PLO5 1위, 420+ 보드텍스처
Octopi PokerAI 트레이너 (Hellmuth 투자)무료~$200/yrWeb"솔버는 인간용이 아니다" 게이미피케이션
GTO Lab토너먼트/ICM (Petrangelo 등)무료~$124/moWeb+앱1.4만+ 프리플랍, 풀테이블 ICM
PeakGTO올인원 트레이너 (PokerCoaching)무료+구독Web2000만+ 스팟, 리크 파인더
GTO Gecko모바일 우선 풀 솔버$15~40/moiOS+Android앱 내 완전 솔버(차트 아님)
GTO Strategy게이미파이드 (Leonard 등, 2026-06-09 출시)무료~$79/moWebSolve/Train/Compete·리더보드
GTOKillerexploit-first (모집단 MDA)구독Web실제 빈도 ~5000노드/핸드, 이론값 미보충
PokerSnowie구형 신경망 트레이너~$16.66/moWeb+모바일입문자 친화

3. 기술적 방법 & 알고리즘

CFR 계열 → 신경망 → 솔버 엔지니어링. 솔버 내부가 실제로 어떻게 돌아가는가.

3.1 핵심 알고리즘 — CFR (Counterfactual Regret Minimization)

거의 모든 현대 솔버의 엔진. Zinkevich 외 (2007, NIPS)가 도입한 불완전정보 게임용 반복 셀프플레이 알고리즘이다.

  • 게임을 정보집합(infoset)으로 분해 — 자기 패+공개 히스토리만 아는 의사결정 지점.
  • 각 infoset에서 액션별 누적 반사실적 후회(counterfactual regret) 추적 = "그 액션을 항상 했더라면 얼마나 더 벌었을까"를 도달확률 가중 누적.
  • Regret Matching: 다음 전략을 양(+)의 후회에 비례하게 설정.
  • 핵심 정리: 2인 제로섬에서 양쪽 후회→0이면 평균 전략이 내쉬 균형으로 수렴(현재 iterate가 아님). 수렴률 O(1/√T).

주요 변종

변종출처핵심 아이디어효과
CFR+Tammelin 2014후회를 매 iter 0으로 floor(RM⁺) + 교대 업데이트 + 선형 평균수 자릿수 빠름. 림홀덤 풀이(<1 mbb/g)의 주역
MCCFRLanctot 2009전체 트리 대신 샘플링 — 외부샘플링(ES)/결과샘플링(OS)대형 게임 가능. ES가 포커 표준
DCFR / Linear CFRBrown·Sandholm 2019초기 iter을 (α,β,γ)로 할인. 권장 (1.5,0,2)CFR+ 동급 이상·"큰 실수"에 강건. LCFR은 ~100배 가속

수렴 측정exploitability(최악 상대에게 잃는 양, 균형=0) · mbb/g(밀리 빅블라인드/게임, 림홀덤 <1) · bb/100(승률 단위, 강한 프로 ~5bb/100). AIVAT(Burch 2018)는 분산을 ~85% 줄여 평가에 쓰인다.

3.2 신경망 / 딥러닝 접근

Deep CFR

Brown 외 · ICML 2019

최초의 확장형 추상화-프리 CFR. 후회·전략 테이블을 신경망(advantage net + strategy net)으로 대체, ES-MCCFR + reservoir 메모리. 후속: SD-CFR(평균망 제거)·DREAM(완전 모델프리).

DeepStack

Moravčík 외 · Science 2017

HUNL 최초 프로 격파. 연속 재해결(continual re-solving) + 깊이제한 + 학습된 가치망("직관", 7층×500 PReLU, 턴 1000만 게임 학습).

Libratus

Brown·Sandholm · Science 2018

4 프로 격파(12만 핸드). Blueprint(MCCFR) + 중첩 서브게임 재해결(off-tree 벳 대응, NIPS 2017 베스트페이퍼) + 야간 self-improver. ~2500만 코어시간.

Pluribus

Brown·Sandholm · Science 2019

최초 6인 멀티웨이 초인 AI. Linear MCCFR blueprint(8일·12,400 코어시간·~$144) + 깊이제한 탐색. >2인은 내쉬가 승리 보장 안 됨 → 균형 보장 포기.

ReBeL

Brown 외 · NeurIPS 2020

RL+탐색 통합. 공개신념상태(PBS)로 불완전정보를 PBS 위 완전정보 게임으로 변환 → 가치·정책망 셀프플레이. 2인 제로섬 내쉬 수렴 보장.

Student of Games

Schmid 외 · Science Adv. 2023

체스·바둑·HUNL·Scotland Yard 통합. GT-CFR(트리 성장) + CVPN. DeepStack 재해결을 임의 게임으로 일반화. "일반성의 대가".

2023–2026 프론티어 — ESCHER(ICLR 2023, 중요도샘플링 제거로 저분산) · DDCFR(ICLR 2024, 할인 스케줄 학습) · Hyperparameter Schedules(AAAI 2026) · Deep-PDCFR(AAAI 2026) · MMD(ICLR 2023, QRE 마지막-iterate 수렴 — GTO Wizard가 2025년 Nash→QRE 전환한 계열). 정책경사(PPO/MMD)가 잘 튜닝하면 강한 베이스라인이라는 재평가(2025)도.

3.3 솔버 엔지니어링 (실무)

게임 트리 추상화

전체 게임은 천문학적 — HULHE ≈ 10¹⁷ 상태 / 1.4×10¹³ infoset, HUNL ≈ 10¹⁶⁰~10¹⁶⁵ 노드(Johanson 2013). 추상화로 축소한다.

  • 무손실 동형(isomorphism): 무늬 대칭 상황 병합(레인보우 보드의 4 무늬 동등) — 전략 손실 없음.
  • 잠재인식 불완전기억 추상화 (EMD): 다음 스트리트 에쿼티 전이 히스토그램을 k-means + earth-mover's distance로 클러스터(Ganzfried·Sandholm 2014). 같은 현재 에쿼티라도 드로우 vs 메이드 패의 잠재력을 구분. 22,100→1,755 플랍.
  • 벳/액션 추상화: 연속 벳사이즈를 33%/75%/pot/올인 등으로 이산화 → off-tree exploitability 발생(Libratus가 중첩 재해결로 보완).

레인지 vs 레인지 벡터 솔빙

현대 포스트플랍 솔버는 각 플레이어를 1,326 홀카드 조합 전체 분포(가중치)로 표현하고, 노드마다 핸드별 전략·후회·EV·에쿼티·EQR 벡터를 유지. 1,326 콤보 EV를 동시에 계산(벡터화 CFR+) → iter당 연산이 핸드 위 밀집 행렬 연산.

블로커 / 카드 제거

두 레인지를 모두 추론하므로 카드 제거 효과가 자연 발생. 특정 카드 보유 시 상대 콤보 제거 → 블러프 선택(상대 콜·밸류를 블록, 폴드는 언블록)과 사이징을 좌우. 같은 raw 에쿼티 핸드가 다른 GTO 빈도를 갖는 이유.

서브게임 재해결 & 노드락

  • 안전 서브게임 재해결: gadget 게임으로 blueprint보다 더 착취당하지 않게 보장(Resolve/Maxmargin/Reach).
  • 노드락: 한 노드 전략을 고정("villain은 여기서 밸류만 c-bet") → 나머지 핸드의 최대 착취 응답 계산. 한계: 잠금 노드 이후엔 완벽 플레이로 복귀해 실제 오류를 과소평가.

비용 & GPU/신경망 생산 솔버

항목수치
PioSOLVER 단일레이즈팟(6-max, 2/3벳)≈ 1.2 GB RAM
100bb 2사이즈 6-max 트리≈ 7.8 GB
턴 솔브 / 턴+리버8–14분 / 25–45분
GPU-CFR (행렬화, arXiv:2408.14778)CPU 대비 ~30×, OpenSpiel C++ 대비 ~204×
GTO Wizard AI (CFR+신경망 leaf값+깊이제한)~3초/스트리트, 0.22% Nash거리, ~800× 가속

메모리 관리: 알고리즘 티어(pio_cfr→original_pio→_small)로 속도/RAM 교환, "small saves"(no_rivers)·"very small saves"(no_turns)로 후속 스트리트를 탐색 시 on-the-fly 재계산.

5. 무결성 & 공정성

RTA 탐지·봇·금지 조치 — 합법(오프테이블)과 불법(실시간)의 경계.

공식 정책 (모든 주요 사이트 공통)

사후 학습용 솔버 = 허용·권장. 실시간 핸드 중 조언 = 치팅 → 영구정지+몰수. PokerStars LIVE/EPT는 토너먼트룸 내 솔버·GTO차트·AI 도구 전면 금지(2024 "Laptopgate" 후), 프리플랍 결정시간 15초로 단축.

탐지 기술 (2025–2026)

  • 탐지가 "봇 vs 인간"에서 "자연 vs 의심스러운 행동"으로 이동. 솔버 미러링 빈도 일관성 + 타이밍 텔(복잡한 결정을 너무 빨리/이상한 지연).
  • 봇/RTA 탐지의 90%+가 사이트 내부 AI(플레이어 신고 아님). PokerStars 사전탐지 95%+ 주장, 신고 기원 ~5%.
  • 솔버 요청 타임스탬프 상관(CoinPoker vs LazyAss, 2025-11): 플롭/턴/리버 GTO Wizard 요청 시각이 핸드와 거의 동시임을 공개 로그로 입증 — 가장 명확한 공개 RTA 탐지법.
  • 군비경쟁: 단계3 ML 봇이 "휴머나이제이션 레이어"(랜덤 타이밍·벳 변동·예약 휴식)로 행동 탐지 회피. 2026 MCP 기반 LLM 자율 에이전트 논쟁.

주요 사건 (2025–2026)

사건시점내용
Zamani 봇팜 폭로2026-01Ignition/Bovada ~100계정 봇팜 MTT 담합 의혹(한 필드 33% 주장). Ignition은 "2022 영상" 반박
CoinPoker 봇 적발2026-0198봇 차단, 1주 내 1,360명에 $156,446 환불
GGMillion$ 침해2025-10RealOA가 프로 Ren Lin에 생조언 → 영구정지, $250,523 회수
WPT Global 스트리머 차단2025-05"AlanFPoker" 플레이 중 온스크린 차트(Rule 9.2 위반)
whistleblower 저보상 논란2025–26WPT 130봇 신고자 보상 $100 — 공정성 핵심 비판

오픈소스 RTA 우려gto-poker-overlay(2026-06, 브라우저 정책망+자동플레이 오버레이)·poker-gto-rt(YOLO+SAM2+OCR→CFR++, <400ms) 같은 프로젝트가 등장. 이런 화면인식+자동액션 도구가 바로 §1의 금지 범주다.

6. 학술 레퍼런스

CFR부터 2026 신경망 솔버까지 핵심 논문 (연대순).

연도저자제목 (약칭)출처
2007Zinkevich 외CFR — Regret Minimization in Incomplete-Info GamesNIPS
2009Lanctot 외MCCFR — Monte Carlo Sampling for Regret MinNIPS
2013JohansonMeasuring the Size of Large No-Limit Poker GamesTR13-01
2014Ganzfried·SandholmPotential-Aware Imperfect-Recall Abstraction (EMD)AAAI
2014TammelinCFR+arXiv:1407.5042
2015Bowling 외Heads-up Limit Hold'em is SolvedScience 347
2017Moravčík 외DeepStackScience 356
2017Brown·SandholmSafe and Nested Subgame SolvingNIPS (best paper)
2018Brown·SandholmLibratusScience 359
2018Burch 외AIVAT 분산 감소AAAI
2018Brown 외Depth-Limited Solving (Modicum)NeurIPS
2019Brown 외Deep CFRICML
2019Brown·SandholmDCFR / Linear CFRAAAI
2019SteinbergerSingle Deep CFR (SD-CFR)arXiv:1901.07621
2019Brown·SandholmPluribus (멀티플레이어)Science 365
2020Steinberger 외DREAM (모델프리 신경 CFR)arXiv:2006.10410
2020Brown 외ReBeLNeurIPS
2023Sokota 외Magnetic Mirror Descent (MMD)ICLR
2023McAleer 외ESCHERICLR
2023Schmid 외Student of Games / Player of GamesScience Advances
2024Xu 외Dynamic Discounted CFR (DDCFR)ICLR
2024Zhang 외Faster Solving via Hyperparameter SchedulesarXiv:2404.09097
2024GPU-Accelerated CFRarXiv:2408.14778
2025Rudolph 외Reevaluating Policy Gradient for Imperfect-InfoarXiv:2502.08938
2026Xu 외Deep (Predictive) Discounted CFRAAAI / arXiv:2511.08174
2026GTO Wizard BenchmarkarXiv:2603.23660