1. 개요 & 합법 범위
GTO 솔버가 무엇이고, 어디까지가 합법적 학습 도구인가.
GTO(Game Theory Optimal)는 포커의 내쉬 균형(Nash Equilibrium) 전략을 뜻한다. 2인 제로섬 게임에서 GTO를 따르면 상대가 내 전략을 알아도 착취할 수 없다 — "최대 이익"이 아니라 "최소 손실 보장(지지 않는 방어선)"이다. 솔버(solver)는 이 균형을 수치로 계산해 주는 프로그램이다.
솔버의 정수는 밸런스(혼합 전략)다. 강한 보드에서 밸류 핸드만 벳하면 상대가 폴드해 착취당하므로, 솔버는 "밸류:블러프 = 2:1" 같은 정확한 비율을 계산한다. 이 비율은 인간 직관으로 불가능해 솔버가 필요하다.
2. 프로그램 전수조사
2026년 6월 기준 — 데스크톱(CPU) · 클라우드/신경망 · 오픈소스 · 신규 진입자.
A. 데스크톱 솔버 (로컬 · CPU · 1회 구매)
PioSOLVER
- 유형
- HU 포스트플랍(+Edge 프리플랍)
- 강점
- 업계 표준. 트리 커스터마이즈·노드락·집계 리포트·UPI 스크립팅
- 가격
- Pro €450 / Edge €800 (평생, 1년 업데이트)
- 플랫폼
- Windows. Edge 프리플랍 ≥64GB RAM
GTO+
- 유형
- HU 포스트플랍 + 계산기
- 강점
- 가성비 1위. 초저메모리·압축(파일 수백 KB)·Flopzilla 연동
- 가격
- 1라이선스 $75 / 2번째 $40 (평생 전체 업데이트)
- 최근
- v1.9.1 베타 (2026-06-23)
MonkerSolver
- 유형
- 프리+포스트플랍, 멀티웨이·PLO
- 강점
- 3인+ 멀티웨이 & 오마하 전문 (유일에 가까운 지위)
- 가격
- €499 1회 (무료=턴/리버)
- 한계
- 엔진 버전 노후(1.4/2020 참조), 업데이트 느림
JeSolver (Jeskola)
- 유형
- UPI 엔진 (Pio 드롭인 대체)
- 강점
- 압축 → 초고속(32s vs Pio 7min)·소형 파일. 보드 스캔용
- 가격
- 무료판 + 상용 라이선스(공식 BTC 표기)
- 상태
- 여전히 beta(build 1085)
Simple Poker 패밀리
- 구성
- Postflop·GTO Trainer·3-Way·Omaha·Nash
- 강점
- 노드락·1,755 플랍 추상·트레이너 실시간 피드백
- 가격
- Postflop $299 / Trainer $99~199
- 플랫폼
- Windows (클라우드 솔브 옵션)
HRC (Hold'em Resources)
- 유형
- 토너먼트 ICM·push/fold + 포스트플랍(Pro)
- 강점
- 대형 필드 ICM ±0.01% 정확·고속
- 가격
- Classic $9.99~/mo · Pro $29.99~/mo
- 최근
- 2026-03 안정판 (신 ICM 모델·GG/CoinPoker 지원)
B. 클라우드 / 신경망 솔버 (웹 기반)
GTO Wizard 시장 1위
- 유형
- 1000만+ 사전솔브 라이브러리 + 실시간 신경망 커스텀 솔브 + 트레이너
- 강점
- 2코어/8GB에서 즉시. Slumbot +19.4bb/100, Nash거리 ~0.12%. Nodelocking 2.0·Single Size·QRE 엔진
- 가격
- Starter $39~ / Premium $79~ / Elite $139~ / Ultra $229~ (연·2026-03 개편)
- 2025–26
- 멀티웨이 9인(2월)·PLO4(5월)·3-way·5.3만 ICM 시뮬·2026 WSOP 공식 파트너
DeepSolver
- 유형
- 클라우드 온디맨드 (사전 라이브러리 없음)
- 강점
- CFR+신경망 하이브리드, 분/시간→초. Nash거리 ~0.59%. 노드락·exploit 탐색
- 가격
- Essential $29.4~/mo · Pro $41.4~/mo · API ~$650/mo(GPU 포함)
- 한계
- 2인 포스트플랍 NLHE. 멀티웨이 없음·모바일앱 없음
Ruse AI(2022, Mila 출신 P.Beardsell·M-A.Provost 개발, Slumbot +19.4bb/100로 화제)는 2023년 GTO Wizard에 인수돼 더 이상 독립 제품이 아니다. 현재 GTO Wizard AI 엔진의 핵심. 이 업계의 대표 M&A 사건.
C. 오픈소스 (무료)
TexasSolver / TexasSolverGPU
- 유형
- 무료 포스트플랍 솔버 (Pio와 결과 일치)
- CPU
- C++ GUI/콘솔, v0.2.0 (2024-11, 사실상 휴면)
- GPU
- 세계 첫 GPU 포커 솔버, CUDA, ~Pio 4배. v0.2.0 (2026-03-21, 활발)
- 게임
- NLHE + 숏덱. PLO/멀티웨이 없음
연구 라이브러리
- OpenSpiel
- DeepMind, ~4.8k★, 2.0 준비 중. Kaggle Game Arena LLM 포커 평가 기반
- PokerRL
- Deep CFR/DREAM 레퍼런스 (안정·휴면)
- WASM Postflop
- 브라우저 무료 솔버 — 2023-10 개발 중단
D. 2025–2026 신규 진입자 & 니치
| 도구 | 카테고리 | 가격(2026) | 플랫폼 | 특징 |
|---|---|---|---|---|
| Vision GTO Trainer | PLO 트레이너/솔버 (Phil Galfond) | $129~249/mo | Web | PLO/PLO5 1위, 420+ 보드텍스처 |
| Octopi Poker | AI 트레이너 (Hellmuth 투자) | 무료~$200/yr | Web | "솔버는 인간용이 아니다" 게이미피케이션 |
| GTO Lab | 토너먼트/ICM (Petrangelo 등) | 무료~$124/mo | Web+앱 | 1.4만+ 프리플랍, 풀테이블 ICM |
| PeakGTO | 올인원 트레이너 (PokerCoaching) | 무료+구독 | Web | 2000만+ 스팟, 리크 파인더 |
| GTO Gecko | 모바일 우선 풀 솔버 | $15~40/mo | iOS+Android | 앱 내 완전 솔버(차트 아님) |
| GTO Strategy | 게이미파이드 (Leonard 등, 2026-06-09 출시) | 무료~$79/mo | Web | Solve/Train/Compete·리더보드 |
| GTOKiller | exploit-first (모집단 MDA) | 구독 | Web | 실제 빈도 ~5000노드/핸드, 이론값 미보충 |
| PokerSnowie | 구형 신경망 트레이너 | ~$16.66/mo | Web+모바일 | 입문자 친화 |
3. 기술적 방법 & 알고리즘
CFR 계열 → 신경망 → 솔버 엔지니어링. 솔버 내부가 실제로 어떻게 돌아가는가.
3.1 핵심 알고리즘 — CFR (Counterfactual Regret Minimization)
거의 모든 현대 솔버의 엔진. Zinkevich 외 (2007, NIPS)가 도입한 불완전정보 게임용 반복 셀프플레이 알고리즘이다.
- 게임을 정보집합(infoset)으로 분해 — 자기 패+공개 히스토리만 아는 의사결정 지점.
- 각 infoset에서 액션별 누적 반사실적 후회(counterfactual regret) 추적 = "그 액션을 항상 했더라면 얼마나 더 벌었을까"를 도달확률 가중 누적.
- Regret Matching: 다음 전략을 양(+)의 후회에 비례하게 설정.
- 핵심 정리: 2인 제로섬에서 양쪽 후회→0이면 평균 전략이 내쉬 균형으로 수렴(현재 iterate가 아님). 수렴률 O(1/√T).
주요 변종
| 변종 | 출처 | 핵심 아이디어 | 효과 |
|---|---|---|---|
| CFR+ | Tammelin 2014 | 후회를 매 iter 0으로 floor(RM⁺) + 교대 업데이트 + 선형 평균 | 수 자릿수 빠름. 림홀덤 풀이(<1 mbb/g)의 주역 |
| MCCFR | Lanctot 2009 | 전체 트리 대신 샘플링 — 외부샘플링(ES)/결과샘플링(OS) | 대형 게임 가능. ES가 포커 표준 |
| DCFR / Linear CFR | Brown·Sandholm 2019 | 초기 iter을 (α,β,γ)로 할인. 권장 (1.5,0,2) | CFR+ 동급 이상·"큰 실수"에 강건. LCFR은 ~100배 가속 |
수렴 측정 — exploitability(최악 상대에게 잃는 양, 균형=0) · mbb/g(밀리 빅블라인드/게임, 림홀덤 <1) · bb/100(승률 단위, 강한 프로 ~5bb/100). AIVAT(Burch 2018)는 분산을 ~85% 줄여 평가에 쓰인다.
3.2 신경망 / 딥러닝 접근
Deep CFR
최초의 확장형 추상화-프리 CFR. 후회·전략 테이블을 신경망(advantage net + strategy net)으로 대체, ES-MCCFR + reservoir 메모리. 후속: SD-CFR(평균망 제거)·DREAM(완전 모델프리).
DeepStack
HUNL 최초 프로 격파. 연속 재해결(continual re-solving) + 깊이제한 + 학습된 가치망("직관", 7층×500 PReLU, 턴 1000만 게임 학습).
Libratus
4 프로 격파(12만 핸드). Blueprint(MCCFR) + 중첩 서브게임 재해결(off-tree 벳 대응, NIPS 2017 베스트페이퍼) + 야간 self-improver. ~2500만 코어시간.
Pluribus
최초 6인 멀티웨이 초인 AI. Linear MCCFR blueprint(8일·12,400 코어시간·~$144) + 깊이제한 탐색. >2인은 내쉬가 승리 보장 안 됨 → 균형 보장 포기.
ReBeL
RL+탐색 통합. 공개신념상태(PBS)로 불완전정보를 PBS 위 완전정보 게임으로 변환 → 가치·정책망 셀프플레이. 2인 제로섬 내쉬 수렴 보장.
Student of Games
체스·바둑·HUNL·Scotland Yard 통합. GT-CFR(트리 성장) + CVPN. DeepStack 재해결을 임의 게임으로 일반화. "일반성의 대가".
2023–2026 프론티어 — ESCHER(ICLR 2023, 중요도샘플링 제거로 저분산) · DDCFR(ICLR 2024, 할인 스케줄 학습) · Hyperparameter Schedules(AAAI 2026) · Deep-PDCFR(AAAI 2026) · MMD(ICLR 2023, QRE 마지막-iterate 수렴 — GTO Wizard가 2025년 Nash→QRE 전환한 계열). 정책경사(PPO/MMD)가 잘 튜닝하면 강한 베이스라인이라는 재평가(2025)도.
3.3 솔버 엔지니어링 (실무)
게임 트리 추상화
전체 게임은 천문학적 — HULHE ≈ 10¹⁷ 상태 / 1.4×10¹³ infoset, HUNL ≈ 10¹⁶⁰~10¹⁶⁵ 노드(Johanson 2013). 추상화로 축소한다.
- 무손실 동형(isomorphism): 무늬 대칭 상황 병합(레인보우 보드의 4 무늬 동등) — 전략 손실 없음.
- 잠재인식 불완전기억 추상화 (EMD): 다음 스트리트 에쿼티 전이 히스토그램을 k-means + earth-mover's distance로 클러스터(Ganzfried·Sandholm 2014). 같은 현재 에쿼티라도 드로우 vs 메이드 패의 잠재력을 구분. 22,100→1,755 플랍.
- 벳/액션 추상화: 연속 벳사이즈를 33%/75%/pot/올인 등으로 이산화 → off-tree exploitability 발생(Libratus가 중첩 재해결로 보완).
레인지 vs 레인지 벡터 솔빙
현대 포스트플랍 솔버는 각 플레이어를 1,326 홀카드 조합 전체 분포(가중치)로 표현하고, 노드마다 핸드별 전략·후회·EV·에쿼티·EQR 벡터를 유지. 1,326 콤보 EV를 동시에 계산(벡터화 CFR+) → iter당 연산이 핸드 위 밀집 행렬 연산.
블로커 / 카드 제거
두 레인지를 모두 추론하므로 카드 제거 효과가 자연 발생. 특정 카드 보유 시 상대 콤보 제거 → 블러프 선택(상대 콜·밸류를 블록, 폴드는 언블록)과 사이징을 좌우. 같은 raw 에쿼티 핸드가 다른 GTO 빈도를 갖는 이유.
서브게임 재해결 & 노드락
- 안전 서브게임 재해결: gadget 게임으로 blueprint보다 더 착취당하지 않게 보장(Resolve/Maxmargin/Reach).
- 노드락: 한 노드 전략을 고정("villain은 여기서 밸류만 c-bet") → 나머지 핸드의 최대 착취 응답 계산. 한계: 잠금 노드 이후엔 완벽 플레이로 복귀해 실제 오류를 과소평가.
비용 & GPU/신경망 생산 솔버
| 항목 | 수치 |
|---|---|
| PioSOLVER 단일레이즈팟(6-max, 2/3벳) | ≈ 1.2 GB RAM |
| 100bb 2사이즈 6-max 트리 | ≈ 7.8 GB |
| 턴 솔브 / 턴+리버 | 8–14분 / 25–45분 |
| GPU-CFR (행렬화, arXiv:2408.14778) | CPU 대비 ~30×, OpenSpiel C++ 대비 ~204× |
| GTO Wizard AI (CFR+신경망 leaf값+깊이제한) | ~3초/스트리트, 0.22% Nash거리, ~800× 가속 |
메모리 관리: 알고리즘 티어(pio_cfr→original_pio→_small)로 속도/RAM 교환, "small saves"(no_rivers)·"very small saves"(no_turns)로 후속 스트리트를 탐색 시 on-the-fly 재계산.
4. 2026 트렌드
신경망 하이브리드·GPU·멀티웨이/PLO 대중화·모바일·게이미피케이션·exploit 회귀.
- 신경망+CFR 하이브리드가 새 프론티어. GTO Wizard AI·DeepStack 아이디어 생산화 → 솔브 시간 시간→초. 벤치(2026-04): Pio 4,862초(0.23%) vs GTO Wizard AI 6초(0.22%, 2코어/8GB). LLM 전부 격파(GPT-5.3 −16, Claude Opus 4.6 −20.4, Grok 4 −60 bb/100).
- GPU 가속 확산. 서버측(GTO Wizard·DeepSolver) + 로컬 TexasSolverGPU(무료 CUDA, 2026-03). 전통 데스크톱(Pio·GTO+·Monker)은 CPU 전용 유지.
- 멀티웨이(3인+) 드디어 도래. 과거 Monker/Simple 독점 → GTO Wizard 커스텀 3-way(2025-08), 멀티웨이 프리플랍 9인(2026-02). Pio 멀티웨이는 여전히 미출시.
- 모바일 우선이 실제 카테고리. GTO Gecko(네이티브 iOS/Android 풀 솔버)·GTO Wizard 모바일 앱·PokerSnowie. 데스크톱 전용에서 이탈.
- 게이미피케이션 "인간을 위한 솔버". Octopi(Hellmuth 투자)·GTO Strategy(Compete/리더보드)·PeakGTO·GTO Lab — 균형 덤프 대신 드릴·코칭·경쟁으로 포장.
- 가격 양극화. 저가 1회(GTO+ $75·Pio $249)·무료(TexasSolver) vs 상승하는 클라우드 구독(GTO Wizard Ultra $279/mo, "Power Credits" 종량제 결합).
- PLO 민주화. Monker 독점 → GTO Wizard PLO4(2026-05)·Vision(PLO5)·DeepSolver 로드맵.
솔버 vs 익스플로잇 담론 (2026)
"GTO는 풀렸다, 이제 뭐?" — 솔버가 상품화되며 GTO는 "능력의 바닥"일 뿐 엣지가 아니다(순수 GTO 플레이어는 "한 시간 안에 착취당함"). 마퀴 회의론자 Patrik Antonius(2026-01): "솔버의 노예가 되지 않겠다, 최고 온라인 플레이어는 GTO가 아니라 극도로 익스플로잇 한다." 도구도 반영 — GTO Wizard "Player Profiles"(아키타입 착취)·GTOKiller(모집단 실측 빈도)·Octopi "Beyond the Solver". 주류 프레임: "하이브리드, 양자택일 아님", 멀티웨이가 모집단이 가장 약한 지점.
5. 무결성 & 공정성
RTA 탐지·봇·금지 조치 — 합법(오프테이블)과 불법(실시간)의 경계.
사후 학습용 솔버 = 허용·권장. 실시간 핸드 중 조언 = 치팅 → 영구정지+몰수. PokerStars LIVE/EPT는 토너먼트룸 내 솔버·GTO차트·AI 도구 전면 금지(2024 "Laptopgate" 후), 프리플랍 결정시간 15초로 단축.
탐지 기술 (2025–2026)
- 탐지가 "봇 vs 인간"에서 "자연 vs 의심스러운 행동"으로 이동. 솔버 미러링 빈도 일관성 + 타이밍 텔(복잡한 결정을 너무 빨리/이상한 지연).
- 봇/RTA 탐지의 90%+가 사이트 내부 AI(플레이어 신고 아님). PokerStars 사전탐지 95%+ 주장, 신고 기원 ~5%.
- 솔버 요청 타임스탬프 상관(CoinPoker vs LazyAss, 2025-11): 플롭/턴/리버 GTO Wizard 요청 시각이 핸드와 거의 동시임을 공개 로그로 입증 — 가장 명확한 공개 RTA 탐지법.
- 군비경쟁: 단계3 ML 봇이 "휴머나이제이션 레이어"(랜덤 타이밍·벳 변동·예약 휴식)로 행동 탐지 회피. 2026 MCP 기반 LLM 자율 에이전트 논쟁.
주요 사건 (2025–2026)
| 사건 | 시점 | 내용 |
|---|---|---|
| Zamani 봇팜 폭로 | 2026-01 | Ignition/Bovada ~100계정 봇팜 MTT 담합 의혹(한 필드 33% 주장). Ignition은 "2022 영상" 반박 |
| CoinPoker 봇 적발 | 2026-01 | 98봇 차단, 1주 내 1,360명에 $156,446 환불 |
| GGMillion$ 침해 | 2025-10 | RealOA가 프로 Ren Lin에 생조언 → 영구정지, $250,523 회수 |
| WPT Global 스트리머 차단 | 2025-05 | "AlanFPoker" 플레이 중 온스크린 차트(Rule 9.2 위반) |
| whistleblower 저보상 논란 | 2025–26 | WPT 130봇 신고자 보상 $100 — 공정성 핵심 비판 |
오픈소스 RTA 우려 — gto-poker-overlay(2026-06, 브라우저 정책망+자동플레이 오버레이)·poker-gto-rt(YOLO+SAM2+OCR→CFR++, <400ms) 같은 프로젝트가 등장. 이런 화면인식+자동액션 도구가 바로 §1의 금지 범주다.
6. 학술 레퍼런스
CFR부터 2026 신경망 솔버까지 핵심 논문 (연대순).
| 연도 | 저자 | 제목 (약칭) | 출처 |
|---|---|---|---|
| 2007 | Zinkevich 외 | CFR — Regret Minimization in Incomplete-Info Games | NIPS |
| 2009 | Lanctot 외 | MCCFR — Monte Carlo Sampling for Regret Min | NIPS |
| 2013 | Johanson | Measuring the Size of Large No-Limit Poker Games | TR13-01 |
| 2014 | Ganzfried·Sandholm | Potential-Aware Imperfect-Recall Abstraction (EMD) | AAAI |
| 2014 | Tammelin | CFR+ | arXiv:1407.5042 |
| 2015 | Bowling 외 | Heads-up Limit Hold'em is Solved | Science 347 |
| 2017 | Moravčík 외 | DeepStack | Science 356 |
| 2017 | Brown·Sandholm | Safe and Nested Subgame Solving | NIPS (best paper) |
| 2018 | Brown·Sandholm | Libratus | Science 359 |
| 2018 | Burch 외 | AIVAT 분산 감소 | AAAI |
| 2018 | Brown 외 | Depth-Limited Solving (Modicum) | NeurIPS |
| 2019 | Brown 외 | Deep CFR | ICML |
| 2019 | Brown·Sandholm | DCFR / Linear CFR | AAAI |
| 2019 | Steinberger | Single Deep CFR (SD-CFR) | arXiv:1901.07621 |
| 2019 | Brown·Sandholm | Pluribus (멀티플레이어) | Science 365 |
| 2020 | Steinberger 외 | DREAM (모델프리 신경 CFR) | arXiv:2006.10410 |
| 2020 | Brown 외 | ReBeL | NeurIPS |
| 2023 | Sokota 외 | Magnetic Mirror Descent (MMD) | ICLR |
| 2023 | McAleer 외 | ESCHER | ICLR |
| 2023 | Schmid 외 | Student of Games / Player of Games | Science Advances |
| 2024 | Xu 외 | Dynamic Discounted CFR (DDCFR) | ICLR |
| 2024 | Zhang 외 | Faster Solving via Hyperparameter Schedules | arXiv:2404.09097 |
| 2024 | — | GPU-Accelerated CFR | arXiv:2408.14778 |
| 2025 | Rudolph 외 | Reevaluating Policy Gradient for Imperfect-Info | arXiv:2502.08938 |
| 2026 | Xu 외 | Deep (Predictive) Discounted CFR | AAAI / arXiv:2511.08174 |
| 2026 | — | GTO Wizard Benchmark | arXiv:2603.23660 |