포커 GTO 솔버 전수분석

1. 개요 & 합법 범위

GTO 솔버가 무엇이고, 어디까지가 합법적 학습 도구인가.

GTO(Game Theory Optimal)는 포커의 내쉬 균형(Nash Equilibrium) 전략을 뜻한다. 2인 제로섬 게임에서 GTO를 따르면 상대가 내 전략을 알아도 착취할 수 없다 — "최대 이익"이 아니라 "최소 손실 보장(지지 않는 방어선)"이다. 솔버(solver)는 이 균형을 수치로 계산해 주는 프로그램이다.

솔버의 정수는 밸런스(혼합 전략)다. 강한 보드에서 밸류 핸드만 벳하면 상대가 폴드해 착취당하므로, 솔버는 "밸류:블러프 = 2:1" 같은 정확한 비율을 계산한다. 이 비율은 인간 직관으로 불가능해 솔버가 필요하다.

2. 프로그램 전수조사

2026년 6월 기준 — 데스크톱(CPU) · 클라우드/신경망 · 오픈소스 · 신규 진입자.

A. 데스크톱 솔버 (로컬 · CPU · 1회 구매)

PioSOLVER

Piotr Lopusiewicz · piosolver.com

유형: HU 포스트플랍(+Edge 프리플랍)
강점: 업계 표준. 트리 커스터마이즈·노드락·집계 리포트·UPI 스크립팅
가격: Pro €450 / Edge €800 (평생, 1년 업데이트)
플랫폼: Windows. Edge 프리플랍 ≥64GB RAM

NLHE€450~

GTO+

Eighty3 · gtoplus.com

유형: HU 포스트플랍 + 계산기
강점: 가성비 1위. 초저메모리·압축(파일 수백 KB)·Flopzilla 연동
가격: 1라이선스 $75 / 2번째 $40 (평생 전체 업데이트)
최근: v1.9.1 베타 (2026-06-23)

NLHE$75 가성비

MonkerSolver

MonkerWare · monkerware.com

유형: 프리+포스트플랍, 멀티웨이·PLO
강점: 3인+ 멀티웨이 & 오마하 전문 (유일에 가까운 지위)
가격: €499 1회 (무료=턴/리버)
한계: 엔진 버전 노후(1.4/2020 참조), 업데이트 느림

PLOMultiway€499

JeSolver (Jeskola)

Oskari Tammelin · jeskola.net

유형: UPI 엔진 (Pio 드롭인 대체)
강점: 압축 → 초고속(32s vs Pio 7min)·소형 파일. 보드 스캔용
가격: 무료판 + 상용 라이선스(공식 BTC 표기)
상태: 여전히 beta(build 1085)

NLHE압축속도

Simple Poker 패밀리

Simple Software · simplepoker.com

구성: Postflop·GTO Trainer·3-Way·Omaha·Nash
강점: 노드락·1,755 플랍 추상·트레이너 실시간 피드백
가격: Postflop $299 / Trainer $99~199
플랫폼: Windows (클라우드 솔브 옵션)

NLHEPLO3-Way

HRC (Hold'em Resources)

holdemresources.net

유형: 토너먼트 ICM·push/fold + 포스트플랍(Pro)
강점: 대형 필드 ICM ±0.01% 정확·고속
가격: Classic $9.99~/mo · Pro $29.99~/mo
최근: 2026-03 안정판 (신 ICM 모델·GG/CoinPoker 지원)

MTT/ICM구독

B. 클라우드 / 신경망 솔버 (웹 기반)

GTO Wizard 시장 1위

gtowizard.com · 엔진=인수한 Ruse AI

유형: 1000만+ 사전솔브 라이브러리 + 실시간 신경망 커스텀 솔브 + 트레이너
강점: 2코어/8GB에서 즉시. Slumbot +19.4bb/100, Nash거리 ~0.12%. Nodelocking 2.0·Single Size·QRE 엔진
가격: Starter $39~ / Premium $79~ / Elite $139~ / Ultra $229~ (연·2026-03 개편)
2025–26: 멀티웨이 9인(2월)·PLO4(5월)·3-way·5.3만 ICM 시뮬·2026 WSOP 공식 파트너

신경망+CFRGPUPLO9-way

DeepSolver

deepsolver.com · "세계에서 가장 빠른 솔버"

유형: 클라우드 온디맨드 (사전 라이브러리 없음)
강점: CFR+신경망 하이브리드, 분/시간→초. Nash거리 ~0.59%. 노드락·exploit 탐색
가격: Essential $29.4~/mo · Pro $41.4~/mo · API ~$650/mo(GPU 포함)
한계: 2인 포스트플랍 NLHE. 멀티웨이 없음·모바일앱 없음

신경망+CFRNVIDIA GPU클라우드

🔀 Ruse → "GTO Wizard AI"

Ruse AI(2022, Mila 출신 P.Beardsell·M-A.Provost 개발, Slumbot +19.4bb/100로 화제)는 2023년 GTO Wizard에 인수돼 더 이상 독립 제품이 아니다. 현재 GTO Wizard AI 엔진의 핵심. 이 업계의 대표 M&A 사건.

C. 오픈소스 (무료)

TexasSolver / TexasSolverGPU

bupticybee · GitHub (AGPL-3.0)

유형: 무료 포스트플랍 솔버 (Pio와 결과 일치)
CPU: C++ GUI/콘솔, v0.2.0 (2024-11, 사실상 휴면)
GPU: 세계 첫 GPU 포커 솔버, CUDA, ~Pio 4배. v0.2.0 (2026-03-21, 활발)
게임: NLHE + 숏덱. PLO/멀티웨이 없음

무료CUDA

연구 라이브러리

OpenSpiel · PokerRL · WASM Postflop

OpenSpiel: DeepMind, ~4.8k★, 2.0 준비 중. Kaggle Game Arena LLM 포커 평가 기반
PokerRL: Deep CFR/DREAM 레퍼런스 (안정·휴면)
WASM Postflop: 브라우저 무료 솔버 — 2023-10 개발 중단

무료연구

D. 2025–2026 신규 진입자 & 니치

도구	카테고리	가격(2026)	플랫폼	특징
Vision GTO Trainer	PLO 트레이너/솔버 (Phil Galfond)	$129~249/mo	Web	PLO/PLO5 1위, 420+ 보드텍스처
Octopi Poker	AI 트레이너 (Hellmuth 투자)	무료~$200/yr	Web	"솔버는 인간용이 아니다" 게이미피케이션
GTO Lab	토너먼트/ICM (Petrangelo 등)	무료~$124/mo	Web+앱	1.4만+ 프리플랍, 풀테이블 ICM
PeakGTO	올인원 트레이너 (PokerCoaching)	무료+구독	Web	2000만+ 스팟, 리크 파인더
GTO Gecko	모바일 우선 풀 솔버	$15~40/mo	iOS+Android	앱 내 완전 솔버(차트 아님)
GTO Strategy	게이미파이드 (Leonard 등, 2026-06-09 출시)	무료~$79/mo	Web	Solve/Train/Compete·리더보드
GTOKiller	exploit-first (모집단 MDA)	구독	Web	실제 빈도 ~5000노드/핸드, 이론값 미보충
PokerSnowie	구형 신경망 트레이너	~$16.66/mo	Web+모바일	입문자 친화

3. 기술적 방법 & 알고리즘

CFR 계열 → 신경망 → 솔버 엔지니어링. 솔버 내부가 실제로 어떻게 돌아가는가.

3.1 핵심 알고리즘 — CFR (Counterfactual Regret Minimization)

거의 모든 현대 솔버의 엔진. Zinkevich 외 (2007, NIPS)가 도입한 불완전정보 게임용 반복 셀프플레이 알고리즘이다.

게임을 정보집합(infoset)으로 분해 — 자기 패+공개 히스토리만 아는 의사결정 지점.
각 infoset에서 액션별 누적 반사실적 후회(counterfactual regret) 추적 = "그 액션을 항상 했더라면 얼마나 더 벌었을까"를 도달확률 가중 누적.
Regret Matching: 다음 전략을 양(+)의 후회에 비례하게 설정.
핵심 정리: 2인 제로섬에서 양쪽 후회→0이면 평균 전략이 내쉬 균형으로 수렴(현재 iterate가 아님). 수렴률 O(1/√T).

주요 변종

변종	출처	핵심 아이디어	효과
CFR+	Tammelin 2014	후회를 매 iter 0으로 floor(RM⁺) + 교대 업데이트 + 선형 평균	수 자릿수 빠름. 림홀덤 풀이(<1 mbb/g)의 주역
MCCFR	Lanctot 2009	전체 트리 대신 샘플링 — 외부샘플링(ES)/결과샘플링(OS)	대형 게임 가능. ES가 포커 표준
DCFR / Linear CFR	Brown·Sandholm 2019	초기 iter을 (α,β,γ)로 할인. 권장 (1.5,0,2)	CFR+ 동급 이상·"큰 실수"에 강건. LCFR은 ~100배 가속

수렴 측정 — exploitability(최악 상대에게 잃는 양, 균형=0) · mbb/g(밀리 빅블라인드/게임, 림홀덤 <1) · bb/100(승률 단위, 강한 프로 ~5bb/100). AIVAT(Burch 2018)는 분산을 ~85% 줄여 평가에 쓰인다.

3.2 신경망 / 딥러닝 접근

Deep CFR

Brown 외 · ICML 2019

최초의 확장형 추상화-프리 CFR. 후회·전략 테이블을 신경망(advantage net + strategy net)으로 대체, ES-MCCFR + reservoir 메모리. 후속: SD-CFR(평균망 제거)·DREAM(완전 모델프리).

DeepStack

Moravčík 외 · Science 2017

HUNL 최초 프로 격파. 연속 재해결(continual re-solving) + 깊이제한 + 학습된 가치망("직관", 7층×500 PReLU, 턴 1000만 게임 학습).

Libratus

Brown·Sandholm · Science 2018

4 프로 격파(12만 핸드). Blueprint(MCCFR) + 중첩 서브게임 재해결(off-tree 벳 대응, NIPS 2017 베스트페이퍼) + 야간 self-improver. ~2500만 코어시간.

Pluribus

Brown·Sandholm · Science 2019

최초 6인 멀티웨이 초인 AI. Linear MCCFR blueprint(8일·12,400 코어시간·~$144) + 깊이제한 탐색. >2인은 내쉬가 승리 보장 안 됨 → 균형 보장 포기.

ReBeL

Brown 외 · NeurIPS 2020

RL+탐색 통합. 공개신념상태(PBS)로 불완전정보를 PBS 위 완전정보 게임으로 변환 → 가치·정책망 셀프플레이. 2인 제로섬 내쉬 수렴 보장.

Student of Games

Schmid 외 · Science Adv. 2023

체스·바둑·HUNL·Scotland Yard 통합. GT-CFR(트리 성장) + CVPN. DeepStack 재해결을 임의 게임으로 일반화. "일반성의 대가".

2023–2026 프론티어 — ESCHER(ICLR 2023, 중요도샘플링 제거로 저분산) · DDCFR(ICLR 2024, 할인 스케줄 학습) · Hyperparameter Schedules(AAAI 2026) · Deep-PDCFR(AAAI 2026) · MMD(ICLR 2023, QRE 마지막-iterate 수렴 — GTO Wizard가 2025년 Nash→QRE 전환한 계열). 정책경사(PPO/MMD)가 잘 튜닝하면 강한 베이스라인이라는 재평가(2025)도.

3.3 솔버 엔지니어링 (실무)

게임 트리 추상화

전체 게임은 천문학적 — HULHE ≈ 10¹⁷ 상태 / 1.4×10¹³ infoset, HUNL ≈ 10¹⁶⁰~10¹⁶⁵ 노드(Johanson 2013). 추상화로 축소한다.

무손실 동형(isomorphism): 무늬 대칭 상황 병합(레인보우 보드의 4 무늬 동등) — 전략 손실 없음.
잠재인식 불완전기억 추상화 (EMD): 다음 스트리트 에쿼티 전이 히스토그램을 k-means + earth-mover's distance로 클러스터(Ganzfried·Sandholm 2014). 같은 현재 에쿼티라도 드로우 vs 메이드 패의 잠재력을 구분. 22,100→1,755 플랍.
벳/액션 추상화: 연속 벳사이즈를 33%/75%/pot/올인 등으로 이산화 → off-tree exploitability 발생(Libratus가 중첩 재해결로 보완).

레인지 vs 레인지 벡터 솔빙

현대 포스트플랍 솔버는 각 플레이어를 1,326 홀카드 조합 전체 분포(가중치)로 표현하고, 노드마다 핸드별 전략·후회·EV·에쿼티·EQR 벡터를 유지. 1,326 콤보 EV를 동시에 계산(벡터화 CFR+) → iter당 연산이 핸드 위 밀집 행렬 연산.

블로커 / 카드 제거

두 레인지를 모두 추론하므로 카드 제거 효과가 자연 발생. 특정 카드 보유 시 상대 콤보 제거 → 블러프 선택(상대 콜·밸류를 블록, 폴드는 언블록)과 사이징을 좌우. 같은 raw 에쿼티 핸드가 다른 GTO 빈도를 갖는 이유.

서브게임 재해결 & 노드락

안전 서브게임 재해결: gadget 게임으로 blueprint보다 더 착취당하지 않게 보장(Resolve/Maxmargin/Reach).
노드락: 한 노드 전략을 고정("villain은 여기서 밸류만 c-bet") → 나머지 핸드의 최대 착취 응답 계산. 한계: 잠금 노드 이후엔 완벽 플레이로 복귀해 실제 오류를 과소평가.

비용 & GPU/신경망 생산 솔버

항목	수치
PioSOLVER 단일레이즈팟(6-max, 2/3벳)	≈ 1.2 GB RAM
100bb 2사이즈 6-max 트리	≈ 7.8 GB
턴 솔브 / 턴+리버	8–14분 / 25–45분
GPU-CFR (행렬화, arXiv:2408.14778)	CPU 대비 ~30×, OpenSpiel C++ 대비 ~204×
GTO Wizard AI (CFR+신경망 leaf값+깊이제한)	~3초/스트리트, 0.22% Nash거리, ~800× 가속

메모리 관리: 알고리즘 티어(pio_cfr→original_pio→_small)로 속도/RAM 교환, "small saves"(no_rivers)·"very small saves"(no_turns)로 후속 스트리트를 탐색 시 on-the-fly 재계산.

4. 2026 트렌드

신경망 하이브리드·GPU·멀티웨이/PLO 대중화·모바일·게이미피케이션·exploit 회귀.

신경망+CFR 하이브리드가 새 프론티어. GTO Wizard AI·DeepStack 아이디어 생산화 → 솔브 시간 시간→초. 벤치(2026-04): Pio 4,862초(0.23%) vs GTO Wizard AI 6초(0.22%, 2코어/8GB). LLM 전부 격파(GPT-5.3 −16, Claude Opus 4.6 −20.4, Grok 4 −60 bb/100).
GPU 가속 확산. 서버측(GTO Wizard·DeepSolver) + 로컬 TexasSolverGPU(무료 CUDA, 2026-03). 전통 데스크톱(Pio·GTO+·Monker)은 CPU 전용 유지.
멀티웨이(3인+) 드디어 도래. 과거 Monker/Simple 독점 → GTO Wizard 커스텀 3-way(2025-08), 멀티웨이 프리플랍 9인(2026-02). Pio 멀티웨이는 여전히 미출시.
모바일 우선이 실제 카테고리. GTO Gecko(네이티브 iOS/Android 풀 솔버)·GTO Wizard 모바일 앱·PokerSnowie. 데스크톱 전용에서 이탈.
게이미피케이션 "인간을 위한 솔버". Octopi(Hellmuth 투자)·GTO Strategy(Compete/리더보드)·PeakGTO·GTO Lab — 균형 덤프 대신 드릴·코칭·경쟁으로 포장.
가격 양극화. 저가 1회(GTO+ $75·Pio $249)·무료(TexasSolver) vs 상승하는 클라우드 구독(GTO Wizard Ultra $279/mo, "Power Credits" 종량제 결합).
PLO 민주화. Monker 독점 → GTO Wizard PLO4(2026-05)·Vision(PLO5)·DeepSolver 로드맵.

솔버 vs 익스플로잇 담론 (2026)

"GTO는 풀렸다, 이제 뭐?" — 솔버가 상품화되며 GTO는 "능력의 바닥"일 뿐 엣지가 아니다(순수 GTO 플레이어는 "한 시간 안에 착취당함"). 마퀴 회의론자 Patrik Antonius(2026-01): "솔버의 노예가 되지 않겠다, 최고 온라인 플레이어는 GTO가 아니라 극도로 익스플로잇 한다." 도구도 반영 — GTO Wizard "Player Profiles"(아키타입 착취)·GTOKiller(모집단 실측 빈도)·Octopi "Beyond the Solver". 주류 프레임: "하이브리드, 양자택일 아님", 멀티웨이가 모집단이 가장 약한 지점.

5. 무결성 & 공정성

RTA 탐지·봇·금지 조치 — 합법(오프테이블)과 불법(실시간)의 경계.

공식 정책 (모든 주요 사이트 공통)

사후 학습용 솔버 = 허용·권장. 실시간 핸드 중 조언 = 치팅 → 영구정지+몰수. PokerStars LIVE/EPT는 토너먼트룸 내 솔버·GTO차트·AI 도구 전면 금지(2024 "Laptopgate" 후), 프리플랍 결정시간 15초로 단축.

탐지 기술 (2025–2026)

탐지가 "봇 vs 인간"에서 "자연 vs 의심스러운 행동"으로 이동. 솔버 미러링 빈도 일관성 + 타이밍 텔(복잡한 결정을 너무 빨리/이상한 지연).
봇/RTA 탐지의 90%+가 사이트 내부 AI(플레이어 신고 아님). PokerStars 사전탐지 95%+ 주장, 신고 기원 ~5%.
솔버 요청 타임스탬프 상관(CoinPoker vs LazyAss, 2025-11): 플롭/턴/리버 GTO Wizard 요청 시각이 핸드와 거의 동시임을 공개 로그로 입증 — 가장 명확한 공개 RTA 탐지법.
군비경쟁: 단계3 ML 봇이 "휴머나이제이션 레이어"(랜덤 타이밍·벳 변동·예약 휴식)로 행동 탐지 회피. 2026 MCP 기반 LLM 자율 에이전트 논쟁.

주요 사건 (2025–2026)

사건	시점	내용
Zamani 봇팜 폭로	2026-01	Ignition/Bovada ~100계정 봇팜 MTT 담합 의혹(한 필드 33% 주장). Ignition은 "2022 영상" 반박
CoinPoker 봇 적발	2026-01	98봇 차단, 1주 내 1,360명에 $156,446 환불
GGMillion$ 침해	2025-10	RealOA가 프로 Ren Lin에 생조언 → 영구정지, $250,523 회수
WPT Global 스트리머 차단	2025-05	"AlanFPoker" 플레이 중 온스크린 차트(Rule 9.2 위반)
whistleblower 저보상 논란	2025–26	WPT 130봇 신고자 보상 $100 — 공정성 핵심 비판

오픈소스 RTA 우려 — gto-poker-overlay(2026-06, 브라우저 정책망+자동플레이 오버레이)·poker-gto-rt(YOLO+SAM2+OCR→CFR++, <400ms) 같은 프로젝트가 등장. 이런 화면인식+자동액션 도구가 바로 §1의 금지 범주다.

6. 학술 레퍼런스

CFR부터 2026 신경망 솔버까지 핵심 논문 (연대순).

연도	저자	제목 (약칭)	출처
2007	Zinkevich 외	CFR — Regret Minimization in Incomplete-Info Games	NIPS
2009	Lanctot 외	MCCFR — Monte Carlo Sampling for Regret Min	NIPS
2013	Johanson	Measuring the Size of Large No-Limit Poker Games	TR13-01
2014	Ganzfried·Sandholm	Potential-Aware Imperfect-Recall Abstraction (EMD)	AAAI
2014	Tammelin	CFR+	arXiv:1407.5042
2015	Bowling 외	Heads-up Limit Hold'em is Solved	Science 347
2017	Moravčík 외	DeepStack	Science 356
2017	Brown·Sandholm	Safe and Nested Subgame Solving	NIPS (best paper)
2018	Brown·Sandholm	Libratus	Science 359
2018	Burch 외	AIVAT 분산 감소	AAAI
2018	Brown 외	Depth-Limited Solving (Modicum)	NeurIPS
2019	Brown 외	Deep CFR	ICML
2019	Brown·Sandholm	DCFR / Linear CFR	AAAI
2019	Steinberger	Single Deep CFR (SD-CFR)	arXiv:1901.07621
2019	Brown·Sandholm	Pluribus (멀티플레이어)	Science 365
2020	Steinberger 외	DREAM (모델프리 신경 CFR)	arXiv:2006.10410
2020	Brown 외	ReBeL	NeurIPS
2023	Sokota 외	Magnetic Mirror Descent (MMD)	ICLR
2023	McAleer 외	ESCHER	ICLR
2023	Schmid 외	Student of Games / Player of Games	Science Advances
2024	Xu 외	Dynamic Discounted CFR (DDCFR)	ICLR
2024	Zhang 외	Faster Solving via Hyperparameter Schedules	arXiv:2404.09097
2024	—	GPU-Accelerated CFR	arXiv:2408.14778
2025	Rudolph 외	Reevaluating Policy Gradient for Imperfect-Info	arXiv:2502.08938
2026	Xu 외	Deep (Predictive) Discounted CFR	AAAI / arXiv:2511.08174
2026	—	GTO Wizard Benchmark	arXiv:2603.23660