ES_Trading_Professional_Analysis | Kaggle
Paper

ES_Trading_Professional_Analysis | Kaggle

2026.02.01
·Service·by 이호민
#LLM#Finance#Trading#AI#Benchmark

핵심 포인트

  • 1본 연구는 OHLCV 데이터와 차트 이미지를 활용하여 LLM이 E-mini S&P 500 (ES) 선물에 대한 전문적이고 위험 인식적인 트레이딩 분석을 생성하는 능력을 평가하는 벤치마크를 제시합니다.
  • 2평가된 모든 LLM은 Buy-and-hold 전략 대비 변동성 및 최대 drawdown에서 우수한 성능을 보였으나, 총 수익률(total return)이나 CAGR에서는 앞서지 못해 강력한 리스크 컨트롤 대비 신호 수익화 부족을 시사합니다.
  • 3이는 LLM의 주요 한계가 방향성 인사이트(directional insight)가 아닌 보수적인 신호 크기로 인한 구조적 노출 관리(exposure management)에 있음을 나타내며, 개선된 신호 스케일링을 통해 성능 향상 가능성을 보여줍니다.

이 논문은 대규모 언어 모델(LLM)이 전문적이고 리스크를 인지하는(risk-aware) 트레이딩 분석을 생성할 수 있는지 평가하기 위한 벤치마크를 제시합니다. 목표는 'E-mini S&P 500 (ES) futures'에 대해 1일 후의 'long/short' 트레이딩 신호를 생성하고, 관찰 가능한 가격 구조에 기반한 전문적인 추론을 제공하는 것입니다. 이 연구는 단순히 수익률을 최적화하기보다는 'directional skill', 'risk awareness', 'regime sensitivity', 'exposure management'와 같은 요소들을 진단하는 데 중점을 둡니다.

핵심 방법론은 다음과 같습니다. 연구는 2025년 1월 1일부터 2025년 11월 25일까지 228 거래일의 백테스팅 기간 동안 'E-mini S&P 500 (ES) futures'를 대상으로 수행되었습니다. LLM에는 공개 'OHLCV' 시계열 데이터와 180일 가격 차트 이미지 하나가 입력으로 제공됩니다. 모델의 출력은 'Long' (]0,1]), 'Short' ([−1,0[), 'Neutral / Wait' (0)의 세 가지 이산적인 방향으로 매핑되어 평가의 일관성을 확보합니다.

성능 평가는 'return-based' 및 'risk-based' 지표를 모두 사용했습니다. 'return-based' 지표로는 'Total return'과 'CAGR'이 사용되었고, 'risk-based' 지표로는 'Sharpe ratio', 'Sortino ratio', 'Maximum drawdown', 'Volatility', 그리고 'Rolling equity'와 'rolling risk diagnostics'가 사용되었습니다. 'Buy-and-hold ES futures' 전략은 평가의 기준선(baseline) 역할을 하며, LLM 기반 전략이 유의미한 'alpha'를 생성하려면 이 기준선을 초과해야 합니다.

주요 결과는 다음과 같습니다. 평가된 모든 LLM은 'buy-and-hold' 대비 'volatility'와 'maximum drawdown' 측면에서 우수한 성능을 보였지만, 'total return'이나 'CAGR'에서는 'buy-and-hold'를 능가하지 못했습니다. 이는 LLM이 강력한 'risk control' 능력을 가지고 있지만, 'directional signals'을 충분히 수익화하지 못했음을 시사합니다.

'Rolling metrics'를 통한 'regime-based analysis' 결과 세 가지 뚜렷한 시장 국면이 나타났습니다:

  1. Phase 1 (1월–3월): 'Buy-and-hold'가 모든 LLM을 능가했습니다. 시장은 'choppy'한 상태였고, LLM의 보수적인 'signal scaling'이 상승 여력 포착을 제한했습니다.
  2. Phase 2 (3월–8월): 모든 LLM이 'buy-and-hold'를 능가했습니다. 시장은 조정(corrections)과 국면 전환(regime transitions)을 겪었으며, 'Gemini-Flash v2.5', 'Gemini-Pro v3', 'DeepSeek v3.1'이 가장 좋은 성능을 보였습니다. 이는 적응적이고 'risk-aware'한 신호가 이점을 제공하는 시기임을 보여줍니다.
  3. Phase 3 (8월–11월): 'Buy-and-hold'가 모든 LLM을 압도적으로 능가했습니다. 강하고 지속적인 'bullish trend'가 나타났으며, 'buy-and-hold'가 약 100%의 노출도(exposure)를 유지한 반면, LLM은 보수적인 신호 크기(±0.5)로 인해 약 50%의 유효 노출도만을 가졌습니다. 이로 인한 저조한 성과는 정보의 부족이 아닌 구조적인 문제로 진단되었습니다.

'DeepSeek v3.1'은 특히 강력한 'directional characteristics'을 보였습니다: 81%의 'long bias', 61% 이상의 'short-side win rate', 59% 이상의 'long-side win rate', 약 0.71의 'Sharpe ratio', 그리고 약 -6.88%의 'maximum drawdown'을 기록했습니다. 이는 진정한 'directional skill'과 규율적인 'risk management'가 존재하지만, 보수적인 'exposure'로 인해 'alpha'가 완전히 수익화되지 못했음을 시사합니다. 저자는 신호 진폭(signal amplitudes)을 ±0.5에서 ±1로 단순하게 조정하는 것만으로도 리스크를 크게 증가시키지 않으면서 수익 지표를 개선할 수 있다고 제안합니다.

결론적으로, 이 벤치마크는 LLM이 이미 전문적이고 'risk-aware'한 트레이딩 분석을 생성할 수 있음을 보여줍니다. 주요 한계점은 'directional insight' 자체보다는 이러한 통찰력이 'exposure'로 어떻게 변환되는지에 있습니다. 개선된 'signal scaling'과 'regime-aware post-processing'을 통해 LLM은 정량 금융(quantitative finance) 분야에서 중요한 역할을 할 수 있을 것으로 예상됩니다.