Blog

강화학습 - 밴디트 알고리즘(슬롯 확률 시뮬레이션, 상승장 종목 찾기)

hyuniiie

2026.03.30

·Service·by 배레온/부산/개발자

#Bandit Algorithm#Epsilon-Greedy#Python#Reinforcement Learning#Simulation

핵심 포인트

1본 연구는 강화학습의 Multi-Armed Bandit 문제와 ε-greedy 전략을 활용하여 최적의 슬롯 선택 및 보상 추정 방법을 시뮬레이션했습니다.
2슬롯 머신 시뮬레이션을 통해 Q-값 업데이트 방식(샘플 평균 및 학습률 Alpha)과 탐험 확률 ε의 영향을 분석하며, 동적 환경에서의 에이전트 성능 변화를 검증했습니다.
3마지막으로, KOSPI 종목 데이터에 Q-learning 개념을 적용하여 일간 5% 이상 상승 가능성이 높은 종목을 Q-값이 0.9를 초과하는 기준으로 탐색하는 실제 사례를 제시했습니다.

Q

Blog

hyuniiie

2026.03.30

·Service·by 배레온/부산/개발자

#Bandit Algorithm#Epsilon-Greedy#Python#Reinforcement Learning#Simulation

1본 연구는 강화학습의 Multi-Armed Bandit 문제와 ε-greedy 전략을 활용하여 최적의 슬롯 선택 및 보상 추정 방법을 시뮬레이션했습니다.
2슬롯 머신 시뮬레이션을 통해 Q-값 업데이트 방식(샘플 평균 및 학습률 Alpha)과 탐험 확률 ε의 영향을 분석하며, 동적 환경에서의 에이전트 성능 변화를 검증했습니다.
3마지막으로, KOSPI 종목 데이터에 Q-learning 개념을 적용하여 일간 5% 이상 상승 가능성이 높은 종목을 Q-값이 0.9를 초과하는 기준으로 탐색하는 실제 사례를 제시했습니다.

Q