GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

요약

기존 multi-reward RL에서 GRPO를 직접 적용하는 방식은 서로 다른 보상 조합을 동일한 advantage 값으로 붕괴시켜 학습 신호의 해상도를 저하시키고 최적화 실패를 야기합니다.

GDPO(Group reward-Decoupled Normalization Policy Optimization)는 개별 보상의 정규화를 분리하여 각 보상의 상대적 차이를 더 정확하게 보존함으로써 이러한 문제를 해결하고 훈련 안정성을 크게 향상시킵니다.

GDPO는 tool calling, math reasoning, coding reasoning 세 가지 작업에서 GRPO보다 일관되게 우수한 성능을 보여 multi-reward RL 최적화의 효과성과 일반화 가능성을 입증합니다.

상세 내용

본 논문은 대규모 언어 모델(LLM)을 다양한 인간 선호도에 맞춰 정렬하기 위해 여러 보상을 활용하는 강화 학습(RL) 파이프라인에서 Group Relative Policy Optimization (GRPO)을 직접 적용할 때 발생하는 문제점을 분석하고, 이를 해결하기 위한 새로운 정책 최적화 방법인 Group reward-Decoupled Normalization Policy Optimization (GDPO)을 제안합니다.

1. 문제점: GRPO의 보상 신호 압축 (Reward Signal Collapse)

최근 연구들은 다중 보상 RL에서 GRPO를 광범위하게 사용해왔지만, 본 논문은 GRPO가 이질적인 보상 조합을 최적화하는 데 부적합하다는 것을 밝힙니다. GRPO는 주어진 질문 $q_i$ 에 대해 행동 정책 $\pi_{\theta_{\text{old}}}$ 가 생성한 $G$ 개의 응답 $\{o_j\}_{j=1}^G$ 에 대해 각 응답의 모든 목적 함수( $n$ 개) 보상을 먼저 합산합니다. 즉, $j$ -번째 응답의 총 보상은 $r_{(i,j)}^{\text{sum}} = r_{(i,j)}^{1} + \cdots + r_{(i,j)}^{n}$ 로 계산됩니다.

그 다음, 이 총 보상에 대해 그룹 단위 정규화를 수행하여 어드밴티지 값을 얻습니다:
$A_{(i,j)}^{\text{sum}} = \frac{r_{(i,j)}^{\text{sum}} - \text{mean}\{r_{(i,1)}^{\text{sum}}, \ldots, r_{(i,G)}^{\text{sum}}\}}{\text{std}\{r_{(i,1)}^{\text{sum}}, \ldots, r_{(i,G)}^{\text{sum}}\}}$
GRPO의 최적화 목적 함수는 다음과 같습니다:
$\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{(q_i,o_j)\sim\mathcal{D}, \{o_j\}_j^G \sim\pi_{\theta_{\text{old}}}(\cdot|q)} \left[ \frac{1}{G} \sum_{j=1}^G \frac{1}{|o_j|} \sum_{t=1}^{|o_j|} \min\left( s_{i,t}(\theta) A_{(i,j)}^{\text{sum}}, \text{clip}(s_{i,t}(\theta), 1-\epsilon, 1+\epsilon) A_{(i,j)}^{\text{sum}} \right) \right]$
여기서 $s_t(\theta) = \frac{\pi_\theta(o_t^j | q, o_{<t}^j)}{\pi_{\theta_{\text{old}}}(o_t^j | q, o_{<t}^j)}$ 입니다.

본 논문은 이러한 GRPO의 접근 방식이 보상 신호를 과도하게 압축하여 정보 손실을 야기한다고 지적합니다. 예를 들어, 두 개의 이진 보상( $r_1, r_2 \in \{0, 1\}$ )과 두 개의 롤아웃을 고려할 때, (0,1)과 (0,2)와 같은 상이한 총 보상 조합이 GRPO 정규화 후에는 동일한 어드밴티지 값( $(-0.7071, 0.7071)$ )을 가질 수 있습니다. 이는 실제로는 (0,2)가 (0,1)보다 더 강력한 학습 신호를 제공해야 함에도 불구하고 그 구분이 사라지게 만듭니다. 이러한 정보 손실은 학습 신호의 해상도를 낮추고, 최적 수렴을 저해하며, 심지어 조기 학습 실패로 이어질 수 있습니다. 표준 편차 정규화 항을 제거한 GRPO 변형(GRPO w/o std)도 어드밴티지 그룹의 수를 약간 늘릴 뿐 근본적인 문제를 해결하지 못합니다.

2. GDPO의 방법론: 보상 분리 정규화 (Group reward-Decoupled Normalization)

GDPO는 GRPO의 한계를 극복하기 위해 각 개별 보상에 대해 그룹 단위 정규화를 수행하여 보상 간의 상대적 차이를 더 충실하게 보존합니다.

개별 보상별 그룹 단위 정규화:

각

j

-번째 롤아웃의

k

-번째 보상

r_{(i,j)}^{k}

에 대해 독립적으로 정규화를 수행합니다.

A_{(i,j)}^{k} = \frac{r_{(i,j)}^{k} - \text{mean}\{r_{(i,1)}^{k}, \ldots, r_{(i,G)}^{k}\}}{\text{std}\{r_{(i,1)}^{k}, \ldots, r_{(i,G)}^{k}\}}

이는

n

개의 모든 보상에 대해 수행됩니다:

A_{(i,j)}^{1}, \ldots, A_{(i,j)}^{n}

.

정규화된 개별 어드밴티지 합산:

이렇게 개별적으로 정규화된 어드밴티지들을 합산하여 총 어드밴티지 값을 얻습니다:

\tilde{A}_{(i,j)}^{\text{sum}} = A_{(i,j)}^{1} + \cdots + A_{(i,j)}^{n}

배치 단위 어드밴티지 정규화 (Batch-wise Advantage Normalization):

마지막으로, 보상의 수에 상관없이 최종 어드밴티지의 수치적 스케일을 안정적으로 유지하고 학습 안정성을 개선하기 위해, 이 합산된 어드밴티지에 대해 배치 단위 정규화를 적용합니다.

\hat{A}_{(i,j)}^{\text{sum}} = \frac{\tilde{A}_{(i,j)}^{\text{sum}} - \text{mean}\{\tilde{A}_{(i',j')}^{\text{sum}} | i' \in D_{\text{Batch}}, j' = 1, \ldots, G\}}{\text{std}\{\tilde{A}_{(i',j')}^{\text{sum}} | i' \in D_{\text{Batch}}, j' = 1, \ldots, G\} + \epsilon}

이 최종

\hat{A}_{(i,j)}^{\text{sum}}

값이 정책 업데이트에 사용되는 어드밴티지입니다.

GDPO는 (0,1)과 (0,2)와 같은 보상 조합에 대해 각각 다른 어드밴티지 값( $(-0.7071, 0.7071)$ 및 $(-1.4142, 1.4142)$ )을 할당함으로써 보상 간의 미묘한 차이를 보존합니다. 이는 GRPO에 비해 더 많은 수의 구별 가능한 어드밴티지 그룹을 생성하여, 더 표현력 있는 학습 신호를 제공하고 보다 정확한 다중 보상 최적화를 가능하게 합니다.

3. 우선순위 변화의 효과적인 통합

GDPO는 각 보상에 가중치 $w_k$ 를 부여하여 우선순위를 반영할 수 있습니다. 즉, $\tilde{A}_{(i,j)}^{\text{sum}} = w_1 A_{(i,j)}^{1} + \cdots + w_n A_{(i,j)}^{n}$ 로 계산합니다. 그러나 보상의 난이도가 크게 다를 경우, 단순히 가중치를 조정하는 것만으로는 의도한 대로 동작하지 않을 수 있습니다. 쉬운 보상을 극대화하려는 경향이 발생하기 때문입니다.

이를 해결하기 위해, 특정 보상 $r_k$ 를 다른 보상 $r_l$ 에 조건화하는 방법을 제안합니다. 즉, $r_k = r_k$ if $r_l \ge t$ else $0$ 와 같이 설정하여, $r_l$ 이 특정 임계값 $t$ 를 만족할 때만 $r_k$ 를 받도록 합니다. 이 방법은 모델이 우선시되는 보상을 먼저 최대화하도록 강제하여, 보상 해킹(reward hacking) 문제를 효과적으로 완화하고 인간의 선호도와 더 잘 일치하는 동작을 유도합니다.

4. 실험 결과

GDPO는 툴 콜링(tool calling), 수학 추론(math reasoning), 코딩 추론(coding reasoning) 세 가지 태스크에서 GRPO와 비교되었습니다.

* 툴 콜링: 정합성(correctness) 및 형식 준수(format compliance) 두 가지 보상을 최적화합니다. GDPO는 Qwen2.5-Instruct 모델에서 GRPO보다 일관되게 더 높은 정합성과 형식 보상 점수로 수렴했으며, BFCL-v3 벤치마크에서 평균 툴 콜링 정확도와 형식 정확도를 향상시켰습니다. 특히 GRPO w/o std는 형식 보상 개선에 실패하여 학습 불안정성을 보여주었습니다.
* 수학 추론: 정확도와 길이 제약이라는 두 가지 경쟁적인 보상을 최적화합니다. GDPO는 DeepSeek-R1 및 Qwen3-4B-Instruct 모델에서 GRPO보다 AIME와 GSM8K 데이터셋에서 더 높은 정확도를 달성하며, 응답 길이도 효과적으로 관리했습니다. 특히 GRPO에서 나타났던 학습 수렴 실패 문제를 GDPO는 해결하며 지속적인 개선을 보여주었습니다. 조건부 보상(conditioned reward) 방식이 단순히 가중치를 높이는 것보다 우선순위가 높은 목표에 대한 성능을 훨씬 더 효과적으로 향상시켰습니다.
* 코딩 추론: 코드 생성 정확도, 길이 제약, 버그 비율의 세 가지 보상을 최적화합니다. GDPO는 GRPO에 비해 세 가지 보상 모두에서 더 나은 성능을 보여주며, 다중 보상 목표 설정에 대한 GDPO의 일반화 가능성을 입증했습니다.

결론적으로, GDPO는 다중 보상 RL 최적화에서 GRPO의 한계점을 극복하고, 학습 신호의 해상도를 높여 더 안정적이고 효과적인 학습 수렴을 달성함을 다양한 실험을 통해 입증했습니다.

#RL #LLM #Policy Optimization #Multi-reward RL #GDPO