Rate or Fate? RLVεR
RLVR은 여러 답안을 만든 뒤 검증 결과로 정책을 갱신하는 방식이다. 수학이나 코드처럼 정답 판별이 가능한 과제에 주로 적용된다. 문제는 검증기가 늘 맞지 않는다는 점이다. 테스트가 부족하면 오답이 통과할 수 있고, 정답이 실패 처리될 수도 있다. 이 논문은 그런 노이즈가 학습 속도만 늦추는지, 아니면 학습 방향 자체를 틀어버리는지를 다룬다.
노이즈를 하나의 값으로 묶는 방법
논문은 응답 하나하나보다 비슷한 풀이 경향을 묶어서 본다. 정답으로 이어지는 모드와 오답으로 이어지는 모드를 나누고, 정책이 각 모드에 얼마나 큰 확률을 두는지 추적한다. 이 틀에서는 오답 쪽 확률 질량이 시간이 지나며 줄어드는지, 늘어나는지로 학습 상태를 읽는다.
검증기 품질은 false positive와 false negative로 갈린다. 이를 함께 묶은 값이 Youden 지수 J = TPR - FPR이다. J가 양수면 정답에 유리한 신호가 남아 있고, 0이면 방향 정보가 사라지며, 음수면 오답 쪽이 더 자주 보상을 받는다.
J가 가르는 학습 구간
J의 부호가 바뀌면 학습 양상도 함께 바뀐다. J>0이면 오답 모드에 실린 확률이 줄고, J=0이면 큰 이동이 없으며, J<0이면 오답 모드가 커진다. 노이즈가 있어도 J가 양수인 동안에는 학습 방향이 유지된다. 느려질 뿐이다.

그래프에서는 J가 0을 기준으로 구간이 갈린다. J가 0보다 큰 조건에서는 pass@1이 서서히 올라가고, 0에 가까운 조건에서는 변화가 거의 없다. J가 음수로 내려가면 학습이 이어질수록 성능이 떨어진다.
속도와 도착 지점
논문 제목의 rate는 수렴 속도, fate는 최종적으로 향하는 구간을 가리킨다. J>0인 구간에서는 보상에 노이즈가 섞여도 정책이 향하는 쪽이 바뀌지 않는다. 깨끗한 보상보다 늦게 움직일 뿐, 결국 같은 쪽으로 모인다. 이 설명은 RLVR이 새로운 정답 모드를 갑자기 만들어내기보다, 이미 있던 모드 사이의 확률을 다시 나누는 과정이라는 해석으로 이어진다.

그림에서는 초기 오답 비중이 달라도 J의 부호가 같으면 궤적이 같은 쪽으로 모인다. J가 양수일 때는 학습 구간으로, 음수일 때는 반대 방향으로 간다. 차이는 도착 지점이 아니라 거기까지 가는 속도다.
실험에서 확인한 변화
실험은 Python 코드 생성 과제에서 진행됐다. Qwen2.5-3B를 GRPO로 학습했고, 정답을 오답으로 뒤집는 비율과 오답을 정답으로 뒤집는 비율을 따로 조절했다. 각 조건은 2 epoch, 1,410 step 동안 학습했다.
성능 차이는 경계 부근에서 분명하게 갈렸다. 노이즈가 없는 조건은 pass@1 20.8%, J=0.7은 18.6%였다. J=0에서는 13.4%로 거의 멈췄다. J=-0.1에서는 0.16%까지 내려갔다. 같은 J=0.3이어도 false positive가 많은 조건이 false negative가 많은 조건보다 낮았다. 오답에 보상이 붙으면 잘못된 모드가 더 직접적으로 강화되기 때문이다.

표는 J 값과 오류 유형에 따라 pass@1이 어떻게 달라지는지 묶어 놓는다. 같은 신호 강도라도 false positive 비중이 커질수록 결과가 더 나빠진다. 정답을 놓치는 오류보다 오답을 통과시키는 오류가 더 위험하다.
KL regularization이 하는 일
실험에서는 KL 계수를 0으로 두고 보상 노이즈만 남겼다. 이론 분석에서는 KL regularization이 기준 정책 쪽으로 급하게 쏠리는 움직임을 눌러 내부 균형점을 만든다고 설명한다. 경계 자체가 없어지는 것은 아니다. 검증기가 정답보다 오답에 더 유리한 보상을 준다면 방향은 그대로 남는다.
'AI논문' 카테고리의 다른 글
| Hybrid Flow (0) | 2026.04.14 |
|---|---|
| nemotron cascade 2 (0) | 2026.04.14 |
| Attention is all you need (1) | 2026.04.14 |
| Llama2 (0) | 2026.04.14 |
| AI 논문을 읽을 때 많이 나오는 용어 정리 (1) | 2026.04.05 |