AI논문

RLVR

dremdeveloper 2026. 4. 14. 23:26

Rate or Fate? RLVεR

RLVR은 여러 답안을 만든 뒤 검증 결과로 정책을 갱신하는 방식이다. 수학이나 코드처럼 정답 판별이 가능한 과제에 주로 적용된다. 문제는 검증기가 늘 맞지 않는다는 점이다. 테스트가 부족하면 오답이 통과할 수 있고, 정답이 실패 처리될 수도 있다. 이 논문은 그런 노이즈가 학습 속도만 늦추는지, 아니면 학습 방향 자체를 틀어버리는지를 다룬다.

노이즈를 하나의 값으로 묶는 방법

논문은 응답 하나하나보다 비슷한 풀이 경향을 묶어서 본다. 정답으로 이어지는 모드와 오답으로 이어지는 모드를 나누고, 정책이 각 모드에 얼마나 큰 확률을 두는지 추적한다. 이 틀에서는 오답 쪽 확률 질량이 시간이 지나며 줄어드는지, 늘어나는지로 학습 상태를 읽는다.

검증기 품질은 false positive와 false negative로 갈린다. 이를 함께 묶은 값이 Youden 지수 J = TPR - FPR이다. J가 양수면 정답에 유리한 신호가 남아 있고, 0이면 방향 정보가 사라지며, 음수면 오답 쪽이 더 자주 보상을 받는다.

J가 가르는 학습 구간

J의 부호가 바뀌면 학습 양상도 함께 바뀐다. J>0이면 오답 모드에 실린 확률이 줄고, J=0이면 큰 이동이 없으며, J<0이면 오답 모드가 커진다. 노이즈가 있어도 J가 양수인 동안에는 학습 방향이 유지된다. 느려질 뿐이다.

그래프에서는 J가 0을 기준으로 구간이 갈린다. J가 0보다 큰 조건에서는 pass@1이 서서히 올라가고, 0에 가까운 조건에서는 변화가 거의 없다. J가 음수로 내려가면 학습이 이어질수록 성능이 떨어진다.

속도와 도착 지점

논문 제목의 rate는 수렴 속도, fate는 최종적으로 향하는 구간을 가리킨다. J>0인 구간에서는 보상에 노이즈가 섞여도 정책이 향하는 쪽이 바뀌지 않는다. 깨끗한 보상보다 늦게 움직일 뿐, 결국 같은 쪽으로 모인다. 이 설명은 RLVR이 새로운 정답 모드를 갑자기 만들어내기보다, 이미 있던 모드 사이의 확률을 다시 나누는 과정이라는 해석으로 이어진다.

그림에서는 초기 오답 비중이 달라도 J의 부호가 같으면 궤적이 같은 쪽으로 모인다. J가 양수일 때는 학습 구간으로, 음수일 때는 반대 방향으로 간다. 차이는 도착 지점이 아니라 거기까지 가는 속도다.

실험에서 확인한 변화

실험은 Python 코드 생성 과제에서 진행됐다. Qwen2.5-3B를 GRPO로 학습했고, 정답을 오답으로 뒤집는 비율과 오답을 정답으로 뒤집는 비율을 따로 조절했다. 각 조건은 2 epoch, 1,410 step 동안 학습했다.

성능 차이는 경계 부근에서 분명하게 갈렸다. 노이즈가 없는 조건은 pass@1 20.8%, J=0.7은 18.6%였다. J=0에서는 13.4%로 거의 멈췄다. J=-0.1에서는 0.16%까지 내려갔다. 같은 J=0.3이어도 false positive가 많은 조건이 false negative가 많은 조건보다 낮았다. 오답에 보상이 붙으면 잘못된 모드가 더 직접적으로 강화되기 때문이다.

표는 J 값과 오류 유형에 따라 pass@1이 어떻게 달라지는지 묶어 놓는다. 같은 신호 강도라도 false positive 비중이 커질수록 결과가 더 나빠진다. 정답을 놓치는 오류보다 오답을 통과시키는 오류가 더 위험하다.

KL regularization이 하는 일

실험에서는 KL 계수를 0으로 두고 보상 노이즈만 남겼다. 이론 분석에서는 KL regularization이 기준 정책 쪽으로 급하게 쏠리는 움직임을 눌러 내부 균형점을 만든다고 설명한다. 경계 자체가 없어지는 것은 아니다. 검증기가 정답보다 오답에 더 유리한 보상을 준다면 방향은 그대로 남는다.

'AI논문' 카테고리의 다른 글

Hybrid Flow (0)	2026.04.14
nemotron cascade 2 (0)	2026.04.14
Attention is all you need (1)	2026.04.14
Llama2 (0)	2026.04.14
AI 논문을 읽을 때 많이 나오는 용어 정리 (1)	2026.04.05

현재글RLVR

친절한 AI개발자

삼성전자 에서 근무하고 있으며 13년차 입니다. 머신러닝 S/W 개발자 입니다. 주변 분들과 소통하고 알고 있는 지식을 나누는 것을 좋아하며, 최근 전공 관련 서적을 집필하기도 했습니다.

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

친절한 AI개발자

RLVR

Rate or Fate? RLVεR

노이즈를 하나의 값으로 묶는 방법

J가 가르는 학습 구간

속도와 도착 지점

실험에서 확인한 변화

KL regularization이 하는 일

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

티스토리툴바

RLVR

Rate or Fate? RLVεR

노이즈를 하나의 값으로 묶는 방법

J가 가르는 학습 구간

속도와 도착 지점

실험에서 확인한 변화

KL regularization이 하는 일

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

관련글

티스토리툴바