AI논문

nemotron cascade 2

dremdeveloper 2026. 4. 14. 23:28

Nemotron-Cascade 2의 사후학습 순서와 주요 성능

Nemotron-Cascade 2는 30B 규모의 Mixture-of-Experts 모델이다. 추론에 실제로 쓰이는 활성 파라미터는 3B 수준이다. 이 모델에서 눈에 띄는 지점은 크기보다 사후학습 방식이다. 수학, 코드 추론, 장문 문맥, 에이전트 작업, 인간 선호 정렬을 한 번에 밀어붙이지 않고 단계별로 쌓는다.

여러 평가를 한 표에 놓으면 성능 분포가 더 또렷해진다. 수학, 코드, 지식·STEM, 지시 수행, 장문 문맥, 에이전트 항목이 함께 들어가 있고, 점수도 한두 영역에만 몰리지 않는다. 상태를 유지하는 Python 실행기를 붙인 설정에서는 일부 수학·코딩 문제의 수치가 더 오른다.

 

사후학습 순서

출발점은 SFT다. 수학, 자연어 증명, 코드 추론, 과학, 장문 문맥, 일반 채팅, 안전, 도구 사용, 소프트웨어 엔지니어링, 터미널 작업 데이터를 한 단계에서 묶어 학습한다. 이후 RL이 기대는 바탕 정책이 이 단계에서 잡힌다. 응답 형식과 도구 호출 규칙도 이때 정리된다.

파이프라인은 IF-RL에서 지시 준수 능력을 끌어올린 뒤, STEM 객관식·에이전트 도구 호출·복합 지시 수행을 묶은 multi-domain RL로 이어진다. 그 다음에 MOPD가 들어가고, 뒤쪽에 RLHF, long-context RL, code RL, SWE RL이 붙는다. 학습 순서가 바뀌면 서로 다른 능력끼리 충돌할 수 있어서, 각 단계를 따로 나누고 중간에 복구 단계까지 둔다.

 

MOPD가 맡는 역할

여러 RL 단계를 지나면 새로 오른 점수만 남는 게 아니다. 어떤 도메인을 강하게 밀어 올린 뒤에 다른 벤치마크가 내려가기도 한다. MOPD는 그 하락을 되돌리는 데 초점이 맞춰져 있다. 도메인마다 가장 성능이 좋았던 중간 정책을 교사로 따로 두고, 현재 정책이 낸 토큰을 그 분포 쪽으로 다시 조정한다.

이 방식은 최종 모델 하나만 교사로 두는 방법과 다르다. 수학에서 좋았던 시점과 도구 사용에서 좋았던 시점이 서로 다를 수 있기 때문이다. ArenaHard 비교에서는 MOPD가 적은 step으로 hard prompt와 creative writing 점수를 빠르게 끌어올렸다. RLHF가 사람 선호에 맞는 표현을 다듬는 단계라면, MOPD는 중간에 잃은 능력을 복구하는 단계에 가깝다.

 

국제 대회와 수학 증명

IMO, IOI, ICPC World Finals는 문제 형식이 서로 다르다. IMO는 자연어 증명에 가깝고, IOI는 부분점수가 있는 알고리즘 구현 문제에 가깝다. ICPC World Finals는 제한된 제출 수 안에서 여러 문제를 동시에 관리해야 한다. Nemotron-Cascade 2는 IMO 2025에서 35/42점, IOI 2025에서 439.28/600점, ICPC World Finals 2025에서 12문제 중 10문제를 풀었다.

 

 

수학 증명은 한 번 생성한 답으로 끝나지 않는다. generate-verify-refine을 반복할수록 IMO-ProofBench Advanced 점수가 40.7에서 53.4로 오른다. 증명 생성 능력과 검토 단계가 함께 맞물린 결과다. SFT에서 증명 생성·검증 데이터를 넓게 넣은 이유도 이 흐름과 이어진다.

경쟁 코딩과 SWE

경쟁 코딩 쪽에서는 쉬운 문제를 늘리는 대신, 강한 테스트케이스가 달린 어려운 문제만 남겨 Code RL을 돌린다. LiveCodeBench와 Codeforces ELO에서도 높은 점수가 나왔고, 상태를 유지하는 Python 실행기를 붙였을 때 일부 항목이 더 올랐다. 긴 사고 과정과 실행 검증을 같이 묶은 학습이 경쟁 코딩 성능으로 이어진다.

 

 

소프트웨어 엔지니어링 쪽에서는 agentless RL만으로도 OpenHands 계열 평가가 조금씩 오른다. 코드 수리 능력을 올려 두면, 에이전트 스캐폴드 안에서 파일을 찾고 수정하고 테스트를 돌리는 흐름에도 성능 상승이 이어진다. Nemotron-Cascade 2는 큰 모델 하나보다 사후학습 순서와 복구 단계를 세분화한 결과에 가깝다. 공개 범위에 체크포인트, SFT 데이터, RL 데이터가 함께 들어가 있어 학습 절차까지 따라갈 수 있다.

'AI논문' 카테고리의 다른 글

DPO(강화학습 알고리즘)  (0) 2026.04.14
Hybrid Flow  (0) 2026.04.14
RLVR  (0) 2026.04.14
Attention is all you need  (1) 2026.04.14
Llama2  (0) 2026.04.14