AI논문

DeepMath-103K

dremdeveloper 2026. 4. 14. 23:32

DeepMath-103K 데이터셋 개요

DeepMath-103K는 수학 추론용 강화학습 데이터를 모은 공개 데이터셋이다. 목표는 세 가지다. 높은 난도, 평가 벤치마크와의 오염 제거, 규칙 기반 보상에 바로 쓸 수 있는 검증 가능한 정답이다. 전체 규모는 약 10만 3천 문제다. 이 중 9만 5천 문제는 난도 5 이상 코어 세트이고, 8천 문제는 난도 3~5 구간을 채우는 보완 세트다.

필요했던 이유

기존 공개 수학 데이터는 쉬운 문제가 많고, 유명 평가셋과 겹치는 경우도 적지 않았다. 정답 형식이 길거나 불명확해 RL 보상에 곧바로 쓰기 어려운 샘플도 많았다. 서로 다른 데이터셋이 비슷한 원천 문제를 다시 묶은 경우도 있어 분포 차이도 크지 않았다.

 

 

기존 공개 데이터와의 난도 분포 비교, DeepMath 계열 모델의 AIME25 결과를 함께 담은 도표.

데이터 형식

각 샘플에는 문제 본문, 최종 정답, 난도, 계층형 주제 라벨, DeepSeek-R1이 생성한 세 개의 풀이가 들어간다. 문제와 정답만 쓰는 RL 학습에 맞고, 풀이를 쓰는 SFT나 distillation에도 바로 이어진다. 한 문제에 여러 풀이가 붙어 있어 같은 답으로 가는 서로 다른 추론 경로를 함께 다룰 수 있다.

 

 

문제, 최종 정답, 난도, 주제, 세 개의 풀이가 한 묶음으로 들어가는 샘플 구조.

구축 과정

수집 시작점은 286만 9천 문제였다. MMIQC, WebInstSub, NuminaMath-CoT를 합친 뒤 의미 기반 중복 제거를 거쳤다. 그 결과 267만 문제가 남았다. 난도 필터링으로 109만 문제를 남겼고, 정답 검증 단계에서 9만 5천 문제로 줄였다. 여기에 SimpleRL의 8천 문제를 더해 최종 세트를 만들었다.

오염 제거에는 임베딩 검색과 LLM 판정을 함께 썼다. 문장이 달라도 문제 구조가 같으면 제외했다. 정제 전 raw pool에서는 일부 벤치마크 오염률이 90% 안팎까지 올라갔다. train split만 가져와도 평가 누출 문제가 남아 있었다는 뜻이다.

 

 

정제 전 raw pool에서 측정한 벤치마크 오염률.

 

원천 데이터가 최종 103K 세트로 줄어드는 단계별 흐름.

주제 범위

주제는 Calculus, Algebra, Geometry, Number Theory, Discrete Mathematics, Differential Equations까지 넓다. 하위 분류도 세분화돼 있어 특정 문제 스타일에 치우치지 않는다. 문제 출처에 Math StackExchange 같은 비정형 포럼을 적극적으로 포함한 점도 특징이다. 기존 공개 데이터셋과의 중복을 줄였고, 임베딩 분포도 다른 군과 떨어져 나타났다.

 

 

상위 주제와 세부 주제를 함께 담은 계층형 분포.

실험 결과

학습 결과는 수학 벤치마크 전반에서 올랐다. AIME25 기준으로 zero RL 설정의 DeepMath-Zero-7B는 17.5, DeepMath-Zero-Math-7B는 23.5를 기록했다. instruction-tuned 모델에 RL을 더한 DeepMath-1.5B는 30.8, DeepMath-Omn-1.5B는 57.3이었다. GPQA-Diamond에서도 점수가 올라 수학 밖의 과학 추론으로 일부 전이되는 경향이 나타났다.

남은 한계

난도 라벨이 GPT-4o 평가에 기대고 있어 편향 가능성이 남는다. 주제 분포가 완벽하게 균형 잡혀 있다고 하긴 어렵다. 구축 비용도 컸다. GPT-4o API 비용은 약 13만 8천 달러였고, H20 GPU 사용량은 12만 7천 시간 규모였다. 일부 판단형 문제나 객관식 문제는 운에 따른 정답 가능성도 남아 있다.

'AI논문' 카테고리의 다른 글

Core-Aware Selective KV Compression for Reasoning Traces  (0) 2026.04.16
Mixture of Experts  (0) 2026.04.16
DPO(강화학습 알고리즘)  (0) 2026.04.14
Hybrid Flow  (0) 2026.04.14
nemotron cascade 2  (0) 2026.04.14