AI논문

Mixture of Experts

dremdeveloper 2026. 4. 16. 01:06

대규모 언어 모델의 Mixture of Experts 구조

Mixture of Experts(MoE)는 모든 입력에 같은 계산을 적용하지 않는다. 입력마다 필요한 expert만 선택한다. 전체 파라미터 수는 크게 유지하고, 실제 활성 계산량은 줄인다. 대규모 언어 모델에서 용량과 비용을 함께 다루기 위해 확산된 방식이다.

 

 

초기 MoE는 아이디어 중심의 구조에 가까웠다. GShard, Switch Transformer, GLaM 이후에는 대형 학습과 분산 처리에 맞는 형태로 정리됐다. 최근에는 번역, 코드, 비전, 멀티모달 모델까지 이어지며 설계 폭이 넓어졌다.

기본 구조

MoE 레이어에는 여러 expert와 router가 함께 놓인다. router는 입력이나 토큰마다 점수를 계산한 뒤 상위 일부 expert만 고른다. Transformer에서는 주로 FFN 자리에 들어간다. 같은 블록 형태를 유지하면서 토큰별 계산 경로를 다르게 만들 수 있다.

 

 

설계 범위도 넓다. 일반 LLM, 번역과 코드 같은 특화 모델, 비전-언어 모델, 효율화 기법, 학습 전략이 한 범주 안에 묶인다. 같은 MoE라도 입력 단위, expert 수, 병렬화 방식, 목적 함수에 따라 성격이 크게 갈린다.

라우팅과 전문화

라우팅은 정확한 선택과 고른 분배를 함께 요구한다. 특정 expert에 토큰이 몰리면 나머지 expert의 용량이 비게 된다. 균등 분배를 너무 강하게 밀면 expert별 전문화가 약해진다. 그래서 부하 균형 손실, 노이즈 주입, 직교 규제, 증류 같은 보정 기법이 함께 붙는다.

 

 

방식도 나뉜다. Token Choice는 각 토큰이 갈 expert를 고른다. Expert Choice는 expert가 자신이 처리할 토큰을 예산 안에서 선택한다. 전자는 입력별 세밀한 선택에 가깝다. 후자는 부하 제어와 병렬 처리 안정성에 무게가 실린다. 최근에는 계층형 라우팅, 고정 라우터, 입력 난이도에 따라 활성 expert 수를 바꾸는 적응형 라우팅도 다뤄진다.

적응과 지식 전이

MoE는 새 태스크에 빠르게 적응하는 구조로도 확장된다. 메타러닝은 여러 태스크 분포에서 라우팅 정책을 익혀 적은 업데이트로 새 문제에 대응하게 만든다. sparse teacher 여러 개의 지식을 dense student 하나로 옮기는 증류도 함께 쓰인다. 희소 계산의 배포 부담을 줄이기 위한 방향이다.

응용 범위

LLM에서는 계산량을 크게 늘리지 않고 모델 용량을 키우는 수단으로 쓰인다. 추천에서는 사용자와 시나리오 차이를 분리해 다룬다. 멀티모달에서는 텍스트와 이미지가 서로 간섭하는 문제를 낮춘다. 의료에서는 역할 분리와 해석 가능성이 더 큰 비중을 가진다. 입력의 이질성이 큰 영역일수록 expert 분해가 잘 맞는 흐름이 이어진다.

평가와 남은 과제

MoE 평가는 최종 정확도만으로 끝나지 않는다. 어떤 expert가 얼마나 자주 선택되는지, 전문화가 실제로 생기는지, 배포 비용이 어느 정도인지까지 같이 봐야 한다. 하드웨어 활용률, 통신 비용, 지연 시간도 같은 수준에서 다뤄진다.

[이미지 삽입: moe_cap_framework.png]

남아 있는 문제도 크다. expert가 서로 비슷한 표현으로 수렴하는 현상, 부하 불균형, 라우팅 불안정, 통신 오버헤드, 배포 복잡도가 계속 제기된다. 관심은 더 많은 expert 수보다 안정적인 라우팅, 설명 가능한 전문화, 낮은 서빙 비용 쪽으로 이동한다.

MoE는 파라미터 절약 기법보다는 조건부 계산 구조에 가깝다. 모델 크기, 계산량, 입력 다양성을 한 틀에서 다룬다. dense 모델을 대체하는 방향도 있지만, 더 넓게는 서로 다른 신호를 분리해 계산하는 방법으로 읽힌다.

'AI논문' 카테고리의 다른 글

The Iceberg Index: Measuring Workforce Exposure in the AI Economy  (0) 2026.04.16
Core-Aware Selective KV Compression for Reasoning Traces  (0) 2026.04.16
DeepMath-103K  (0) 2026.04.14
DPO(강화학습 알고리즘)  (0) 2026.04.14
Hybrid Flow  (0) 2026.04.14