Gemma 4 31B Dense와 26B-A4B MoE — 일반 벤치마크에서는 2~3%p밖에 차이가 안 나는데, 특정 과제에서는 격차가 2배까지 벌어져요. "어차피 비슷하니까 빠른 거 쓰자"라고 생각했다가, 막상 써보면 특정 작업에서 결과가 확 달라질 수 있습니다. Google 공식 모델 카드 기준으로 어디서 차이가 나고, 어떤 기준으로 골라야 하는지 정리해 봤어요.
일반 추론·지식은 거의 비슷하다
| 벤치마크 | 31B | 26B-A4B | 차이 |
|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | +2.6%p |
| GPQA Diamond | 84.3% | 82.3% | +2.0%p |
| MMMLU (다국어) | 88.4% | 86.3% | +2.1%p |
MMLU Pro, GPQA Diamond 같은 지식·추론 벤치마크에서는 31B가 2~3%p 정도 앞서요. 솔직히 실사용에서 체감하기 어려운 수준이죠.
극한 난이도에서 격차가 벌어진다
| 벤치마크 | 31B | 26B-A4B | 차이 |
|---|---|---|---|
| BigBench Extra Hard | 74.4% | 64.8% | +9.6%p |
| Tau2 (평균) | 76.9% | 68.2% | +8.7%p |
| HLE (도구 없음) | 19.5% | 8.7% | +10.8%p |
| HLE (검색 사용) | 26.5% | 17.2% | +9.3%p |
여기서부터 이야기가 달라져요. BigBench Extra Hard에서 약 10%p, Tau2에서 약 9%p 차이가 나고, Humanity's Last Exam(HLE)에서는 31B가 26B-A4B의 2배 이상 정답률을 보여줍니다. HLE는 인간 전문가 수준의 극한 난이도 문제인데, Dense 모델이 30.7B 파라미터를 매 토큰마다 전부 동원하는 특성이 이런 복잡한 다단계 추론에서 유리하게 작용해요.
코딩도 난이도에 따라 갈린다
| 벤치마크 | 31B | 26B-A4B | 차이 |
|---|---|---|---|
| AIME 2026 (수학) | 89.2% | 88.3% | +0.9%p |
| LiveCodeBench v6 | 80.0% | 77.1% | +2.9%p |
| Codeforces ELO | 2150 | 1718 | +432 |
수학(AIME)에서는 89.2% vs 88.3%, 거의 동등해요. 일반 코딩(LiveCodeBench)도 3%p 이내입니다.
Codeforces ELO에서 432점 차이가 눈에 띄는데요. 경쟁 프로그래밍은 긴 논리 체인을 유지하면서 최적 해법을 찾아야 하는 과제라 Dense 모델의 깊이가 빛나는 영역이에요. 일상적인 코드 생성이나 리팩토링이라면 26B-A4B로 충분하지만, 복잡한 알고리즘 문제라면 31B가 확실히 낫습니다.
장문 맥락, 여기서 가장 큰 차이가 난다
| 벤치마크 | 31B | 26B-A4B | 차이 |
|---|---|---|---|
| MRCR v2 8-needle 128K | 66.4% | 44.1% | +22.3%p |
128K 토큰 안에서 8개의 "바늘"을 찾는 과제에서 22.3%p 격차가 나요. 둘 다 256K 컨텍스트를 지원하지만, 실제로 긴 문서를 정밀하게 분석하는 능력은 차원이 달라요.
구조적 이유가 있어요. 31B는 글로벌 어텐션 레이어가 10개에 KV 헤드 4개, 26B-A4B는 5개 레이어에 KV 헤드 2개예요. 긴 시퀀스를 "전체적으로 바라보는" 능력 자체가 다른 거죠. 대규모 코드베이스 분석이나 100페이지짜리 문서를 통째로 넣고 질문하는 용도라면, 31B를 쓰는 게 맞습니다.
비전(멀티모달)은?
| 벤치마크 | 31B | 26B-A4B |
|---|---|---|
| MMMU Pro | 76.9% | 73.8% |
| MATH-Vision | 85.6% | 82.4% |
| MedXPertQA MM | 61.3% | 58.1% |
비전 과제에서도 31B가 일관되게 우위지만, 격차가 3~4%p 이내로 텍스트 과제보다 좁아요. 두 모델이 동일한 550M 파라미터 비전 인코더를 쓰기 때문에, 이미지를 "보는" 능력은 같고 본 걸 "해석하는" 추론 단계에서 차이가 나는 겁니다.
추론 속도, MoE의 최대 장점
26B-A4B는 토큰당 3.8B 파라미터만 연산에 참여해요. 순수 연산량 기준으로 31B 대비 약 8분의 1입니다. Google 공식 문서에서도 "거의 4B 파라미터 모델만큼 빠르게 실행된다"고 설명하고 있죠.
실용적으로 말하면, 같은 GPU에서 31B가 1개 쿼리를 처리할 동안 26B-A4B는 여러 개를 동시에 돌릴 수 있어요. API 서비스나 실시간 챗봇처럼 처리량이 중요한 환경에서는 이 차이가 운영 비용을 좌우합니다.
다만 MoE는 128개 전문가 중 8개를 고르는 라우팅과 해당 가중치 메모리 접근이 필요하기 때문에, 배치 크기가 작을 때(batch=1) 속도 이점이 가장 크고, 배치가 커지면 Dense와 차이가 줄어들 수 있어요.
그래서 뭘 고르면 되나?
| 기준 | 31B Dense 유리 | 26B-A4B MoE 유리 |
|---|---|---|
| 절대 품질 | 모든 벤치마크에서 우위 | — |
| 추론 속도 | — | ~4B급 속도로 수배 빠름 |
| 메모리 효율 | — | KV 캐시 75% 절감 |
| 동시 처리량 | — | 같은 GPU로 8~9배 |
| 장문 맥락 (128K+) | 22%p 격차로 압도 | — |
| 극한 추론 (HLE) | 정답률 2배 이상 | — |
| 일반 과제 (MMLU 등) | 2~3%p 우위 | 비용 대비 거의 동등 |
| 소비자 GPU 배포 | — | 4비트 시 24GB GPU 가능 |
정리하면 이래요. 대부분의 실무 — 챗봇, API 서비스, 일반 코딩 보조, 문서 요약 — 에서는 26B-A4B MoE가 가성비가 압도적으로 좋습니다. 일반 벤치마크 격차가 2~3%p인데 속도가 수배 빠르고 24GB GPU에서도 돌아가니까요.
31B Dense는 한마디로 "타협 없는 품질"이 필요할 때예요. 128K 이상 장문 분석, 경쟁 프로그래밍 수준의 코딩, HLE급 난이도 문제, 의료·과학 같은 전문 분야 추론에서는 확실히 다른 결과를 보여줍니다.
자주 묻는 질문 (FAQ)
Q. Gemma 4 26B-A4B MoE는 활성 파라미터가 4B인데 왜 50GB나 차지하나요?
A. 토큰마다 활성화되는 건 8개 전문가(약 3.8B)뿐이지만, 어떤 토큰에서 어떤 전문가가 호출될지 미리 알 수 없기 때문에 128개 전문가의 가중치가 전부 메모리에 상주해야 해요. 연산은 4B급이지만 메모리는 전체 25.2B 파라미터만큼 필요한 거죠.
Q. 4비트 양자화하면 성능이 많이 떨어지나요?
A. 커뮤니티 테스트 기준으로, 26B-A4B의 4비트 양자화는 상당히 안정적으로 작동합니다. MoE 구조에서 전문가별로 양자화 오차 영향이 다를 수 있지만, 현재까지 큰 성능 저하 없이 24GB GPU에서도 잘 돌아간다는 보고가 나오고 있어요.
Q. Gemma 4는 오디오도 처리할 수 있나요?
A. 31B와 26B-A4B는 텍스트와 이미지만 처리해요. 오디오 입력은 작은 모델인 E2B와 E4B에서만 지원됩니다. 음성 인식이나 오디오 분석이 필요하면 E4B를 별도로 사용해야 합니다.
같은 Gemma 4인데 쓰임새가 이렇게 갈려요. 여러분의 작업에는 어떤 모델이 맞을지, 한번 따져보시는 건 어떨까요? 더 자세한 내용은 휴미즈에서 확인하세요.
이 글은 기업 데이터 관리 및 컴플라이언스 전문 기업 휴미즈가 작성했습니다.

0 댓글