"현업 90%가 INT8 PTQ를 쓴다"는 말은 이미지 처리(CNN)나 일반적인 데이터 분석 모델(Tabular) 등 전통적인 AI 서비스에서 여전히 유효합니다.
하지만 2025~2026년 현재, ChatGPT와 같은 LLM(거대언어모델) 분야에서는 판도가 완전히 다릅니다. LLM은 너무 커서 INT8조차 무겁기 때문입니다.
현업에서 가장 많이 쓰이는 기법과, 2026년에 주목받는 최신 기술을 정리해 드립니다.
1. 현업에서 가장 많이 쓰는 양자화 (목적별 분류)
현업은 **"어디서 돌릴 거냐(Hardware)"**에 따라 사용하는 양자화가 완전히 다릅니다.
| 분류 | 실행 환경 | 주력 양자화 기법 | 설명 |
| 범용/비전 | CPU, Edge 기기 (CCTV, 로봇, 폰) |
INT8 PTQ | 우리가 실습한 방식입니다. TensorRT(엔비디아), OpenVINO(인텔), TFLite(모바일) 등에서 표준으로 씁니다. |
| LLM (서버) | NVIDIA GPU (A100, H100) |
AWQ / GPTQ (4-bit) | LLM은 가중치(Weight)가 너무 커서 4비트까지 줄이는 게 표준입니다. |
| LLM (로컬) | Mac, 일반 PC (Apple Silicon 등) |
GGUF (Quantized) | 님처럼 Mac을 쓰거나 CPU 위주로 돌릴 때 사용하는 표준 포맷입니다. (llama.cpp 기반) |
💡 핵심: 일반 모델은 INT8, LLM은 **INT4(4비트)**가 국룰(Standard)입니다.
2. 최신 트렌드 & 신기술 (2025-2026)
최근 웹 검색 결과와 기술 트렌드를 반영한 가장 핫한 3가지 기술입니다.
① AWQ (Activation-aware Weight Quantization)
- 특징: 기존 GPTQ보다 성능이 좋습니다.
- 원리: "중요한 1%의 가중치는 살려두자!"
- 모든 가중치를 똑같이 4비트로 깎는 게 아니라, 모델이 작동할 때(Activation) 유난히 중요한 역할을 하는 가중치를 찾아내서 보호합니다.
- 현황: 현재 vLLM 등 고속 서빙 프레임워크에서 가장 선호하는 방식입니다.
② FP8 (Floating Point 8) & NF4
- 특징: 하드웨어(H100 등)가 직접 지원하는 포맷입니다.
- FP8: 엔비디아의 최신 GPU(H100, Blackwell 등)는 8비트 실수를 계산하는 전용 회로가 있어서, 변환 오차 없이 엄청나게 빠릅니다.
- NF4 (Normal Float 4): QLoRA라는 학습 기법에서 쓰는데, 정규분포에 최적화된 4비트라서 학습할 때 성능 저하가 거의 없습니다.
③ [New!] BitNet (1.58-bit LLM)
- 특징: "충격적인 다이어트"
- 설명: 2024~2025년에 등장해 2026년에 연구가 활발한 분야입니다. 가중치를 {-1, 0, 1} 딱 세 가지 숫자만 쓰도록 극단적으로 줄입니다.
- 장점: 곱셈이 필요 없고 덧셈만 하면 돼서 전력 소모가 획기적으로 줄어듭니다. 미래의 모바일 AI 핵심 기술로 꼽힙니다.
'AI 엔지니어준비' 카테고리의 다른 글
| BentoML 맛보기! (1) | 2026.01.27 |
|---|---|
| 🆚 지식 증류 & 가지치기 vs 양자화: 언제 누가 이길까? (0) | 2026.01.26 |
| 성능 보존이 잘된다면 int8, onnx화는 반드시 필요한가? (0) | 2026.01.24 |
| PyTorch 모델 양자화 실습 (1) | 2026.01.24 |
| 🧩 PyTorch로 배우는 양자화: QuantizableCNN 완전 정복! (0) | 2026.01.23 |