(CUDA OutOfMemoryError) L4 GPU OOM 오류 대처 방법

코드 한 줄 안 쓰고 실제 카페에 투입한 재고관리 앱을 하루 만에 만든 방법 (0)	2026.03.24
자주 사용하는 Python 패턴 (0)	2026.02.19
📝 "L4 GPU 22GB에서 SDXL을 실전 서비스에 올리며 겪은 삽질들" (1)	2026.02.11
gcp git 설정 매번 아이디 패스워드 치기 귀찮을때 (0)	2026.02.09
gcloud ssh timeout 뜰때! (0)	2026.02.09

양자화	BitsAndBytes 8-bit (Transformer + T5)
CPU Offload	사용 금지 (양자화와 충돌)
GPU 할당	pipe.to("cuda") 직접 할당
VAE 최적화	enable_vae_slicing() + enable_vae_tiling()
최대 해상도	768px 기준 (896x640, 832x576 등)
IP-Adapter	필요 시에만 로드, 끝나면 즉시 unload_ip_adapter()
동시성 제어	threading.Semaphore(1)로 GPU 추론 직렬화
VRAM 정리	생성 전후 torch.cuda.empty_cache()

환경