LLM 서빙 시스템 엔지니어: GPU를 빠르게 만드는 소프트웨어 엔지니어
이 분야가 중요한 이유
모델을 학습시키는 일과 그 모델을 사용자에게 빠르고 싸게 내보내는 일은 다른 기술이다. 후자를 책임지는 사람이 LLM 서빙 시스템 엔지니어다. 비싼 GPU 위에서 같은 모델을 어떻게 배치하느냐에 따라 처리량과 토큰당 단가가 몇 배씩 갈린다. 추론이 SaaS 원가의 한복판으로 들어온 지금, 이 격차를 메우는 손이 곧 마진이 된다.
숫자가 이유를 대신한다. UC 버클리가 발표한 PagedAttention 논문에서, 기존 서빙 시스템은 KV 캐시 메모리의 60~80%를 낭비하고 있었다. 운영체제의 가상 메모리 페이징을 흉내 낸 이 기법으로 낭비를 4% 아래로 떨어뜨리자, 같은 지연 수준에서 FasterTransformer·Orca 대비 처리량이 2~4배로 뛰었다. 모델을 바꾸지 않고, 서빙 계층만 손봐서 얻은 결과다. 한 대의 GPU가 두세 배의 동시 요청을 받는다는 건 그만큼 GPU를 덜 사는 일이기도 하다.
필요한 역량
추론 엔진을 다룰 줄 알아야 한다. 2026년 현장의 표준은 vLLM, SGLang, TensorRT-LLM 세 갈래로, 셋 다 연속 배칭·프리픽스 캐싱·투기적 디코딩·양자화·분리 서빙을 기본 지원한다. vLLM은 GPU 점유율과 동시성에, TensorRT-LLM은 NVIDIA 하드웨어 저수준 최적화에, SGLang은 DeepSeek·Qwen 같은 중국 오픈 모델과 멀티턴 워크로드에 강하다. 어느 워크로드에 어느 엔진을 붙이고 어떤 플래그를 줄지 판단하는 게 일의 절반이다.
저수준 감각이 받쳐야 한다. 추론은 두 단계로 갈린다. 프롬프트의 KV 캐시를 한 번에 계산하는 프리필은 연산이 병목이고, 토큰을 하나씩 뽑는 디코드는 메모리가 병목이다. 두 단계를 같은 GPU에 두면 서로 간섭해 TTFT와 TPOT가 동시에 나빠진다. 그래서 프리필과 디코드를 별도 GPU 풀로 떼어내는 분리 서빙이 나왔다. NVIDIA가 GB200에서 측정한 TensorRT-LLM 분리 서빙은 DeepSeek R1에서 1.4~2.5배, Qwen 3에서는 입력/출력 길이에 따라 최대 6.11배까지 속도를 끌어올렸다. KV 캐시를 RDMA·NVLink로 옮기는 전송 최적화, 병렬화 전략(TP·PP) 간 캐시 레이아웃 변환까지 손대는 자리다. Python으로 충분치 않고 고성능 경로는 Rust·C++, 그리고 CUDA가 들어온다.
커리어 경로
주니어는 기존 추론 엔진을 가져다 띄우고 튜닝하는 데서 시작한다. 정적 배칭을 vLLM의 연속 배칭으로 바꿔 처리량을 두 배로 올리고, 지연 SLA가 빡빡한 단일 사용자 경로에 투기적 디코딩을 붙여 첫 토큰까지의 시간을 2~3배 줄이는 식이다. 벤치마크를 짜고 TTFT·TPOT·goodput을 읽는 눈을 먼저 키운다.
시니어로 갈수록 엔진을 쓰는 사람에서 엔진을 고치고 만드는 사람으로 이동한다. 분리 서빙 아키텍처를 설계하고, KV 캐시 압축·전송을 직접 구현하며, 멀티 노드 배포의 스케줄링을 책임진다. NVIDIA·Google은 ‘AI Inference Performance Engineer’, ‘LLM Serving and GPU Performance’ 같은 직함으로 이 역량을 따로 채용한다. 미국 LLM 엔지니어 보수는 중급 15만5천~22만5천 달러, 시니어 24만5천~35만5천 달러 선이고, 프런티어 랩에서는 지분 포함 48만~75만 달러까지 벌어진다. 추론 엔지니어링은 AI에서 가장 빠르게 자라는 분야로 꼽힌다. 토큰당 비용을 깎는 손이 가장 먼저 필요해지기 때문이다.