브라우저 ML 인프라: 소프트웨어 엔지니어의 새로운 영역
이 분야가 중요한 이유
몇 년 전만 해도 “브라우저에서 머신러닝을 돌린다"는 말은 데모 수준의 장난감이었다. 2026년 현재는 다르다. WebGPU가 크롬·엣지에서 안정화되고 Safari 18, 파이어폭스로 퍼지면서 브라우저는 GPU에 거의 네이티브 수준으로 접근할 수 있는 추론 런타임이 됐다. Transformers.js는 v3에서 WebGPU 백엔드를 붙여 WASM 대비 최대 100배 빠른 속도를 냈고, 2GB 이하로 양자화된 모델이라면 일반 노트북에서도 체감 가능한 속도로 돌아간다. 즉, 추론을 서버에 보내지 않고 사용자 기기 안에서 끝낼 수 있는 시대가 열린 것이다.
이게 왜 채용으로 이어질까. 세 가지 사업 동기가 겹친다. 첫째는 프라이버시다. 의료·금융·법률 데이터를 클라우드로 보내지 않고 브라우저 안에서 처리하면 규제 부담이 통째로 사라진다. 둘째는 비용이다. 추론을 클라이언트로 밀어내면 GPU 서버 청구서가 0에 수렴한다. 트래픽이 늘어도 추론 비용은 늘지 않는다. 셋째는 오프라인이다. 네트워크 없이도 동작하는 AI 기능은 모바일 웹에서 강력한 차별점이 된다. 국내에서도 네카라쿠배 계열이 온디바이스·클라이언트 AI 트랙을 별도로 들여다보기 시작했고, 개인정보 민감도가 높은 헬스케어·핀테크 스타트업이 이 역량을 가진 프론트엔드 출신 엔지니어를 우선 채용한다.
필요한 역량
이 직군은 프론트엔드 엔지니어링과 ML 시스템 지식이 겹치는 좁은 골짜기에 있다. 양쪽을 다 알아야 한다.
런타임 계층에서는 Transformers.js로 파이프라인을 구성하고 device: 'webgpu'로 백엔드를 전환하는 실무, ONNX Runtime Web에서 WebGPU·WebNN·WASM 백엔드를 골라 쓰는 감각이 필요하다. 같은 모델이라도 디바이스와 작업 종류에 따라 어느 백엔드가 빠른지 직접 벤치마킹해 본 경험이 핵심이다. 트랜스포머처럼 행렬 곱과 어텐션이 무거운 모델은 WebGPU 이득이 크지만, 가벼운 비전 모델은 WASM이 더 나을 때도 있다.
모델 최적화 쪽에서는 양자화(INT8·FP16)로 모델을 2GB 아래로 줄이고, 정확도 손실과 속도 사이의 트레이드오프를 조율할 줄 알아야 한다. 가장 골치 아픈 문제는 모델 전송이다. 수백 MB짜리 가중치를 매번 내려받으면 첫 로딩이 끔찍해진다. 그래서 IndexedDB·Cache Storage를 활용한 캐싱 전략, 그리고 최근 위원회 단계에 올라온 Cross-Origin Storage(COS) API처럼 여러 도메인이 같은 모델 캐시를 공유하게 만드는 웹 플랫폼 스토리지 흐름을 따라가야 한다. Transformers.js는 이미 COS 캐시 백엔드를 실험적으로 붙이고 있다. 여기에 워커 스레드로 메인 스레드를 막지 않게 추론을 분리하고, 로딩 진행률·폴백 UX를 설계하는 프론트엔드 감각이 더해진다.
커리어 경로
진입로는 보통 두 갈래다. 프론트엔드 엔지니어가 ML 추론 쪽으로 깊어지거나, ML 엔지니어가 웹 플랫폼을 배우거나. 어느 쪽이든 첫 관문은 같다. 공개된 양자화 모델 하나를 골라 브라우저에서 띄우고, WebGPU와 WASM 사이의 지연·처리량 차이를 직접 측정해 글로 정리하는 일이다. 이 정도 프로젝트 하나면 주니어 포트폴리오로 충분히 눈에 띈다. 국내 주니어 밴드는 대략 6천만~9천만 원 선이다.
미들·시니어 단계에서는 실제 제품에서 클라이언트 추론을 굴려 본 트랙 레코드가 무기가 된다. “민감 데이터를 서버로 안 보내고 브라우저에서 처리해 규제 리스크를 없앴다”, “추론을 클라이언트로 옮겨 월 GPU 비용을 X% 줄였다” 같은 성과가 그대로 협상 카드가 된다. 모델 캐시 공유, 점진적 다운로드, 오프라인 폴백까지 설계해 본 경험이 이 구간을 가른다. 시니어 밴드는 1억~1억 5천만 원 수준에서 형성된다.
그 위로는 두 방향이 열린다. 하나는 온디바이스 AI 플랫폼을 책임지는 아키텍트로, 회사 전체의 클라이언트 추론 표준과 모델 배포 파이프라인을 설계한다. 다른 하나는 Transformers.js·ONNX Runtime Web 같은 오픈소스 생태계에 직접 기여하며 이름을 쌓는 길이다. 아직 인력 풀이 얇은 신생 영역이라, 지금 진입해 레퍼런스를 만들어 둔 사람이 향후 몇 년간 희소성으로 보상받을 가능성이 크다.