추론 실리콘 공동설계: 모델과 칩 사이를 잇는 소프트웨어 엔지니어
이 분야가 중요한 이유
모델을 GPU 위에서 잘 돌리는 일과, 그 모델만을 위한 칩을 처음부터 빚는 일은 다른 층위다. 2026년 6월 OpenAI는 브로드컴과 함께 만든 첫 맞춤형 추론 칩 ‘할라피뇨’를 공개했다. 학습이 아니라 추론만 겨냥한 ASIC이고, 레티클 한 장을 가득 채운 크기다. 회사는 설계 시작부터 테이프아웃까지 9개월밖에 걸리지 않았다고 했는데, 고성능 ASIC 사이클로는 가장 빠른 축이라는 주장이다. 흥미로운 건 그 설계 과정 자체를 OpenAI의 자사 모델이 거들었다는 대목이다.
이 흐름은 OpenAI만의 것이 아니다. 구글은 이미 오래전부터 TPU를, 아마존은 트레이니엄을 자체 설계해 써 왔다. 거대 추론 사업자가 범용 GPU 한 종류에만 기대지 않고 자기 워크로드에 맞춘 실리콘을 직접 만든다는 방향이 분명해졌다는 뜻이다. 동력은 단순하다. 추론이 수익의 한복판에 들어온 지금, 같은 답을 더 적은 전력으로 뽑아내는 칩은 곧 마진이다. OpenAI는 와트당 성능이 “상당히 좋다"고만 했을 뿐 구체적 수치는 내놓지 않았지만, 2026년 말 기가와트급으로 깔겠다는 계획만으로도 전력 효율이 왜 사업의 본질인지 드러난다. 그리고 이런 칩은 하드웨어 설계자와 모델 연구자가 따로 일해서는 나오지 않는다. 둘 사이를 직접 잇는 사람이 필요하다. 그게 추론 실리콘 공동설계 엔지니어다.
필요한 역량
먼저 컴퓨터 구조를 몸으로 이해해야 한다. 메모리 대역폭이 어디서 막히는지, 연산기와 온칩 메모리를 어떻게 배치해야 데이터가 덜 움직이는지, 어떤 데이터플로 구조가 행렬 곱을 효율적으로 흘리는지 같은 감각이다. 한국 시장 기준으로는 삼성전자나 SK하이닉스, 퓨리오사AI·리벨리온 같은 NPU 스타트업에서 이 일을 한다. 칩을 직접 짜는 쪽에 서려면 HLS나 RTL을 다루거나, 적어도 가속기 데이터플로를 설계 언어로 표현할 줄 알아야 한다.
그다음은 모델과 실리콘을 잇는 컴파일러 계층이다. MLIR·TVM·XLA 같은 스택을 다루며 ML 그래프를 가속기 명령으로 낮춰 내리는 일이 핵심이다. 여기에 하드웨어를 위한 수치 감각이 붙는다. int8·int4 같은 저정밀로 모델을 양자화하면서 정확도를 어디까지 지킬지, 어떤 연산을 어떤 비트폭으로 매핑할지 판단하는 일이다. 마지막은 측정이다. 와트당 성능과 처리량을 직접 프로파일링해 병목을 찾고, 커널을 다시 짜 효율을 끌어올린다. 도구는 보통 모델 쪽 파이썬과 고성능 경로의 C++, 그리고 CUDA나 그에 준하는 가속기 프로그래밍이 함께 들어온다. 한 가지만 깊게 파서는 부족하고, 모델·컴파일러·하드웨어 세 언어를 동시에 더듬는 손이 이 자리의 값을 만든다.
커리어 경로
주니어는 보통 커널이나 컴파일러 한 조각에서 시작한다. 특정 연산을 가속기 명령으로 내리는 패스를 짜고, 양자화된 커널이 정확도를 깨지 않는지 검증하며, 벤치마크를 돌려 와트당 성능과 지연을 읽는 눈을 먼저 기른다. 모델이 칩 위에서 실제로 어떻게 흐르는지, 어디서 데이터가 새는지를 손끝으로 익히는 단계다.
시니어로 가면 한 커널을 넘어 가속기 공동설계로 무게가 옮겨간다. 모델 구조가 바뀌면 어떤 하드웨어 자원이 부족해지는지를 미리 읽고, 데이터플로와 메모리 계층을 모델에 맞춰 다시 짜는 일이다. 모델 팀과 하드웨어 팀 사이에서 양쪽 제약을 통역하는 사람이 여기서 나온다. 더 올라가면 실리콘-소프트웨어 아키텍트다. 다음 세대 칩이 어떤 모델을 겨냥할지, 컴파일러와 런타임을 어디까지 함께 끌고 갈지를 설계 초기에 결정한다. 할라피뇨가 그랬듯, 9개월 만에 칩을 뽑아내는 속도는 하드웨어와 소프트웨어가 처음부터 같은 그림을 보고 움직일 때 가능하다. 그 그림을 그리는 자리가 이 경로의 끝이다. 맞춤형 추론 실리콘이 한두 회사의 실험을 넘어 업계 표준 전략이 된 지금, 그 사이를 메우는 손은 가장 먼저 필요해진다.
태그
참고 자료
- https://techcrunch.com/2026/06/24/openai-unveils-its-first-custom-chip-built-by-broadcom/
- https://www.tomshardware.com/tech-industry/artificial-intelligence/broadcom-and-openai-unveil-custom-built-jalapeno-inference-processor-openais-first-chip-is-a-massive-reticle-sized-asic-built-in-an-ultra-fast-nine-month-development-cycle