The Inference Shift
GPU 중심의 AI 칩 시대가 끝나고 있다. 인간 없이 돌아가는 에이전트 시대에는 속도보다 메모리가, 최첨단 칩보다 "충분히 괜찮은" 칩이 승리한다.
Ben Thompson이 Cerebras IPO를 계기로 AI 칩 시장의 구조 변화를 예측한다. 지금까지는 훈련과 추론 모두 Nvidia GPU가 지배했다. 높은 연산력, 대용량 HBM 메모리, 빠른 칩간 네트워킹이 필요했기 때문이다. Cerebras는 웨이퍼 전체를 하나의 칩으로 만들어 6000배 빠른 메모리 대역폭을 제공하지만, 용량 제한이 있어 "답변용 추론"(코딩, 음성 등 빠른 응답이 필요한 경우)에만 적합하다. 그런데 진짜 게임 체인저는 "에이전트형 추론"이다. 인간 개입 없이 밤새 돌아가는 에이전트는 속도를 신경 쓰지 않는다. 대신 방대한 컨텍스트, 상태, 히스토리를 저장할 메모리 계층이 필요하다. 이 세계에서는 느리지만 큰 DRAM과 구세대 칩으로도 충분하다. Nvidia의 프리미엄은 정당화되기 어렵고, 중국처럼 최첨단 칩 접근이 제한된 국가도 에이전트 추론에선 충분히 경쟁할 수 있다. 심지어 우주 데이터센터도 구세대 칩(전력 적고, 방사선 내성 높고, 냉각 쉬움)으로 에이전트를 돌리기에 유리하다.
Cerebras WSE-3는 H100 대비 메모리는 절반이지만 대역폭은 6000배. 그런데 이 속도가 중요한 시장은 생각보다 작을 수 있다. 정작 큰 시장인 에이전트 추론에선 "인간이 없으면 느려도 된다"는 역설이 작동한다.
Nvidia 중심의 AI 인프라 투자 논리가 재검토될 시점이다. 에이전트가 본격화되면 시장은 훈련(Nvidia 독주), 답변 추론(Cerebras/Groq 등 틈새), 에이전트 추론(저가 메모리 + 구세대 칩 조합) 세 갈래로 분화한다. 에이전트 추론이 가장 큰 시장이 될 텐데, 여기선 메모리/스토리지 업체와 CPU 성능이 GPU보다 중요해질 수 있다. 중국의 칩 경쟁력 평가, 우주 데이터센터의 실현 가능성, 하이퍼스케일러들의 커스텀 칩 전략까지 다시 봐야 한다.