테슬라가 NVIDIA GPU를 포기하지 않는 진짜 이유 – Dojo의 해산과 재개, 일론의 하이브리드 전략

🎧 오디오 재생: 테슬라가 NVIDIA GPU를 포기하지 않는 진짜 이유.mp3

🎧 오디오 재생: 테슬라가 NVIDIA GPU를 포기하지 않는 진짜 이유2.mp3

테슬라가 구글 TPU처럼 완전 커스텀 ASIC만 만들면 될 것 같은데, 왜 2026년 지금도 NVIDIA GPU를 수만 장씩 미친 듯이 사들이고 있을까? 더 충격적인 건, 일론 머스크가 2021년 “Dojo”라는 초대형 자체 AI 슈퍼컴퓨터를 공개하며 “이제 NVIDIA에서 벗어난다!”고 선언했는데,

2025년 8월에는 Dojo 팀을 해산하고 Peter Bannon 리더까지 퇴사시켰다는 사실입니다. 그런데 2026년 1월, 일론은 갑자기 “Dojo 3를 재개한다”고 발표했습니다.

그리고 지금 테슬라의 AI 훈련 클러스터는 여전히 수만 대의 H100·H200으로 가득 차 있고, 차량과 Optimus 안에 들어가는 건 테슬라 자체 AI5·AI6 칩입니다.

도대체 무슨 일이 벌어진 걸까요?이 질문에 답하려면 단순히 “비용”이나 “성능”만 보면 안 됩니다. 여기에는 훈련(Training)과 추론(Inference)이라는 두 개의 완전히 다른 세계, 일론 머스크의 냉철한 현실주의, 공급망 전쟁, 소프트웨어 생태계, 그리고 장기 모트(moat) 전략이 복잡하게 얽혀 있어요.

오늘 이 글에서는 그 숨겨진 이야기를 완전히 풀어드리겠습니다.

평범한 세계에서 시작해 갈등의 심연으로 빠져들었다가, 결국 새로운 균형을 찾아가는 드라마를 함께 따라가 보시죠. 모든 것은 2021년 AI Day에서 시작됐습니다.

일론은 Dojo라는 이름의 초대형 커스텀 AI 슈퍼컴퓨터를 공개하며 선언했어요. “우리는 NVIDIA에 의존하지 않고, 비디오 중심 신경망을 위해 세상에서 가장 강력한 훈련 칩을 직접 만들겠다.”

그때만 해도 Dojo D1은 wafer-scale ASIC으로, NVIDIA GPU 대비 비용과 전력에서 압도적 우위를 점할 것처럼 보였습니다. 하지만 현실은 훨씬 더 복잡했습니다. 먼저 가장 중요한 구분부터 명확히 해야 해요. 테슬라 AI 하드웨어에는 두 개의 완전히 다른 세계가 존재합니다. 하나는 추론(Inference), 다른 하나는 훈련(Training)입니다. 추론은 실제 차량이나 Optimus 로봇 안에서 일어나는 일입니다.

“지금 이 장면에서 어떻게 운전하거나 움직일까?”를 밀리초 단위로 판단해야 하죠. 전력은 차량당 200W 이하, 발열·가격·대량 생산(수백만 대)이 생존의 조건입니다.

그래서 테슬라는 HW3부터 AI4, AI5, AI6까지 자체 ASIC을 고집하고 있어요. GPU는 전력, 크기, 가격 때문에 절대 차량에 들어갈 수 없기 때문입니다.반면 훈련은 데이터센터에서 벌어지는 일입니다.

200만 대가 넘는 테슬라 차량이 매일 보내는 수십 PB의 실제 주행 영상과 시뮬레이션 데이터를 먹여 FSD V13이나 Optimus Gen3의 ‘뇌’를 만드는 과정이죠.

여기서는 속도와 스케일, 소프트웨어 유연성이 생명입니다.

그리고 바로 이 지점에서 NVIDIA GPU가 압도적인 힘을 발휘합니다. 구글의 TPU는 LLM처럼 균일한 Transformer 워크로드에 완벽하게 최적화되어 있습니다. 하지만 테슬라는 end-to-end vision neural net을 다룹니다. 수억 km 분량의 실제 비디오를 pixel 단위로 처리해야 하고, latency가 극도로 중요하며, 모델이 매달, 매주 바뀝니다.

워크로드는 이질적이고 데이터 폭식형이기 때문에 “하나의 ASIC으로 끝”이라는 구글식 접근이 테슬라에게는 맞지 않았어요.

그렇다면 왜 테슬라는 2021년부터 2025년까지 GPU를 대량으로 사들였을까요?

여기에는 네 가지 현실적인 이유가 있습니다.

첫째, 즉시성과 스케일입니다. 20232024년 테슬라는 Cortex 클러스터를 5만 H100에서 810만 H100/H200 규모로 빠르게 확대했습니다. Dojo D1은 2023년에야 생산을 시작했고, Dojo 2 rollout은 매우 느렸어요. GPU는 “오늘 주문하면 내일부터 훈련”이 가능합니다.
둘째, CUDA 생태계의 압도적 우위입니다. PyTorch, TensorFlow 등 모든 최신 AI 프레임워크가 NVIDIA CUDA로 완벽하게 최적화되어 있어요. 커스텀 ASIC은 소프트웨어 스택을 새로 만들어야 하는데, 테슬라의 모델은 변화 속도가 너무 빠릅니다.
셋째, 공급·가격 문제와 ‘long shot’ 전략입니다. 2023년 earnings call에서 일론은 “We are pursuing the dual path of Nvidia and Dojo… But I would think of Dojo as a long shot”라고 말했어요. NVIDIA 공급 부족과 가격 폭등에 대한 보험으로 Dojo를 병행한 거예요.
넷째, 개발 리스크와 유연성입니다. 커스텀 ASIC은 2~3년 개발 주기가 필요합니다. 테슬라 모델은 매달 업데이트되고 데이터는 폭증합니다. Dojo D1의 SRAM 중심 구조는 병목을 줄였지만, 메모리 용량 한계와 wafer-scale 생산 난이도가 컸어요.

이 모든 갈등이 2025년 8월에 절정에 달했습니다.

일론은 “이건 말이 안 된다… 완전히 다른 두 가지 AI 칩 설계라니”라고 말하며 Dojo 팀을 해산했습니다.

Dojo 2는 evolutionary dead end가 됐고, 사람들은 “Dojo 프로젝트가 끝났다”고 생각했어요.

하지만 이야기는 여기서 끝나지 않았습니다. 2026년 1월, AI5 칩 설계가 안정화되자 일론은 Dojo 3 작업을 공식 재개한다고 발표했습니다.

이제 Dojo 3는 과거 wafer-scale D1/D2와 완전히 다릅니다. AI5/AI6 SoC를 하나의 보드에 수십~수백 개 고밀도로 탑재하는 형태로 진화했으며, 일부는 지구상 훈련이 아닌 우주 기반 AI 컴퓨트(space-based AI compute) 용도로 설계되고 있어요.

이 전환은 테슬라 전략의 핵심을 보여줍니다.

단기적으로는 NVIDIA GPU를 활용해 FSD V13과 Optimus Gen3 훈련을 폭발적으로 돌리고, 장기적으로는 AI5/AI6 기반 Dojo 3 클러스터로 비용을 극적으로 낮추면서 세계 최대 규모의 inference moat를 구축하는 것입니다. 2026년 5월 현재 테슬라는 완전한 하이브리드 전략으로 수렴한 상태예요.

Cortex는 여전히 5~10만 H100/H200 규모로 확대 중이고, AI6는 Samsung 2nm 공정으로 AI5 대비 성능 2배를 목표로 합니다.

일론은 9개월 주기 chip cadence를 선언하며 “세계에서 가장 많이 생산되는 AI 칩”을 만들겠다고 밝혔어요.

이 전략은 구글 TPU와 근본적으로 다릅니다. 구글은 LLM처럼 균일한 워크로드에 최적화된 하나의 ASIC으로 충분했습니다. 하지만 테슬라는 실세계 비디오 + 실시간 제어 + 로봇이라는 이질적이고 데이터 폭식형 워크로드를 다루기 때문에, 즉시성·유연성·장기 비용 절감을 동시에 잡아야 했어요. 깊은 인사이트는 여기 있습니다.

일론 머스크의 철학은 “NVIDIA를 존경하지만 공급이 부족하거나 비용이 높으면 우리 기술로 converge”입니다.

Dojo는 죽은 게 아니라 더 강력한 형태로 살아났습니다. 단기에는 NVIDIA의 즉시성과 CUDA 생태계를 활용해 미친 듯이 키우고, 장기에는 자체 ASIC으로 비용과 moat를 확보하면서, 결국 AI7 단계부터는 우주 기반 AI 컴퓨트까지 확장하는 전략이죠.

테슬라가 GPU를 쓰는 이유는 단순한 선택이 아닙니다.

그것은 현실적인 제약과 야심찬 미래를 동시에 잡기 위한 가장 영리한 하이브리드 전략입니다. 2026년 5월 현재, 테슬라는 GPU를 “지금 당장 미친 듯이 키우는 도구”로, AI5/AI6 기반 Dojo 3를 “장기적으로 가장 효율적인 우리만의 무기”로 쓰면서 완전 converge한 상태예요.

이 이야기는 아직 끝나지 않았습니다. Optimus가 거리를 걸어 다니고, FSD가 완전 자율주행을 실현하고, Starlink와 Mars 미션에서 우주 기반 AI가 작동하는 그날, 테슬라의 AI 하드웨어 전략이 인류의 이동과 노동, 우주 진출을 어떻게 바꿀지 우리는 지켜보게 될 것입니다.