Overview of NVIDIA GPU Models
Generation Overview
NVIDIA GPU 세대는 대략 아래와 같이 분류된다. 세대별로 아키텍처가 변화했다.
| 시대 | 아키텍처 | 대표 제품 |
|---|---|---|
| 2006~ | Tesla | GeForce 8800, 초기 CUDA GPU |
| 2010~ | Fermi | GTX 400/500, Tesla M 계열 |
| 2012~ | Kepler | GTX 600/700, Tesla K80 |
| 2014~ | Maxwell | GTX 900, Jetson Nano 계열 |
| 2016~ | Pascal | GTX 10, Tesla P100 |
| 2017~ | Volta | Tesla V100 |
| 2018~ | Turing | RTX 20, GTX 16, T4 |
| 2020~ | Ampere | RTX 30, A100, A10 |
| 2022~ | Ada Lovelace | RTX 40, L4, L40S, RTX 6000 Ada |
| 2022~ | Hopper | H100, H200, H800 |
| 2024~ | Blackwell Data Center | B200, GB200 |
| 2025~ | Blackwell Consumer/Pro | GeForce RTX 50, RTX PRO Blackwell |
| 2025~ | Blackwell Ultra | B300, GB300 |
CUDA 관점에서는 GPU마다 compute capability가 정해지며, 이는 해당 GPU가 지원하는 CUDA hardware feature와 instruction capability를 나타낸다. 예를 들어 Turing 계열 T4/RTX 20은 7.5, A100은 8.0, A10/RTX 30은 8.6, Ada 계열 L4/L40S/RTX 40/RTX 6000 Ada는 8.9, Hopper 계열 H100/H200/GH200은 9.0, Blackwell 계열 B200/GB200은 10.0, Blackwell Ultra 계열 B300/GB300은 10.3, GeForce RTX 50 및 RTX PRO Blackwell 계열은 12.0으로 분류된다.
같은 아키텍처 안에서도 모델이 많이 나뉘는 이유는 GPU가 들어가는 시장이 다르기 때문이다. 크게 다음과 같이 정리할 수 있다:
| 구분 | 대표 제품군 | 핵심 차이 |
|---|---|---|
| Data Center / AI / HPC | A100, H100, H200, B200, B300 | HBM, NVLink, MIG, FP8/FP4, 대규모 학습/추론 |
| Inference Server | T4, L4, A10, L40S | 전력 효율, 비디오 엔진, PCIe 서버 장착성 |
| Workstation / Pro | RTX 6000 Ada, RTX PRO 6000 Blackwell | ECC 메모리, 드라이버 안정성, 전문 SW 인증 |
| Consumer GeForce | RTX 3090, 4090, 5090 | 게임/개인 연구/렌더링, 가격 대비 성능 |
| Embedded / Edge | Jetson Orin, Thor | 로봇/엣지 AI, 전력 제한, SoC 통합 |
다만 이 분류는 서로 완전히 배타적인 제품군 구분이라기보다는 주 용도 관점의 분류이다. 예를 들어 L40S는 Data Center GPU이면서 inference server, rendering server, video workload, virtual workstation 용도로도 사용될 수 있다.
Data Center / AI GPU 계열
Ampere 세대: A100, A800, A10
A100은 Ampere 세대의 대표 AI/HPC(High-Performance Computing, 대규모 과학·공학·AI 계산을 고성능 병렬 컴퓨팅 자원으로 수행하는 분야) GPU이다.
| 항목 | A100 |
|---|---|
| 아키텍처 | Ampere |
| 대표 메모리 | 40GB / 80GB HBM2e |
| 메모리 대역폭 | 약 2TB/s |
| NVLink | 600GB/s |
| 주요 특징 | Tensor Core, MIG, NVLink, 대규모 학습 |
| 포지션 | H100 이전 세대의 데이터센터 표준 GPU |
A800은 A100의 중국 수출규제 대응 variant이다. 핵심 연산 아키텍처는 Ampere 계열이지만, interconnect나 특정 성능 지표가 제한되었다. A10은 Ampere 기반의 PCIe 데이터센터 GPU로, A100처럼 HBM/NVLink 중심의 대규모 학습용 GPU라기보다는 cloud graphics, VDI, inference workload를 겨냥한 24GB GDDR6 기반 서버 GPU이다.
Hopper 세대: H100, H200, H800
H100은 Hopper 세대의 대표 AI GPU이다.
| 항목 | H100 |
|---|---|
| 아키텍처 | Hopper |
| 대표 메모리 | 80GB HBM3 |
| 메모리 대역폭 | SXM 기준 약 3.35TB/s |
| NVLink | SXM 기준 GPU당 900GB/s |
| 주요 특징 | FP8, Transformer Engine, 대규모 LLM 학습/추론 |
| 포지션 | A100 후속 AI 표준 GPU |
H200은 완전히 새로운 아키텍처라기보다는 Hopper 기반에 HBM3e를 붙여 메모리 용량과 대역폭을 크게 늘린 모델이다. H200이 중요한 이유는 단순 FLOPS가 아니라 memory capacity + bandwidth이다. LLM inference에서는 KV cache가 커지고, batch/context가 길어질수록 HBM 용량과 대역폭이 latency/throughput을 지배한다.
| 항목 | H100 | H200 |
|---|---|---|
| 아키텍처 | Hopper | Hopper |
| 대표 메모리 | 80GB HBM3 | 141GB HBM3e |
| 메모리 대역폭 | 약 3.35TB/s | 약 4.8TB/s |
| 강점 | 학습/추론 범용 | LLM inference, 긴 context, KV cache, memory-bound workload |
A800처럼 H800은 중국 수출규제 환경에 맞춰 출시된 Hopper 기반 variant로 이해할 수 있다. 공개 보도 기준으로 H800은 H100 대비 chip-to-chip data transfer rate가 낮아진 제품으로 설명되며, 따라서 단일 GPU 연산보다 multi-GPU scaling에서 통신 병목이 더 중요해질 수 있다.
| 항목 | H100 | H800 |
|---|---|---|
| 아키텍처 | Hopper | Hopper |
| 목적 | 글로벌 데이터센터 | 중국 수출규제 대응 |
| 핵심 차이 | full interconnect | interconnect/성능 일부 제한 |
| 실무 영향 | 대규모 multi-GPU scaling 유리 | scale-out 통신에서 불리할 수 있음 |
Blackwell 세대: B200, B300, GB200, GB300
Blackwell의 핵심 키워드는 다음과 같다.
| 키워드 | 의미 |
|---|---|
| FP4 / NVFP4 | 초저정밀 inference/training 가속 |
| 2-die GPU | 두 개의 대형 die를 고속 chip-to-chip interconnect로 연결 |
| HBM3e 확장 | 더 큰 모델과 KV cache 처리 |
| NVLink 5 / rack-scale | GPU 하나가 아니라 랙 전체를 하나의 거대한 AI machine처럼 사용 |
| LLM inference 최적화 | attention, MoE, long-context workload 최적화 |
B200은 Blackwell 세대의 대표 데이터센터 GPU이다. 실제 제품명에서는 단일 GPU 카드만 말하는 것이 아니라 DGX B200, GB200, NVL72 같은 시스템 단위 이름으로 자주 등장한다. H100/H200은 FP8 시대의 대표 GPU라면, B200은 FP4/NVFP4 시대를 연 GPU이다. 특히 대규모 inference에서는 더 낮은 precision으로 더 많은 token/s를 뽑는 것이 중요해졌기 때문에 이와 같은 변화가 이루어졌다.
| 항목 | B200 |
|---|---|
| 아키텍처 | Blackwell |
| 주요 정밀도 | FP8, FP6, FP4/NVFP4 |
| 주요 강점 | LLM training/inference, MoE, long-context, rack-scale |
| 대표 시스템 | DGX B200, GB200 NVL72 |
(DGX B200은 8개의 Blackwell GPU, 총 1,440GB GPU memory, 64TB/s HBM3e bandwidth, FP4 sparse 기준 144PFLOPS, aggregate NVLink bandwidth 14.4TB/s를 제공한다)
GB200은 Grace CPU + Blackwell GPU를 묶은 superchip/system 계열이다.
| 항목 | GB200 |
|---|---|
| 구성 | Grace CPU + Blackwell GPU |
| 대표 시스템 | GB200 NVL72 |
| 목적 | 랙스케일 AI supercomputer |
| 핵심 | GPU만 빠른 것이 아니라 CPU, GPU, NVLink, NVSwitch를 시스템 단위로 설계 |
NVIDIA GB200 NVL72는 36개의 Grace CPU와 72개의 Blackwell GPU를 하나의 rack-scale system으로 구성하며, 13.4TB HBM3e GPU memory, 576TB/s memory bandwidth, 130TB/s NVLink bandwidth를 제공한다.
B300은 Blackwell Ultra 계열로, B200의 단순 클럭 상승판이라기보다는 대규모 reasoning/inference workload를 위해 memory capacity, memory bandwidth, NVFP4 throughput, attention-layer execution을 강화한 Blackwell 계열 확장판으로 보는 것이 좋다.
| 항목 | B200 | B300 / Blackwell Ultra |
|---|---|---|
| 세대 | Blackwell | Blackwell Ultra |
| 핵심 목적 | FP4 기반 대규모 AI | 더 큰 모델, 더 긴 context, 더 강한 inference |
| 메모리 | HBM3e, B200 기준 약 180GB급 | 최대 288GB급 HBM3e per GPU |
| 대역폭 | 매우 높음 | GPU당 최대 8TB/s급 |
| 주 사용처 | DGX B200, GB200 | DGX B300, GB300 |
또한 NVLink 5는 GPU당 1.8TB/s 연결을 제공하고, NVL72 랙에서는 72 GPU를 130TB/s NVLink domain으로 묶는다. DGX B300은 8개의 Blackwell Ultra SXM GPU, 총 2.1TB GPU memory, FP4 Tensor Core dense 기준 108PFLOPS, sparse 기준 144PFLOPS, aggregate NVLink bandwidth 14.4TB/s를 제공한다.
GB300은 Grace Blackwell Ultra 계열의 rack-scale 시스템이다.
| 항목 | GB200 | GB300 |
|---|---|---|
| GPU | Blackwell | Blackwell Ultra |
| 구성 | Grace + Blackwell | Grace + Blackwell Ultra |
| 주요 차이 | Blackwell NVL72 | 더 큰 memory, 더 강한 FP4/attention |
| 목적 | rack-scale AI | 더 큰 LLM/MoE/agentic inference |
GB300 NVL72는 72개의 Blackwell Ultra GPU와 36개의 Grace CPU를 사용하며, Blackwell 대비 dense FP4는 1.5배, attention 성능은 2배 높다. 총 20TB GPU memory, 최대 576TB/s memory bandwidth, FP4 dense 1080PFLOPS, sparse 1440PFLOPS, NVLink 130TB/s를 제공한다.
빠른 비교
지금까지의 모델들을 정리하면 아래와 같다:
| 모델 | 세대 | 정체 | 핵심 차이 |
|---|---|---|---|
| A100 | Ampere | 이전 세대 AI 표준 GPU | HBM2e, FP16/BF16/TF32, MIG |
| A800 | Ampere | A100 규제 대응 variant | interconnect/성능 일부 제한 |
| H100 | Hopper | LLM 시대 대표 GPU | FP8, Transformer Engine, HBM3 |
| H200 | Hopper | H100 memory 강화판 | 141GB HBM3e, 4.8TB/s |
| H800 | Hopper | H100 규제 대응 variant | Hopper 기반, interconnect 제한 가능 |
| B200 | Blackwell | Blackwell 대표 AI GPU | FP4/NVFP4, HBM3e, rack-scale |
| GB200 | Blackwell | Grace + Blackwell system | 36 CPU + 72 GPU NVL72 구성 가능 |
| B300 | Blackwell Ultra | B200 강화판 | 더 큰 HBM, 더 강한 attention/FP4 |
| GB300 | Blackwell Ultra | Grace + Blackwell Ultra system | GB200의 Ultra 강화판 |
Inference Server GPU: T4, L4, A10, L40S
데이터센터라고 해서 항상 H100/B200만 쓰는 것은 아니다. inference, video, cloud graphics, light AI serving에는 더 작은 GPU가 자주 쓰인다.
| 항목 | T4 | L4 | A10 | L40S |
|---|---|---|---|---|
| 세대 | Turing | Ada Lovelace | Ampere | Ada Lovelace |
| 메모리 | 16GB GDDR6 | 24GB GDDR6 (300GB/s bandwidth) | 24GB GDDR6 (600GB/s bandwidth) | 48GB GDDR6 ECC (864GB/s bandwidth) |
| 전력 | 약 70W | 72W | 150W | 350W |
| 특징 및 용도 | 강점: 저전력 inference, video transcoding 약점: 대규모 LLM에는 메모리/대역폭 부족 | 강점: inference per watt, video, edge/cloud serving | 용도: graphics, VDI, inference, cloud GPU | 메모리 대역폭: 864GB/s 특징: PCIe, RT core, Tensor core, no MIG/NVLink |
L40S는 48GB GDDR6 ECC, 864GB/s memory bandwidth, 18,176 CUDA cores, 568 Tensor Cores, 350W, PCIe Gen4 x16 사양을 가져서 robotics policy inference, simulation rendering, VLA prototype profiling에 유리한 GPU이다.
Workstation / Professional RTX 계열
Inference Server GPU는 서비스를 안정적으로 많이 처리하는 GPU이기 때문에, 정해진 모델을 가능한 낮은 비용과 전력으로 많이, 안정적으로, 오래 serving하는 것이 목표이다. 반면 Workstation / Professional RTX는 사람이 직접 붙어서 개발·렌더링·시뮬레이션·디자인·AI 연구를 하는 GPU이기 때문에 한 명 또는 소수의 엔지니어가 고성능 GPU를 직접 사용하면서 개발, 실험, 렌더링, 시뮬레이션을 빠르게 반복하는 것이 목표라는 점에서 다르다.
| 항목 | RTX 6000 Ada |
|---|---|
| 세대 | Ada Lovelace |
| 메모리 | 48GB GDDR6 ECC |
| 용도 | CAD, rendering, simulation, AI workstation |
| GeForce와 차이 | ECC, pro driver, 안정성, 인증 SW |
| 항목 | RTX PRO 6000 Blackwell Workstation Edition |
|---|---|
| 세대 | Blackwell |
| 메모리 | 96GB GDDR7 ECC |
| 메모리 대역폭 | 1,792GB/s |
| CUDA cores | 24,064 |
| 전력 | 600W |
| 용도 | AI workstation, rendering, simulation, digital twin |
일반 사용자용 GeForce GPU
게임용이지만, 개인 AI 연구/LoRA/소형 LLM inference/robotics prototype에도 많이 쓴다.
GeForce 이름 읽는 법
예: RTX 4090
| 부분 | 의미 |
|---|---|
| RTX | RT Core + Tensor Core 포함 |
| 40 | 세대: Ada Lovelace |
| 90 | 등급: 최상위 |
| Ti | 강화형 |
| SUPER | 중간 refresh 강화형 |
일반적으로 세대와 등급은 아래와 같다:
| 세대 number | 세대명 |
|---|---|
| 50 | Blackwell |
| 40 | Ada Lovelace |
| 30 | Ampere |
| 20 | Turing |
| 10 | Pascal |
| 등급 | 의미 |
|---|---|
| 90 | 최상위 enthusiast |
| 80 | high-end |
| 70 | upper mid-range |
| 60 | mainstream |
| 50 | entry-level |
일반적인 스펙으로 보면 RTX 4090/5090도 매우 빠른데, H100/B200등과 같은 Data Center GPU와 비교하면 아래와 같다:
| 항목 | GeForce RTX | Data Center GPU |
|---|---|---|
| 메모리 | GDDR6X/GDDR7 | HBM2e/HBM3/HBM3e |
| 메모리 대역폭 | 높지만 HBM보다 낮음 | 매우 높음 |
| VRAM 용량 | 보통 8~32GB | 80GB~288GB급 |
| NVLink | 최근 consumer에서는 거의 없음 | 핵심 기능 |
| Multi-GPU scaling | 제한적 | NVLink/NVSwitch 중심 |
| MIG | 없음 | A100/H100 등 지원 |
| ECC/안정성 | 제한적 | 서버 안정성 중심 |
| 드라이버 | GeForce driver | data center driver |
| 목적 | 게임/creator/개인 연구 | 대규모 학습/추론/HPC |
최종 정리
데이터센터 AI 계열
| 세대 | 대표 | 한 줄 요약 |
|---|---|---|
| Pascal | P100 | pre-Tensor Core HPC/AI 시대 |
| Volta | V100 | Tensor Core 본격 도입 |
| Turing | T4 | 저전력 inference |
| Ampere | A100 | TF32/BF16/MIG, 대규모 AI 표준 |
| Ada | L4/L40S | inference/graphics/server efficiency |
| Hopper | H100 | FP8 + Transformer Engine |
| Hopper refresh | H200 | H100보다 훨씬 큰 HBM3e |
| Hopper export | H800 | H100 기반 규제 대응 variant |
| Blackwell | B200/GB200 | FP4 + rack-scale AI |
| Blackwell Ultra | B300/GB300 | 더 큰 memory, 더 강한 attention/FP4 |
소비자 GPU 계열
| 세대 | 대표 | 한 줄 요약 |
|---|---|---|
| Pascal | GTX 10 | CUDA/gaming 명기, RTX 없음 |
| Turing | RTX 20 | RT/Tensor 소비자 최초 |
| Turing cut-down | GTX 16 | RT/Tensor 없는 Turing |
| Ampere | RTX 30 | RTX 3090 24GB가 개인 AI 연구 인기 |
| Ada | RTX 40 | RTX 4090 24GB, 개인 연구 최상급 |
| Blackwell | RTX 50 | RTX 5090 32GB, GDDR7, DLSS 4/5세대 Tensor |