Overview of NVIDIA GPU Models

Generation Overview

NVIDIA GPU 세대는 대략 아래와 같이 분류된다. 세대별로 아키텍처가 변화했다.

시대 아키텍처 대표 제품
2006~ Tesla GeForce 8800, 초기 CUDA GPU
2010~ Fermi GTX 400/500, Tesla M 계열
2012~ Kepler GTX 600/700, Tesla K80
2014~ Maxwell GTX 900, Jetson Nano 계열
2016~ Pascal GTX 10, Tesla P100
2017~ Volta Tesla V100
2018~ Turing RTX 20, GTX 16, T4
2020~ Ampere RTX 30, A100, A10
2022~ Ada Lovelace RTX 40, L4, L40S, RTX 6000 Ada
2022~ Hopper H100, H200, H800
2024~ Blackwell Data Center B200, GB200
2025~ Blackwell Consumer/Pro GeForce RTX 50, RTX PRO Blackwell
2025~ Blackwell Ultra B300, GB300

CUDA 관점에서는 GPU마다 compute capability가 정해지며, 이는 해당 GPU가 지원하는 CUDA hardware feature와 instruction capability를 나타낸다. 예를 들어 Turing 계열 T4/RTX 20은 7.5, A100은 8.0, A10/RTX 30은 8.6, Ada 계열 L4/L40S/RTX 40/RTX 6000 Ada는 8.9, Hopper 계열 H100/H200/GH200은 9.0, Blackwell 계열 B200/GB200은 10.0, Blackwell Ultra 계열 B300/GB300은 10.3, GeForce RTX 50 및 RTX PRO Blackwell 계열은 12.0으로 분류된다.

같은 아키텍처 안에서도 모델이 많이 나뉘는 이유는 GPU가 들어가는 시장이 다르기 때문이다. 크게 다음과 같이 정리할 수 있다:

구분 대표 제품군 핵심 차이
Data Center / AI / HPC A100, H100, H200, B200, B300 HBM, NVLink, MIG, FP8/FP4, 대규모 학습/추론
Inference Server T4, L4, A10, L40S 전력 효율, 비디오 엔진, PCIe 서버 장착성
Workstation / Pro RTX 6000 Ada, RTX PRO 6000 Blackwell ECC 메모리, 드라이버 안정성, 전문 SW 인증
Consumer GeForce RTX 3090, 4090, 5090 게임/개인 연구/렌더링, 가격 대비 성능
Embedded / Edge Jetson Orin, Thor 로봇/엣지 AI, 전력 제한, SoC 통합

다만 이 분류는 서로 완전히 배타적인 제품군 구분이라기보다는 주 용도 관점의 분류이다. 예를 들어 L40S는 Data Center GPU이면서 inference server, rendering server, video workload, virtual workstation 용도로도 사용될 수 있다.

Data Center / AI GPU 계열

Ampere 세대: A100, A800, A10

A100은 Ampere 세대의 대표 AI/HPC(High-Performance Computing, 대규모 과학·공학·AI 계산을 고성능 병렬 컴퓨팅 자원으로 수행하는 분야) GPU이다.

항목 A100
아키텍처 Ampere
대표 메모리 40GB / 80GB HBM2e
메모리 대역폭 약 2TB/s
NVLink 600GB/s
주요 특징 Tensor Core, MIG, NVLink, 대규모 학습
포지션 H100 이전 세대의 데이터센터 표준 GPU

A800은 A100의 중국 수출규제 대응 variant이다. 핵심 연산 아키텍처는 Ampere 계열이지만, interconnect나 특정 성능 지표가 제한되었다. A10은 Ampere 기반의 PCIe 데이터센터 GPU로, A100처럼 HBM/NVLink 중심의 대규모 학습용 GPU라기보다는 cloud graphics, VDI, inference workload를 겨냥한 24GB GDDR6 기반 서버 GPU이다.

Hopper 세대: H100, H200, H800

H100은 Hopper 세대의 대표 AI GPU이다.

항목 H100
아키텍처 Hopper
대표 메모리 80GB HBM3
메모리 대역폭 SXM 기준 약 3.35TB/s
NVLink SXM 기준 GPU당 900GB/s
주요 특징 FP8, Transformer Engine, 대규모 LLM 학습/추론
포지션 A100 후속 AI 표준 GPU

H200은 완전히 새로운 아키텍처라기보다는 Hopper 기반에 HBM3e를 붙여 메모리 용량과 대역폭을 크게 늘린 모델이다. H200이 중요한 이유는 단순 FLOPS가 아니라 memory capacity + bandwidth이다. LLM inference에서는 KV cache가 커지고, batch/context가 길어질수록 HBM 용량과 대역폭이 latency/throughput을 지배한다.

항목 H100 H200
아키텍처 Hopper Hopper
대표 메모리 80GB HBM3 141GB HBM3e
메모리 대역폭 약 3.35TB/s 약 4.8TB/s
강점 학습/추론 범용 LLM inference, 긴 context, KV cache, memory-bound workload

A800처럼 H800은 중국 수출규제 환경에 맞춰 출시된 Hopper 기반 variant로 이해할 수 있다. 공개 보도 기준으로 H800은 H100 대비 chip-to-chip data transfer rate가 낮아진 제품으로 설명되며, 따라서 단일 GPU 연산보다 multi-GPU scaling에서 통신 병목이 더 중요해질 수 있다.

항목 H100 H800
아키텍처 Hopper Hopper
목적 글로벌 데이터센터 중국 수출규제 대응
핵심 차이 full interconnect interconnect/성능 일부 제한
실무 영향 대규모 multi-GPU scaling 유리 scale-out 통신에서 불리할 수 있음

Blackwell 세대: B200, B300, GB200, GB300

Blackwell의 핵심 키워드는 다음과 같다.

키워드 의미
FP4 / NVFP4 초저정밀 inference/training 가속
2-die GPU 두 개의 대형 die를 고속 chip-to-chip interconnect로 연결
HBM3e 확장 더 큰 모델과 KV cache 처리
NVLink 5 / rack-scale GPU 하나가 아니라 랙 전체를 하나의 거대한 AI machine처럼 사용
LLM inference 최적화 attention, MoE, long-context workload 최적화

B200은 Blackwell 세대의 대표 데이터센터 GPU이다. 실제 제품명에서는 단일 GPU 카드만 말하는 것이 아니라 DGX B200, GB200, NVL72 같은 시스템 단위 이름으로 자주 등장한다. H100/H200은 FP8 시대의 대표 GPU라면, B200은 FP4/NVFP4 시대를 연 GPU이다. 특히 대규모 inference에서는 더 낮은 precision으로 더 많은 token/s를 뽑는 것이 중요해졌기 때문에 이와 같은 변화가 이루어졌다.

항목 B200
아키텍처 Blackwell
주요 정밀도 FP8, FP6, FP4/NVFP4
주요 강점 LLM training/inference, MoE, long-context, rack-scale
대표 시스템 DGX B200, GB200 NVL72

(DGX B200은 8개의 Blackwell GPU, 총 1,440GB GPU memory, 64TB/s HBM3e bandwidth, FP4 sparse 기준 144PFLOPS, aggregate NVLink bandwidth 14.4TB/s를 제공한다)

GB200은 Grace CPU + Blackwell GPU를 묶은 superchip/system 계열이다.

항목 GB200
구성 Grace CPU + Blackwell GPU
대표 시스템 GB200 NVL72
목적 랙스케일 AI supercomputer
핵심 GPU만 빠른 것이 아니라 CPU, GPU, NVLink, NVSwitch를 시스템 단위로 설계

NVIDIA GB200 NVL72는 36개의 Grace CPU와 72개의 Blackwell GPU를 하나의 rack-scale system으로 구성하며, 13.4TB HBM3e GPU memory, 576TB/s memory bandwidth, 130TB/s NVLink bandwidth를 제공한다.

B300은 Blackwell Ultra 계열로, B200의 단순 클럭 상승판이라기보다는 대규모 reasoning/inference workload를 위해 memory capacity, memory bandwidth, NVFP4 throughput, attention-layer execution을 강화한 Blackwell 계열 확장판으로 보는 것이 좋다.

항목 B200 B300 / Blackwell Ultra
세대 Blackwell Blackwell Ultra
핵심 목적 FP4 기반 대규모 AI 더 큰 모델, 더 긴 context, 더 강한 inference
메모리 HBM3e, B200 기준 약 180GB급 최대 288GB급 HBM3e per GPU
대역폭 매우 높음 GPU당 최대 8TB/s급
주 사용처 DGX B200, GB200 DGX B300, GB300

또한 NVLink 5는 GPU당 1.8TB/s 연결을 제공하고, NVL72 랙에서는 72 GPU를 130TB/s NVLink domain으로 묶는다. DGX B300은 8개의 Blackwell Ultra SXM GPU, 총 2.1TB GPU memory, FP4 Tensor Core dense 기준 108PFLOPS, sparse 기준 144PFLOPS, aggregate NVLink bandwidth 14.4TB/s를 제공한다.

GB300은 Grace Blackwell Ultra 계열의 rack-scale 시스템이다.

항목 GB200 GB300
GPU Blackwell Blackwell Ultra
구성 Grace + Blackwell Grace + Blackwell Ultra
주요 차이 Blackwell NVL72 더 큰 memory, 더 강한 FP4/attention
목적 rack-scale AI 더 큰 LLM/MoE/agentic inference

GB300 NVL72는 72개의 Blackwell Ultra GPU와 36개의 Grace CPU를 사용하며, Blackwell 대비 dense FP4는 1.5배, attention 성능은 2배 높다. 총 20TB GPU memory, 최대 576TB/s memory bandwidth, FP4 dense 1080PFLOPS, sparse 1440PFLOPS, NVLink 130TB/s를 제공한다.

빠른 비교

지금까지의 모델들을 정리하면 아래와 같다:

모델 세대 정체 핵심 차이
A100 Ampere 이전 세대 AI 표준 GPU HBM2e, FP16/BF16/TF32, MIG
A800 Ampere A100 규제 대응 variant interconnect/성능 일부 제한
H100 Hopper LLM 시대 대표 GPU FP8, Transformer Engine, HBM3
H200 Hopper H100 memory 강화판 141GB HBM3e, 4.8TB/s
H800 Hopper H100 규제 대응 variant Hopper 기반, interconnect 제한 가능
B200 Blackwell Blackwell 대표 AI GPU FP4/NVFP4, HBM3e, rack-scale
GB200 Blackwell Grace + Blackwell system 36 CPU + 72 GPU NVL72 구성 가능
B300 Blackwell Ultra B200 강화판 더 큰 HBM, 더 강한 attention/FP4
GB300 Blackwell Ultra Grace + Blackwell Ultra system GB200의 Ultra 강화판

Inference Server GPU: T4, L4, A10, L40S

데이터센터라고 해서 항상 H100/B200만 쓰는 것은 아니다. inference, video, cloud graphics, light AI serving에는 더 작은 GPU가 자주 쓰인다.

항목 T4 L4 A10 L40S
세대 Turing Ada Lovelace Ampere Ada Lovelace
메모리 16GB GDDR6 24GB GDDR6 (300GB/s bandwidth) 24GB GDDR6 (600GB/s bandwidth) 48GB GDDR6 ECC (864GB/s bandwidth)
전력 약 70W 72W 150W 350W
특징 및 용도 강점: 저전력 inference, video transcoding
약점: 대규모 LLM에는 메모리/대역폭 부족
강점: inference per watt, video, edge/cloud serving 용도: graphics, VDI, inference, cloud GPU 메모리 대역폭: 864GB/s
특징: PCIe, RT core, Tensor core, no MIG/NVLink

L40S는 48GB GDDR6 ECC, 864GB/s memory bandwidth, 18,176 CUDA cores, 568 Tensor Cores, 350W, PCIe Gen4 x16 사양을 가져서 robotics policy inference, simulation rendering, VLA prototype profiling에 유리한 GPU이다.

Workstation / Professional RTX 계열

Inference Server GPU는 서비스를 안정적으로 많이 처리하는 GPU이기 때문에, 정해진 모델을 가능한 낮은 비용과 전력으로 많이, 안정적으로, 오래 serving하는 것이 목표이다. 반면 Workstation / Professional RTX는 사람이 직접 붙어서 개발·렌더링·시뮬레이션·디자인·AI 연구를 하는 GPU이기 때문에 한 명 또는 소수의 엔지니어가 고성능 GPU를 직접 사용하면서 개발, 실험, 렌더링, 시뮬레이션을 빠르게 반복하는 것이 목표라는 점에서 다르다.

항목 RTX 6000 Ada
세대 Ada Lovelace
메모리 48GB GDDR6 ECC
용도 CAD, rendering, simulation, AI workstation
GeForce와 차이 ECC, pro driver, 안정성, 인증 SW
항목 RTX PRO 6000 Blackwell Workstation Edition
세대 Blackwell
메모리 96GB GDDR7 ECC
메모리 대역폭 1,792GB/s
CUDA cores 24,064
전력 600W
용도 AI workstation, rendering, simulation, digital twin

일반 사용자용 GeForce GPU

게임용이지만, 개인 AI 연구/LoRA/소형 LLM inference/robotics prototype에도 많이 쓴다.

GeForce 이름 읽는 법

예: RTX 4090

부분 의미
RTX RT Core + Tensor Core 포함
40 세대: Ada Lovelace
90 등급: 최상위
Ti 강화형
SUPER 중간 refresh 강화형

일반적으로 세대와 등급은 아래와 같다:

세대 number 세대명
50 Blackwell
40 Ada Lovelace
30 Ampere
20 Turing
10 Pascal
등급 의미
90 최상위 enthusiast
80 high-end
70 upper mid-range
60 mainstream
50 entry-level

일반적인 스펙으로 보면 RTX 4090/5090도 매우 빠른데, H100/B200등과 같은 Data Center GPU와 비교하면 아래와 같다:

항목 GeForce RTX Data Center GPU
메모리 GDDR6X/GDDR7 HBM2e/HBM3/HBM3e
메모리 대역폭 높지만 HBM보다 낮음 매우 높음
VRAM 용량 보통 8~32GB 80GB~288GB급
NVLink 최근 consumer에서는 거의 없음 핵심 기능
Multi-GPU scaling 제한적 NVLink/NVSwitch 중심
MIG 없음 A100/H100 등 지원
ECC/안정성 제한적 서버 안정성 중심
드라이버 GeForce driver data center driver
목적 게임/creator/개인 연구 대규모 학습/추론/HPC

최종 정리

데이터센터 AI 계열

세대 대표 한 줄 요약
Pascal P100 pre-Tensor Core HPC/AI 시대
Volta V100 Tensor Core 본격 도입
Turing T4 저전력 inference
Ampere A100 TF32/BF16/MIG, 대규모 AI 표준
Ada L4/L40S inference/graphics/server efficiency
Hopper H100 FP8 + Transformer Engine
Hopper refresh H200 H100보다 훨씬 큰 HBM3e
Hopper export H800 H100 기반 규제 대응 variant
Blackwell B200/GB200 FP4 + rack-scale AI
Blackwell Ultra B300/GB300 더 큰 memory, 더 강한 attention/FP4

소비자 GPU 계열

세대 대표 한 줄 요약
Pascal GTX 10 CUDA/gaming 명기, RTX 없음
Turing RTX 20 RT/Tensor 소비자 최초
Turing cut-down GTX 16 RT/Tensor 없는 Turing
Ampere RTX 30 RTX 3090 24GB가 개인 AI 연구 인기
Ada RTX 40 RTX 4090 24GB, 개인 연구 최상급
Blackwell RTX 50 RTX 5090 32GB, GDDR7, DLSS 4/5세대 Tensor

Comments