Обзор чипов NVIDIA GPU: от H100 до Blackwell — что выбрать для AI-задач в 2026 году
Рынок GPU-ускорителей в 2025-2026 годах переживает тектонический сдвиг. NVIDIA прочно удерживает позицию лидера, но линейка чипов стала настолько широкой, что разобраться без гайда сложно. H100 против B200, RTX 5090 против A6000 Ada — какой GPU реально нужен для обучения моделей, а какой годится только для инференса? Разбираем всю линейку актуальных чипов NVIDIA с ценами, характеристиками и сценариями применения.
Архитектура NVIDIA: Hopper, Ada Lovelace, Blackwell
Три архитектуры определяют текущую линейку NVIDIA. Каждая создавалась под разные задачи и классы устройств.
Hopper (H100) — чисто дата-центровая архитектура 2023 года. Главные фишки: Transformer Engine (аппаратное ускорение transformer-моделей), FP8 precision, NVLink четвёртого поколения для связи GPU в кластере. H100 стал стандартом для обучения больших языковых моделей.
Ada Lovelace (RTX 40xx, RTX A6000) — потребительская и профессиональная архитектура 2022-2024. Впервые принесла DLSS 3 с генерацией кадров, AV1-кодирование, огромный скачок в производительности трассировки лучей. Карты этой серии — лучший выбор для рабочих станций.
Blackwell (B200, B100) — новейшая архитектура 2025 года. NVIDIA называет её «крупнейшим скачком за всю историю». Ключевое нововведение — второй поколение Transformer Engine с поддержкой FP4 и FP6, что даёт до 2x прироста производительности на ватт по сравнению с H100. Также представлена новая система памяти HBM3e и масштабируемый чиплетный дизайн с двумя кристаллами на одном корпусе.
H100 SXM — король дата-центров
NVIDIA H100 остаётся самым массовым ускорителем для AI в дата-центрах мира. Даже после выхода Blackwell он не уходит со сцены — напротив, H100 стал «рабочей лошадкой» индустрии.
Характеристики H100
- Архитектура: Hopper (GH100)
- Количество транзисторов: 80 млрд
- Память: 80 GB HBM3, 3.35 TB/s пропускная способность
- FP8 производительность: 1979 TFLOPS (sparse) / 989 TFLOPS (dense)
- FP16: 989 TFLOPS
- FP32: 60 TFLOPS
- TDP: 700 Вт (SXM) / 350 Вт (PCIe)
- NVLink: 900 GB/s на GPU (18 NVLink 4.0)
H100 доступен в двух форм-фаторах: SXM (для DGX H100 и HGX-стоек) и PCIe Gen5 (для серверов стандартного монтажа). SXM-версия быстрее за счёт прямого подключения к NVSwitch, PCIe-версия — универсальнее.
По данным на начало 2026 года, именно H100 используется для 80% AI-нагрузок в облачных провайдерах. Это стандарт де-факто: если вы арендуете GPU для обучения модели, с вероятностью 95% вам дадут H100.
B200 Blackwell — новое слово в AI-вычислениях
B200 — флагманский ускоритель нового поколения. Его главное преимущество — поддержка FP4-точности, которая вдвое увеличивает проиводительность инференса больших языковых моделей без заметной потери качества.
Характеристики B200
- Архитектура: Blackwell (два чиплета GB200)
- Количество транзисторов: 416 млрд (2 x 208 млрд)
- Память: 192 GB HBM3e, 8 TB/s пропускная способность
- FP4 производительность: 9 PFLOPS
- FP8: 4.5 PFLOPS
- FP16: 2.25 PFLOPS
- FP32: 112 TFLOPS
- TDP: 1000 Вт (жидкостное охлаждение обязательно)
- NVLink 5.0: 1.8 TB/s на GPU
Обратная сторона — цена. Один B200 стоит порядка $35 000 — 40 000 (в зависимости от конфигурации сервера). Полная стойка DGX B200 (36 GPU) обходится в $1.5 млн. Для большинства компаний покупка таких мощностей нецелесообразна — выгоднее арендовать.
RTX 5090 — флагман для энтузиастов
RTX 5090 на архитектуре Ada Lovelace (с элементами Blackwell в версии Refresh) — самый мощный потребительский GPU. Несмотря на «игровое» позиционирование, эта карта активно используется в AI-сообществе для fine-tuning, инференса и небольших экспериментов.
Характеристики RTX 5090
- Архитектура: Ada Lovelace 2 (GB202)
- CUDA-ядер: 21 760
- Память: 32 GB GDDR7, 1.8 TB/s
- FP16 (Tensor Cores): 200 TFLOPS
- FP32 (графика): 85 TFLOPS
- TDP: 575 Вт
- PCIe: Gen5 x16
С 32 GB видеопамяти RTX 5090 способен загрузить модели до 20-25 млрд параметров в FP16 (Llama 3 8B, Mistral, Qwen 2.5 14B). Для fine-tuning небольших моделей это оптимальный вариант: стоимость карты ~$2 000 против $35 000 за B200.
| Параметр | RTX 5090 | RTX 4090 | RTX A6000 Ada |
|---|---|---|---|
| CUDA-ядер | 21 760 | 16 384 | 18 176 |
| VRAM | 32 GB GDDR7 | 24 GB GDDR6X | 48 GB GDDR6 |
| Пропускная способность | 1.8 TB/s | 1.0 TB/s | 0.96 TB/s |
| TDP | 575 Вт | 450 Вт | 300 Вт |
| Цена (рынок РФ) | ~220 000 руб | ~140 000 руб | ~400 000 руб |

Сравнительная таблица всех чипов
| Модель | Архитектура | VRAM | FP16 TFLOPS | TDP (Вт) | Цена | Сегмент |
|---|---|---|---|---|---|---|
| B200 | Blackwell | 192 GB HBM3e | 2 250 | 1 000 | $35 000 | Дата-центр |
| H100 SXM | Hopper | 80 GB HBM3 | 989 | 700 | $25 000 | Дата-центр |
| H100 PCIe | Hopper | 80 GB HBM3 | 756 | 350 | $22 000 | Сервер |
| RTX A6000 Ada | Ada Lovelace | 48 GB GDDR6 | 182 | 300 | $5 000 | Рабочая станция |
| RTX 5090 | Ada 2 | 32 GB GDDR7 | 200 | 575 | $2 000 | Потребительский |
| RTX 4090 | Ada Lovelace | 24 GB GDDR6X | 82 | 450 | $1 600 | Потребительский |
Какой GPU выбрать под свои задачи
Универсального ответа нет — выбор упирается в бюджет, объём модели и сценарий использования.
Для обучения больших моделей (70B+)
Только дата-центровые решения: B200 или кластер H100. Минимальная конфигурация — 8x H100 (640 GB VRAM). Для Llama 3 70B потребуется около 140 GB в FP16 — два H100 по 80 GB. Альтернатива — аренда GPU через облачных провайдеров (AWS, CoreWeave, российские GPU-облака).
Для fine-tuning (8B-32B)
Оптимальный вариант — RTX 5090 (32 GB) или RTX A6000 Ada (48 GB). Fine-tuning Llama 3 8B с LoRA влезает в 16 GB, полный fine-tuning — в 24 GB. Для Mistral Large (123B) уже нужно 4-8 карт A6000 в кластере.
Для инференса / продакшена
Здесь лучший показатель — соотношение цена/производительность на токен. B200 в FP4 даёт минимальную стоимость за токен, но требует специализированной инфраструктуры (жидкостное охлаждение, NVSwitch). H100 — золотой стандарт: предсказуемый, массовый, софт отлажен.
‘) no-repeat 0 .55rem;background-size:1.1rem;»>B200 — для high-load сервисов с миллионами запросов в день (экономия 60%+ на токене) - Рынок GPU-мощностей в России
2025-2026 годы кардинально изменили рынок GPU в РФ. После ухода NVIDIA с российского рынка сложилась новая экосистема:
- Серый импорт: H100 и RTX 5090 поставляются через параллельный импорт. Наценка составляет 30-60%.
- GPU-облака: Российские провайдеры (airouter.host, RUVDS, Selectel) предлагают аренду H100 от 350 руб/час. Это дешевле покупки для short-term задач.
- Отечественные альтернативы: Чипы от YADRO («Байкал»), Sber Device и «Эльбрус» пока не конкурентны NVIDIA для AI-нагрузок.
- Китайские GPU: Huawei Ascend 910B и Biren BR100 — альтернатива для госсектора. Производительность на уровне RTX 4090, но проблемы с совместимостью CUDA-кода.
«Стоимость аренды H100 в российских GPU-облаках за 2025 год снизилась с 600 до 350 руб/час. Если тренд сохранится, к 2027 году аренда станет дешевле покупки на горизонте 12 месяцев.»
— Данные airouter.host, Q1 2026Заключение
Линейка NVIDIA GPU в 2026 оду чётко сегментирована: B200 для тех, кто считает каждый токен в продакшене; H100 — стандарт для обучения и инференса; RTX 5090 — идеальный входной билет в мир AI для разработчика или малого бизнеса.
Главный совет: НЕ покупайте GPU, если не уверены в 80%+ загрузке. Арендуйте. А если арендуете — смотрите в сторону H100: он дёшев, надёжен и под любой софт. Blackwell — для гигантов с миллионами запросов в день.
Часто задаваемые вопросы
Сколько GPU нужно для обучения Llama 3 70B?
Для полного обучения (full fine-tune) в FP16 требуется 8 x H100 (640 GB VRAM). С использованием LoRA/QLoRA можно уложиться в 2 x H100 или даже в один A6000 Ada с 48 GB для параметрически эффективного обучения.
RTX 5090 против RTX 4090 — стоит ли обновляться?
Для AI-задач — да, за счёт 32 GB против 24 GB. Для игр прирост 30-40%, но TDP 575 Вт требует мощного БП и охлаждения. Если у вас уже есть RTX 4090 и вы работаете с моделями до 13B — апгрейд не обязателен.
Можно ли использовать игровую RTX 5090 в дата-центре?
Технически — да. Практически — нет драйверов для виртуализации (vGPU), нет NVLink, нет ECC-памяти. Для инференса — ок, для обучения — не надёжно. Провайдеры GPU-облаков обычно е ставят игровые карты в продакшен.
Какие российские GPU-облака работают с H100?
airouter.host, Selectel GPU Cloud, RUVDS GPU, Yandex Cloud GPU. Цены: от 350 до 700 руб/час за H100. airouter.host дополнительно предлагает кластеры 4x H100 и 8x H100 с NVLink.
Что такое FP4 и зачем он нужен?
FP4 — 4-битная точность вычислений, доступная только на Blackwell B200. Позволяет обрабатывать модель в 2x меньшем объёме памяти с минимальной потерей качества (0.5-2% в perplexity). Для инференса больших моделей FP4 даёт до 4x ускорения по сравнению с FP16 — это главная фишка Blackwell.
H100 устарел после выхода B200?
Нет. H100 остаётся стандартом индустрии — он дешевле, проверен годами, не требует жидкостного охлаждения, совместим со всем существующим софтом. B200 заменяет H100 только в high-load сценариях (миллионы запросов в день), где выигрыш на токене окупает стоимость инфраструктуры.


