Обзор чипов NVIDIA GPU: от H100 до Blackwell — что выбрать для AI-задач в 2026 году

Рынок GPU-ускорителей в 2025-2026 годах переживает тектонический сдвиг. NVIDIA прочно удерживает позицию лидера, но линейка чипов стала настолько широкой, что разобраться без гайда сложно. H100 против B200, RTX 5090 против A6000 Ada — какой GPU реально нужен для обучения моделей, а какой годится только для инференса? Разбираем всю линейку актуальных чипов NVIDIA с ценами, характеристиками и сценариями применения.

Архитектура NVIDIA: Hopper, Ada Lovelace, Blackwell

Три архитектуры определяют текущую линейку NVIDIA. Каждая создавалась под разные задачи и классы устройств.

Hopper (H100) — чисто дата-центровая архитектура 2023 года. Главные фишки: Transformer Engine (аппаратное ускорение transformer-моделей), FP8 precision, NVLink четвёртого поколения для связи GPU в кластере. H100 стал стандартом для обучения больших языковых моделей.

Ada Lovelace (RTX 40xx, RTX A6000) — потребительская и профессиональная архитектура 2022-2024. Впервые принесла DLSS 3 с генерацией кадров, AV1-кодирование, огромный скачок в производительности трассировки лучей. Карты этой серии — лучший выбор для рабочих станций.

Blackwell (B200, B100) — новейшая архитектура 2025 года. NVIDIA называет её «крупнейшим скачком за всю историю». Ключевое нововведение — второй поколение Transformer Engine с поддержкой FP4 и FP6, что даёт до 2x прироста производительности на ватт по сравнению с H100. Также представлена новая система памяти HBM3e и масштабируемый чиплетный дизайн с двумя кристаллами на одном корпусе.

H100 SXM — король дата-центров

NVIDIA H100 остаётся самым массовым ускорителем для AI в дата-центрах мира. Даже после выхода Blackwell он не уходит со сцены — напротив, H100 стал «рабочей лошадкой» индустрии.

Характеристики H100

  • Архитектура: Hopper (GH100)
  • Количество транзисторов: 80 млрд
  • Память: 80 GB HBM3, 3.35 TB/s пропускная способность
  • FP8 производительность: 1979 TFLOPS (sparse) / 989 TFLOPS (dense)
  • FP16: 989 TFLOPS
  • FP32: 60 TFLOPS
  • TDP: 700 Вт (SXM) / 350 Вт (PCIe)
  • NVLink: 900 GB/s на GPU (18 NVLink 4.0)

H100 доступен в двух форм-фаторах: SXM (для DGX H100 и HGX-стоек) и PCIe Gen5 (для серверов стандартного монтажа). SXM-версия быстрее за счёт прямого подключения к NVSwitch, PCIe-версия — универсальнее.

По данным на начало 2026 года, именно H100 используется для 80% AI-нагрузок в облачных провайдерах. Это стандарт де-факто: если вы арендуете GPU для обучения модели, с вероятностью 95% вам дадут H100.

B200 Blackwell — новое слово в AI-вычислениях

B200 — флагманский ускоритель нового поколения. Его главное преимущество — поддержка FP4-точности, которая вдвое увеличивает проиводительность инференса больших языковых моделей без заметной потери качества.

Характеристики B200

  • Архитектура: Blackwell (два чиплета GB200)
  • Количество транзисторов: 416 млрд (2 x 208 млрд)
  • Память: 192 GB HBM3e, 8 TB/s пропускная способность
  • FP4 производительность: 9 PFLOPS
  • FP8: 4.5 PFLOPS
  • FP16: 2.25 PFLOPS
  • FP32: 112 TFLOPS
  • TDP: 1000 Вт (жидкостное охлаждение обязательно)
  • NVLink 5.0: 1.8 TB/s на GPU

Обратная сторона — цена. Один B200 стоит порядка $35 000 — 40 000 (в зависимости от конфигурации сервера). Полная стойка DGX B200 (36 GPU) обходится в $1.5 млн. Для большинства компаний покупка таких мощностей нецелесообразна — выгоднее арендовать.

RTX 5090 — флагман для энтузиастов

RTX 5090 на архитектуре Ada Lovelace (с элементами Blackwell в версии Refresh) — самый мощный потребительский GPU. Несмотря на «игровое» позиционирование, эта карта активно используется в AI-сообществе для fine-tuning, инференса и небольших экспериментов.

Характеристики RTX 5090

  • Архитектура: Ada Lovelace 2 (GB202)
  • CUDA-ядер: 21 760
  • Память: 32 GB GDDR7, 1.8 TB/s
  • FP16 (Tensor Cores): 200 TFLOPS
  • FP32 (графика): 85 TFLOPS
  • TDP: 575 Вт
  • PCIe: Gen5 x16

С 32 GB видеопамяти RTX 5090 способен загрузить модели до 20-25 млрд параметров в FP16 (Llama 3 8B, Mistral, Qwen 2.5 14B). Для fine-tuning небольших моделей это оптимальный вариант: стоимость карты ~$2 000 против $35 000 за B200.

Параметр RTX 5090 RTX 4090 RTX A6000 Ada
CUDA-ядер 21 760 16 384 18 176
VRAM 32 GB GDDR7 24 GB GDDR6X 48 GB GDDR6
Пропускная способность 1.8 TB/s 1.0 TB/s 0.96 TB/s
TDP 575 Вт 450 Вт 300 Вт
Цена (рынок РФ) ~220 000 руб ~140 000 руб ~400 000 руб
Линейка чипов NVIDIA GPU для AI-задач
Актуальная линейка NVIDIA GPU 2025-2026: от дата-центровых H100 и B200 до потребительских RTX 5090

Сравнительная таблица всех чипов

Модель Архитектура VRAM FP16 TFLOPS TDP (Вт) Цена Сегмент
B200 Blackwell 192 GB HBM3e 2 250 1 000 $35 000 Дата-центр
H100 SXM Hopper 80 GB HBM3 989 700 $25 000 Дата-центр
H100 PCIe Hopper 80 GB HBM3 756 350 $22 000 Сервер
RTX A6000 Ada Ada Lovelace 48 GB GDDR6 182 300 $5 000 Рабочая станция
RTX 5090 Ada 2 32 GB GDDR7 200 575 $2 000 Потребительский
RTX 4090 Ada Lovelace 24 GB GDDR6X 82 450 $1 600 Потребительский

Какой GPU выбрать под свои задачи

Универсального ответа нет — выбор упирается в бюджет, объём модели и сценарий использования.

Для обучения больших моделей (70B+)

Только дата-центровые решения: B200 или кластер H100. Минимальная конфигурация — 8x H100 (640 GB VRAM). Для Llama 3 70B потребуется около 140 GB в FP16 — два H100 по 80 GB. Альтернатива — аренда GPU через облачных провайдеров (AWS, CoreWeave, российские GPU-облака).

Для fine-tuning (8B-32B)

Оптимальный вариант — RTX 5090 (32 GB) или RTX A6000 Ada (48 GB). Fine-tuning Llama 3 8B с LoRA влезает в 16 GB, полный fine-tuning — в 24 GB. Для Mistral Large (123B) уже нужно 4-8 карт A6000 в кластере.

Для инференса / продакшена

Здесь лучший показатель — соотношение цена/производительность на токен. B200 в FP4 даёт минимальную стоимость за токен, но требует специализированной инфраструктуры (жидкостное охлаждение, NVSwitch). H100 — золотой стандарт: предсказуемый, массовый, софт отлажен.

  • ‘) no-repeat 0 .55rem;background-size:1.1rem;»>B200 — для high-load сервисов с миллионами запросов в день (экономия 60%+ на токене)
  • Рынок GPU-мощностей в России

    2025-2026 годы кардинально изменили рынок GPU в РФ. После ухода NVIDIA с российского рынка сложилась новая экосистема:

    • Серый импорт: H100 и RTX 5090 поставляются через параллельный импорт. Наценка составляет 30-60%.
    • GPU-облака: Российские провайдеры (airouter.host, RUVDS, Selectel) предлагают аренду H100 от 350 руб/час. Это дешевле покупки для short-term задач.
    • Отечественные альтернативы: Чипы от YADRO («Байкал»), Sber Device и «Эльбрус» пока не конкурентны NVIDIA для AI-нагрузок.
    • Китайские GPU: Huawei Ascend 910B и Biren BR100 — альтернатива для госсектора. Производительность на уровне RTX 4090, но проблемы с совместимостью CUDA-кода.

    «Стоимость аренды H100 в российских GPU-облаках за 2025 год снизилась с 600 до 350 руб/час. Если тренд сохранится, к 2027 году аренда станет дешевле покупки на горизонте 12 месяцев.»
    — Данные airouter.host, Q1 2026

    Заключение

    Линейка NVIDIA GPU в 2026 оду чётко сегментирована: B200 для тех, кто считает каждый токен в продакшене; H100 — стандарт для обучения и инференса; RTX 5090 — идеальный входной билет в мир AI для разработчика или малого бизнеса.

    Главный совет: НЕ покупайте GPU, если не уверены в 80%+ загрузке. Арендуйте. А если арендуете — смотрите в сторону H100: он дёшев, надёжен и под любой софт. Blackwell — для гигантов с миллионами запросов в день.

    Часто задаваемые вопросы

    Сколько GPU нужно для обучения Llama 3 70B?

    Для полного обучения (full fine-tune) в FP16 требуется 8 x H100 (640 GB VRAM). С использованием LoRA/QLoRA можно уложиться в 2 x H100 или даже в один A6000 Ada с 48 GB для параметрически эффективного обучения.

    RTX 5090 против RTX 4090 — стоит ли обновляться?

    Для AI-задач — да, за счёт 32 GB против 24 GB. Для игр прирост 30-40%, но TDP 575 Вт требует мощного БП и охлаждения. Если у вас уже есть RTX 4090 и вы работаете с моделями до 13B — апгрейд не обязателен.

    Можно ли использовать игровую RTX 5090 в дата-центре?

    Технически — да. Практически — нет драйверов для виртуализации (vGPU), нет NVLink, нет ECC-памяти. Для инференса — ок, для обучения — не надёжно. Провайдеры GPU-облаков обычно е ставят игровые карты в продакшен.

    Какие российские GPU-облака работают с H100?

    airouter.host, Selectel GPU Cloud, RUVDS GPU, Yandex Cloud GPU. Цены: от 350 до 700 руб/час за H100. airouter.host дополнительно предлагает кластеры 4x H100 и 8x H100 с NVLink.

    Что такое FP4 и зачем он нужен?

    FP4 — 4-битная точность вычислений, доступная только на Blackwell B200. Позволяет обрабатывать модель в 2x меньшем объёме памяти с минимальной потерей качества (0.5-2% в perplexity). Для инференса больших моделей FP4 даёт до 4x ускорения по сравнению с FP16 — это главная фишка Blackwell.

    H100 устарел после выхода B200?

    Нет. H100 остаётся стандартом индустрии — он дешевле, проверен годами, не требует жидкостного охлаждения, совместим со всем существующим софтом. B200 заменяет H100 только в high-load сценариях (миллионы запросов в день), где выигрыш на токене окупает стоимость инфраструктуры.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *