NVIDIA Rubin и Blackwell: эмуляция FP64 вместо аппаратных блоков
NVIDIA отказывается от наращивания аппаратных блоков FP64 в новых архитектурах Rubin и Blackwell Ultra. Компания делает ставку на программную эмуляцию через CUDA, утверждая, что точность тензорных ядер не уступает физическим вычислениям.
В индустрии высокопроизводительных вычислений (HPC) наметился серьезный сдвиг: NVIDIA фактически прекратила гонку аппаратных мощностей для классических научных задач. Как сообщает издание The Register, технологический гигант решил не модернизировать специализированные блоки двойной точности в грядущем поколении Blackwell Ultra. Вместо этого компания переносит акцент на программные алгоритмы, интегрированные в библиотеки CUDA.
Стагнация в «железе»
Цифры наглядно демонстрируют смену приоритетов. Новейшая архитектура Rubin демонстрирует пиковую векторную производительность на уровне 33 Тфлопс, что даже ниже показателей четырехлетнего H100, выдававшего 34 Тфлопс. Текущее поколение Blackwell достигает отметки в 40 Тфлопс, однако этот рост выглядит незначительным на фоне общего прогресса ИИ-ускорителей. Разработчик сознательно ограничивает физическое расширение этих модулей, отдавая предпочтение другим компонентам кристалла.
Триумф эмуляции
Недостаток «чистой» мощности планируется компенсировать за счет тензорных ядер. При использовании матричной эмуляции возможности Rubin возрастают до впечатляющих 200 Тфлопс. Для сравнения, Blackwell в аналогичном режиме способен показать 150 Тфлопс, в то время как архитектура Hopper обеспечивала лишь 67 Тфлопс «честных» аппаратных вычислений. Дэн Эрнст, курирующий направление суперкомпьютеров в NVIDIA, подчеркивает: внутренние тесты подтверждают, что точность такого метода ничем не уступает традиционным решениям.
Контекст
Пока лидер рынка уходит в сторону гибких программных расчетов, конкуренты из AMD продолжают наращивать количество физических FP64-блоков в своих ускорителях. Это создает два разных видения будущего суперкомпьютеров: одно полагается на универсальность тензорных ядер и ИИ-оптимизацию, другое — на классическую математическую точность, заложенную в транзисторы.
Что это значит
Отказ от развития аппаратных блоков позволяет экономить дефицитную площадь чипа для ядер, отвечающих за обучение нейросетей. Если научное сообщество признает эмуляцию через CUDA надежной, потребность в узкоспециализированных процессорах для моделирования физических процессов может сойти на нет. Однако для консервативных исследовательских центров программная аппроксимация остается предметом дискуссий, несмотря на заверения руководства компании.