Все статьи

< вернуться назад

Боремся с дефицитом памяти GPU

Андрей Гантимуров

CTO BAUM

5 минут

10 месяцев назад

954

5

Проблема дефицита GPU-памяти в современных AI-системах

Современные системы искусственного интеллекта всё чаще сталкиваются с критическим ограничением GPU-памяти: объём видеопамяти на ускорителях не успевает за ростом размеров и сложности нейронных моделей. В результате при обучении и инференсе крупномасштабных моделей нередко возникает «бутылочное горлышко», вынуждающее разработчиков расширять пул VRAM за счёт медленной внешней памяти или арендовать дорогостоящие облачные GPU-серверы. С целью преодоления этого барьера Phison и SanDisk предложили альтернативные подходы, позволяющие использовать блочную флеш-память NAND в роли расширения GPU-памяти – программно у Phison и аппаратно у SanDisk

Подход Phison aiDAPTIV+: программное расширение VRAM через SSD

Решение aiDAPTIV+ от Phison представляет собой слой промежуточного программного обеспечения (middleware), которое устанавливается на GPU-сервере и создаёт единый виртуальный пул памяти, объединяющий VRAM графических процессоров (GDDR или HBM), системную DRAM и флеш-накопитель Phison AI100E (SLC, 1 бит на ячейку). При загрузке модели aiDAPTIV+ анализирует её потребности и делит данные на «горячие» (hot), «тёплые» (warm) и «холодные» (cool) фрагменты:

Hot – размещаются непосредственно в видеопамяти GPU;
Warm – уходят в оперативную память CPU;
Cool – отправляются на SSD.

В ходе работы модели aiDAPTIV+ динамически перемещает фрагменты между уровнями памяти, сохраняя GPUs занятыми вычислениями и минимизируя дорогостоящие повторные вычисления токенов. По заявлению Phison, такой подход позволяет одной небольшой группе GPU с ограниченным объёмом VRAM (вплоть до штатных RTX 6000 Ada или платформ Jetson) эффективно обучать и инференсить модели до 70 млрд параметров, что ранее требовало либо более мощных GPU, либо переноса задач в облако

SanDisk HBF: аппаратное расширение VRAM нового поколения

В противоположность софтверному решению Phison, SanDisk разрабатывает аппаратный аналог расширенной VRAM — High Bandwidth Flash (HBF).

Технология повторяет архитектуру HBM: несколько слоёв NAND-кристаллов стекаются над логическим кристаллом, связаны через TSV (Through-Silicon Vias) и через интерпозер подключаются к GPU. Отличие в том, что HBF не заменяет HBM, а дополняет его: интерпозер GPU модифицируется для работы сразу с HBM-стеком и HBF-стеком, а в аппаратной памяти реализуется контроллер, управляющий перемещением данных между горячим HBM и дополнительным HBF

Для ускорения вывода на рынок HBF SanDisk сформировала Технический консультативный совет, в который вошли автор RISC-архитектуры профессор Дэвид Паттерсон и специалист по GPU-архитектурам Раджа Кодури. Их задача — разработать открытые стандарты и протоколы взаимодействия HBF с GPU, а также содействовать внедрению технологии у производителей ускорителей

Сравнение подходов: программное и аппаратное расширение памяти

Производительность и задержки

HBF благодаря близкому расположению к GPU и отсутствию промежуточного уровня CPU обеспечивает более низкие задержки и более высокую пропускную способность, сопоставимую с HBM или превышающую её. aiDAPTIV+ же зависит от SSD-уровня, что увеличивает задержки, но остаётся быстрее многократных обращений к удалённым хранилищам или повторных вычислений токенов

Гибкость внедрения и масштабирование

Программное решение Phison можно внедрить на существующих платформах, не требуя изменений в аппаратном дизайне GPU-серверов, — достаточно установки ПО и SSD. Это снижает барьер входа для средних организаций и edge-систем. HBF же требует совместной доработки интерпозера и аппаратного интерфейса у каждого производителя GPU

Перспективы развития и проблема memory wall

По мнению BAUM, дальнейшее развитие моделей и особенно внедрение агентного AI будет всё больше усугублять проблему memory wall. Для комплексного решения, уверены в BAUM, потребуется не просто расширять узкие места через программные прокладки или аппаратные “дополнения”, но и пересматривать архитектурные принципы хранения и передачи данных внутри серверов:

Новые протоколы доступа к сетевым хранилищам

Необходимо думать про протоколы которые позволят иметь доступ к внешним пулам с уровнем задержек сопоставимым как минимум с локальными SLC накопителями

Модульные хранилища ультравысокой производительности

Эти хранилища, обладая минимально необходимым набором функциональности для создания и управления пулами на больших масштабах должны обеспечивать уровень производительности хотябы в несколько десятков миллионов IOps

Такой подход, по убеждению BAUM, позволит не только снизить латентность и повысить гибкость развёртывания, но и облегчит масштабирование AI-кластеров в гетерогенных средах, где задачи могут перескакивать между локальными дата-центрами, edge-узлами и глобальной облачной сетью.

Автор: Андрей Гантимуров

< вернуться назад

Андрей Гантимуров

CTO BAUM

Об авторе

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Посетитель сайта

Добавить комментарий Отменить ответ

Комментариев пока нет

Другие статьи, которые могут быть полезными

Протокол ISCSI RDMA

3 года назад

Admin Admin

4425

1

Протокол ISCSI RDMA

Расширения iSCSI для RDMA (iSER) – это протокол компьютерной сети, который расширяет протокол Internet Small Computer System Interface (iSCSI) для использования удаленного прямого доступа к памяти (RDMA). Использование данного протокола...

4425

1

3 года назад

Настройка клиента Linux для работы с блочными ресурсами по протоколу FC

2 года назад

Олег Ларин

5531

10

Настройка клиента Linux для работы с блочными ресурсами по протоколу FC

Для просмотра WWN-портов по протоколу Fibre Channel можно использовать пакет sysfsutils. Выполните установку пакета с набором утилит командой: aptitude install sysfsutils (для Ubuntu/Debian) yum install sysfsutils (для RHEL/CentOS) Получите информацию...

5531

10

2 года назад

Консистентные снапшоты (плагин BMapp)

3 года назад

Admin Admin

3238

1

Консистентные снапшоты (плагин BMapp)

Для гарантированного создания консистентных снапшотов (snapshot) разработан специальный плагин, автоматизирующий процесс остановки рабочей нагрузки из приложения, после чего создающий. В данный момент плагин работает с БД Postgres, но может быть...

3238

1

3 года назад