Боремся с дефицитом памяти GPU

4 минуты

292

4

Боремся с дефицитом памяти GPU

Современные системы искусственного интеллекта всё чаще сталкиваются с критическим ограничением GPU-памяти: объём видеопамяти на ускорителях не успевает за ростом размеров и сложности нейронных моделей. В результате при обучении и инференсе крупномасштабных моделей нередко возникает «бутылочное горлышко», вынуждающее разработчиков расширять пул VRAM за счёт медленной внешней памяти или арендовать дорогостоящие облачные GPU-серверы. С целью преодоления этого барьера Phison и SanDisk предложили альтернативные подходы, позволяющие использовать блочную флеш-память NAND в роли расширения GPU-памяти – программно у Phison и аппаратно у SanDisk

Phison aiDAPTIV+: расширение виртуальной памяти программно

Решение aiDAPTIV+ от Phison представляет собой слой промежуточного программного обеспечения (middleware), которое устанавливается на GPU-сервере и создаёт единый виртуальный пул памяти, объединяющий VRAM графических процессоров (GDDR или HBM), системную DRAM и флеш-накопитель Phison AI100E (SLC, 1 бит на ячейку). При загрузке модели aiDAPTIV+ анализирует её потребности и делит данные на «горячие» (hot), «тёплые» (warm) и «холодные» (cool) фрагменты:

Hot – размещаются непосредственно в видеопамяти GPU;
Warm – уходят в оперативную память CPU;
Cool – отправляются на SSD.

В ходе работы модели aiDAPTIV+ динамически перемещает фрагменты между уровнями памяти, сохраняя GPUs занятыми вычислениями и минимизируя дорогостоящие повторные вычисления токенов. По заявлению Phison, такой подход позволяет одной небольшой группе GPU с ограниченным объёмом VRAM (вплоть до штатных RTX 6000 Ada или платформ Jetson) эффективно обучать и инференсить модели до 70 млрд параметров, что ранее требовало либо более мощных GPU, либо переноса задач в облако

SanDisk High Bandwidth Flash (HBF): аппаратная эволюция VRAM

В противоположность софтверному решению Phison, SanDisk разрабатывает аппаратный аналог расширенной VRAM — High Bandwidth Flash (HBF).

Технология повторяет архитектуру HBM: несколько слоёв NAND-кристаллов стекаются над логическим кристаллом, связаны через TSV (Through-Silicon Vias) и через интерпозер подключаются к GPU. Отличие в том, что HBF не заменяет HBM, а дополняет его: интерпозер GPU модифицируется для работы сразу с HBM-стеком и HBF-стеком, а в аппаратной памяти реализуется контроллер, управляющий перемещением данных между горячим HBM и дополнительным HBF

Для ускорения вывода на рынок HBF SanDisk сформировала Технический консультативный совет, в который вошли автор RISC-архитектуры профессор Дэвид Паттерсон и специалист по GPU-архитектурам Раджа Кодури. Их задача — разработать открытые стандарты и протоколы взаимодействия HBF с GPU, а также содействовать внедрению технологии у производителей ускорителей

Сравнительный анализ

Скорость и задержки HBF благодаря близкому расположению к GPU и отсутствию промежуточного уровня CPU обеспечивает более низкие задержки и более высокую пропускную способность, сопоставимую с HBM или превышающую её. aiDAPTIV+ же зависит от SSD-уровня, что увеличивает задержки, но остаётся быстрее многократных обращений к удалённым хранилищам или повторных вычислений токенов

Гибкость и масштабируемостьПрограммное решение Phison можно внедрить на существующих платформах, не требуя изменений в аппаратном дизайне GPU-серверов, — достаточно установки ПО и SSD. Это снижает барьер входа для средних организаций и edge-систем. HBF же требует совместной доработки интерпозера и аппаратного интерфейса у каждого производителя GPU

По мнению BAUM, дальнейшее развитие моделей и особенно внедрение агентного AI будет всё больше усугублять проблему memory wall. Для комплексного решения, уверены в BAUM, потребуется не просто расширять узкие места через программные прокладки или аппаратные “дополнения”, но и пересматривать архитектурные принципы хранения и передачи данных внутри серверов:

Новые протоколы доступа к сетевым хранилищамНеобходимо думать про протоколы которые позволят иметь доступ к внешним пулам с уровнем задержек сопоставимым как минимум с локальными SLC накопителями

Модульные хранилища ультравысокой производительностиЭти хранилища, обладая минимально необходимым набором функциональности для создания и управления пулами на больших масштабах должны обеспечивать уровень производительности хотябы в несколько десятков миллионов IOps

Такой подход, по убеждению BAUM, позволит не только снизить латентность и повысить гибкость развёртывания, но и облегчит масштабирование AI-кластеров в гетерогенных средах, где задачи могут перескакивать между локальными дата-центрами, edge-узлами и глобальной облачной сетью.

Андрей Гантимуров
andrey_gantimurov@baum.ru

< вернуться назад

Андрей Гантимуров

CTO BAUM

Об авторе

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Посетитель сайта

Добавить комментарий Отменить ответ

Комментариев пока нет

Другие статьи, которые могут быть полезными

Протокол NFS RDMA

Admin Admin

2314

1

Протокол NFS RDMA

Протокол NFS RDMA (NFS через удаленный прямой доступ к памяти) лучше всего подходит для рабочих нагрузок с интенсивным использованием ЦП, когда необходимо передать большой объем данных. Для работы протокола требуется...

2314

1

Перенос тома между контроллерами

Admin Admin

2008

1

Перенос тома между контроллерами

Для переноса тома между контроллерами кластера СХД необходимо использовать локальную репликацию данных. После завершения репликации на целевом контроллере (который был выбран в качестве цели при репликации) появится точная копия исходного...

2008

1

Аппаратный, программный или программно-определяемый гибридный RAID?

PavelS

2765

40

Аппаратный, программный или программно-определяемый гибридный RAID?

Введение В течение многих десятилетий RAID-контроллеры были основным ключевым элементом построения высокопроизводительных высокодоступных СХД, но с появлением NAND SSD ситуация стала меняться. Все большее значение на рынке стали занимать программные...

2765

40

Термины и аббревиатуры используемые в материалах

История и текущее состояние индустрии HDD

RDMA синхронизация

Настройка клиента Linux для работы с блочным ресурсами по протоколу iSCSI

Клоны (снимков)

Боремся с дефицитом памяти GPU

Добавить комментарий

Добавить комментарий Отменить ответ

Комментариев пока нет

Другие статьи, которые могут быть полезными

Протокол NFS RDMA

Перенос тома между контроллерами

Аппаратный, программный или программно-определяемый гибридный RAID?