PavelS
PavelS

“Бесконечная память”, обработка в памяти, память по запросу

59 минут
1413
0

Введение

Память в последние годы становится ключевым элементом инфраструктуры, сдерживающим повышение производительности и эффективности ИТ-систем. Среди причин, обуславливающих это, можно назвать несколько. Во-первых, увеличивающийся разрыв между производительностью CPU и пропускной способностью памяти, или, что характерно для последних лет, уменьшение пропускной способности памяти на ядро процессора (рис. 1). Во-вторых, возрастающая доля стоимости DRAM современных серверов (рис. 1а). Это, в первую очередь, связано с возрастанием значения объема ОП (и скорости доступа к данным) на общую (прикладную) производительность системы. В-третьих, низкая утилизация ОП виртуальными машинами на фоне ее высокой стоимости (Microsoft Azure выпустила исследование, которое показало, что половина ее виртуальных машин никогда не использует половину памяти, https://dl.acm.org/doi/abs/10.1145/3575693.3578835, [14]). В-четвёртых, необходимость совместного когерентного использования ОП разнородными вычислительными компонентами (CPU, GPU, FPGA, нейропроцессоры и др.). В-пятых, необходимость поддержания новых ресурсоемких высокопроизводительных нагрузок, связанных с AI/ML/DL/HPDA.

Данная публикация – обзор усилий основных игроков рынка в области расширения и дезагрегации DRAM на базе протокола CXL 3.0/2.0/1.1, а также повышения производительности ОП на базе технологий типа PIM (Processing-in-Memory). Среди основных законодателей этого направления решений – Microchip (https://www.microchip.com/enus/products/memory/smartmemorycontrollers), MemVerge (https://memverge.com/cxl/), Sk Hynix (https://product.skhynix.com/support/forest.go), Samsung (https://samsungmsl.com/), Montage Technology (https://www.montagetech.com/), H3 Platform (https://www.h3platform.com/), Marvell (https://www.marvell.com/), XConn Technologies (https://www.xconntech.com/product), Astera Labs (https://www.asteralabs.com/) и др.

Отдельные CXL-продукты уже на рынке. Более массовые поставки должны начаться в 4 кв. 2023 г (рис. 1б).

“Бесконечная память”, обработка в памяти, память по запросу - 1

Рис. 1. Увеличивающийся разрыв между производительностью CPU и пропускной способностью памяти.

“Бесконечная память”, обработка в памяти, память по запросу - 2

Рис. 1а. Доля стоимости ОП в современных серверах стала превышать 50% [4].

“Бесконечная память”, обработка в памяти, память по запросу - 3

Рис. 1б. Ожидаемый план выпуска решений на базе CXL [4].

Microchip: CXL™ Smart Memory Controllers

В начале августа 2022 г. Microchip представила новое семейство интеллектуальных CXL-контроллеров памяти для вычислений в центрах обработки данных – SMC 2000 series CXL™based Smart Memory Controllers (https://www.microchip.com/enus/about/newsreleases/products/cxlsmartmemorycontrollers), которые позволяют CPU, GPU и SoC использовать интерфейсы CXL для подключения памяти DDR4 или DDR5 (рис. 2).

“Бесконечная память”, обработка в памяти, память по запросу - 4

“Бесконечная память”, обработка в памяти, память по запросу - 5

Рис. 2. CXL-контролеры памяти SMC 2000 series и поддерживаемые форм-факторы в составе модулей памяти.

Решения, связанные с расширением емкости традиционных DRAM, особенно в части поддержания рабочих нагрузок искусственного интеллекта (ИИ) и машинного обучения (МО), облачных вычислений и аналитики данных (развернутых на традиционной параллельной подключенной памяти), достигли плато эффективности из-за ограничений увеличения каналов памяти на процессоре. CXL-решения расширения памяти обеспечивают большую пропускную способность памяти на ядро, больший объем памяти на ядро и снижают общую стоимость владения (TCO) в центре обработки данных, позволяя современным ЦП оптимизировать рабочие нагрузки приложений.

Интеллектуальные контроллеры памяти SMC 2000 — это лучшие в своем классе контроллеры памяти Compute Express Link (CXL) Type 3. Контроллеры памяти SMC 2000 16x32G и SMC 2000 8x32G с малой задержкой разработаны в соответствии со спецификациями CXL 1.1/CXL 2.0 (используя подпротокол CXL.mem для расширения памяти с малой задержкой и подпротокол CXL.io для управления) и стандартами DDR4 и DDR5 JEDEC. Они поддерживают скорости PCIe® 5.0. SMC 2000 16x32G — это самый производительный в отрасли контроллер с 16 линиями, работающий со скоростью 32 ГТ/с, и поддерживает два канала DDR4-3200 или DDR5-4800, что приводит к значительному сокращению требуемого количества хост-процессоров или выводов SoC на канал памяти.

Интеллектуальные контроллеры памяти SMC 2000 предназначены для ряда сценариев использования, требующих высокой производительности и вычислительных ресурсов, которые требуют высокой пропускной способности и емкости памяти. Эти приложения включают гипермасштабируемые приложения, такие как искусственный интеллект (AI), машинное обучение (ML), готовые диски EDSSF на основе CXL DRAM и экономичные приложения памяти с высокой пропускной способностью в серверах и продуктах хранения для центров обработки данных.

Типичные подключаемые модули памяти CXL включают 512 ГБ памяти или более, обеспечивая эффективный механизм увеличения пропускной способности памяти, доступной для процессорных ядер. Этот новый сдвиг парадигмы дает операторам центров обработки данных возможность развертывать более широкий диапазон соотношений памяти и ядер CPU в зависимости от их реальных потребностей приложений, что приводит к улучшению использования памяти и снижению совокупной стоимости владения.

Табл. 1. Характеристики SMC 2000 Smart Memory Controllers.

Особенности и преимущества:

•   высокопроизводительная пропускная способность DRAM с малой задержкой и расширение емкости;

•   высоконадежный CXL с надежной защитой от ошибок, сквозной защитой целостности данных и защитой ECC во внутренней и внешней памяти;

•   лучшая в отрасли безопасность с корнем доверия (RoT), безопасной загрузкой, безопасным об новлением встроенного ПО, безопасной отладкой, шифрованием встроенного ПО и функциями аттестации.

Особенности CXL:

•   контроллер памяти типа 3 с поддержкой CXL 1.1 и CXL 2.0;

•   до 1х16 CXL 32 Гбит/с (PM8702 SMC 2000 16х32G);

•   до 1х8 CXL 32 Гбит/с (PM8701 SMC 2000 8х32G);

•   общие часы (с/без SSC) и отдельные часы (SRIS/SRNS);

•   поддержка чередования CXL для 1/2/4/8 каналов с точностью от 256 байт до 16 КБ;

•   L0 (нормальное) и L1 состояние управления низким энергопотреблением;

•   поддержка SLD до 16 логических устройств;

•   devicelevel reset pin (RSTB) and CXL portlevel reset (PERST);

•   максимальный размер полезной нагрузки до 512 байт (MPS).

Функции DDR:

•   2 контроллера DDR с поддержкой DDR4 и DDR5;

•   2 40битных интерфейса DDR5 или 1 72-битный интерфейс DDR4 на каждый контроллер DDR;

•   до 4H 3DS stack per DDR controller;

•   до 4 logical ranks per DDR controller;

•   Support for х4, х8 DRAM devices.

Надежность, доступность и удобство обслуживания (RAS):

•   целостность сквозного пути передачи данных с перекрывающейся четностью/ECC;

•   ведущая в отрасли поддержка ECC для DDR;

•   поддержка уничтожения чипов;

•   Programmable patrol scrub;

•   инициализация памяти DRAM при загрузке;

•   Transparency mode/ECS;

•   Refresh Management (RFM) for row hammer mitigation;

•   Post package repair (sPPR and hPPR);

•   Programmable memory BIST;

•   Thermal performance throttling.

Диагностика:

•   CXL and DDR performance monitors;

•   CXL and DDR error counters;

•   CXL and DDR error injection;

•   CXL and DDR trace;

•   LTSSM log and triggers;

•   Ordered Set Analyzer;

•   Firmware logs, crash dump and event records.

Безопасность:

•   безопасная загрузка;

•   безопасное обновление прошивки;

•   безопасная отладка;

•   персонализация устройства/сертификаты;

•   аттестация;

•   Key management;

•   Firmware encryption.

Package:

•   19 mm х 19 mm package for SMC 2000 8х32G;

•   •25mm х 25 mm package for SMC 2000 16х32G;

Периферийная поддержка:

•   поддержка SPI, I3 C/I2C, GPIO, UART и JTAG/EJTAG.

Evaluation Kit:

•   The PM8702_DDR4 evaluation board is a CXL Ч16 full height fullheight, fulllength addin card with 2Ч DDR4 DIMM supporting a single DPC;

•   The PM8702_DDR5 evaluation board is a CXL Ч16 full height, fulllength addin card with 2Ч DDR5 DIMM supporting a single DPC;

•   These evaluation kits support I2 C/SMBus interface, onboard USBtoUART converter with USB cable and EJTAG/ JTAG connector for debugging purposes.

Конфигурации DDR и поддерживаемые форм-факторы:

•   поддержка до 2 модулей DPC RDIMM или 1 модуля DPC UDIMM на каждый контроллер DDR5;

•   поддержка до 2 модулей DPC RDIMM или 1 модуля DPC UDIMM на каждый контроллер DDR4;

•   поддержка четырех рангов на контроллер DDR4/5 для конфигураций RDIMM и планарных конфигураций с RCD;

•   поддержка двойного ранга на контроллер DDR4/5 для конфигураций UDIMM и планарных конфигураций без RCD;

•   поддерживаемые форм-факторы включают: – карта расширения с модулями DIMM; – мезонинная карта с модулями DIMM; – EDSSF – E1S/E1.L, E3.S/E3.L.

«Microchip рада представить на рынке наш первый контроллер последовательной памяти на базе CXL», — сказал Пит Хейзен (Pete Hazen), корпоративный вице-президент бизнес-подразделения Microchip Data Center Solutions. – Мы с самого начала определили CXL как прорывную технологию и были неотъемлемой частью определения стандарта. Постоянное присутствие Microchip на рынке инфраструктуры памяти подчеркивает нашу приверженность повышению производительности и эффективности широкого спектра приложений SoC для удовлетворения растущих требований к памяти для высокопроизводительных приложений центров обработки данных».

Контроллеры памяти Microchip на базе SMC 2000 CXL имеют инновационный дизайн, обеспечивающий надежность, доступность и удобство обслуживания (RAS, Reliability, Availability and Service ability), что позволяет вывести решения на новый уровень эффективности и производительности. Благодаря подключению CXL внешний контроллер памяти SMC 2000 позволяет ЦП или SoC использовать широкий набор типов носителей с различными показателями стоимости, мощности и производительности без необходимости интеграции уникального контроллера памяти для каждого отдельного типа. Например, используя контроллер SMC 2000 с памятью DDR4, современные ЦП, которые напрямую поддерживают только DDR5, теперь также могут повторно использовать расширение памяти DDR4. Аутентификация с двойной подписью и поддержка Trusted Platform, безопасная отладка и безопасные обновления встроенного ПО гарантируют, что семейство контроллеров на базе SMC 2000 CXL также удовлетворяет всем критическим требованиям к хранению данных и безопасности корпоративных приложений.

Рабочие нагрузки приложений центра обработки данных требуют будущих продуктов памяти, которые могут обеспечить такую же высокую пропускную способность, малую задержку и надежность, как современные параллельные продукты памяти на основе DDR. Платформа CXL стала одним из крупнейших прорывов в отрасли за последние годы, выведя на рынок новый стандартный последовательный интерфейс для ЦП, чтобы расширить память за пределы параллельного интерфейса DDR, чтобы обеспечить новый уровень эффективности и производительности для центра обработки данных.

Технические характеристики контроллеров памяти Microchip SMC 2000 series и их блок-диаграмма представлены в табл. 1 и на рис. 3 соответственно.

“Бесконечная память”, обработка в памяти, память по запросу - 6

Рис. 3. Высокоуровневая блок-диаграмма CXL-контролеров памяти SMC 2000 series.

Дополнительные цитаты сообщества CXL

«Современный центр обработки данных требует постоянных инноваций во всей вычислительной экосистеме, включая технологии интерфейса памяти, чтобы удовлетворить требования наших клиентов к производительности и масштабируемости», — сказал Рагу Намбиар, корпоративный вице-президент по экосистемам и решениям для центров обработки данных в AMD. «Новый SMC 2000 от Microchip использует интерфейсы CXL для расширения памяти и может значительно повысить производительность системы. Мы рады работать с Microchip, чтобы предоставить комплексное решение для памяти для наших общих клиентов и продвинуть компьютерную индустрию вперед, чтобы удовлетворить потребности центров обработки данных следующего поколения».

«Cadence тесно сотрудничала с Microchip в проверке CXL и тестировании на соответствие, используя несколько IP-предложений Cadence Verification для точной настройки технологии межсоединений, необходимой для повышения производительности приложений AI и HPC», — сказал Пол Каннингем, старший вице-президент и генеральный менеджер System&Verification Group в Cadence. «Выпуск Microchip контроллера SMC 2000 CXL обеспечивает пропускную способность памяти и расширение емкости, необходимые для следующего поколения ЦП и ГП для ускорения высокопроизводительных вычислений».

«Dell активно продвигает CXL и активно участвует в консорциуме CXL и разработке стандартов. CXL обеспечивает гибкую инфраструктуру, необходимую для оптимизации совокупной стоимости владения текущих и новых рабочих нагрузок в наших будущих системах», — сказал Стюарт Берке, научный сотрудник и вице президент Dell. «Мы рады видеть, что интеллектуальные контроллеры памяти Microchip на базе SMC 2000 CXL входят в экосистему памяти CXL».

«Импульс CXL в настоящее время подпитывается потребностью в решениях ввода-вывода с малой задержкой и высокой пропускной способностью», — сказал Джим Паппас, директор по технологическим инициативам в Intel. «Microchip со своим интеллектуальным контроллером памяти SMC 2000 вносит ключевой вклад в развивающуюся экосистему, и мы рады видеть их инвестиции в более широкое развертывание устройств CXL и обеспечение бы строго внедрения в отрасли».

«Являясь активным членом консорциума CXL, Lenovo стремится развивать этот важный стандарт и помогать строить экосистему вокруг нового соединения CXL», — сказал Грег Хафф, технический директор Lenovo Infrastructure Solutions Group. «Мы рады быть частью разработки решений, которые открывают новую эру производительности и эффективности центров обработки данных, работая с Microchip, чтобы способствовать росту и внедрению инновационных продуктов CXL в будущих системах Lenovo».

«Мы решительно поддерживаем разработку богатой экосистемы инновационных технологий памяти, которые повышают емкость и производительность системы», — сказал Радж Хазра, старший вице-президент и генеральный менеджер подразделения вычислений и сетей Micron. «CXL — это новаторская инновация, которая откроет путь к компонуемой системной архитектуре, упрощая новые способы подключения лучших в отрасли памяти и хранилищ Micron».

«Представив первый в мире модуль CXL DRAM на основе ASIC вместе с набором инструментов программного обеспечения с открытым исходным кодом, Samsung продолжит коммерциализацию продуктов CXL в сотрудничестве с нашими клиентами и партнерами для удовлетворения растущего спроса на приложения с большим объемом данных», — сказал Чеолмин Парк, вице-президент по глобальным продажам и маркетингу памяти в Samsung Electronics и директор консорциума CXL. Масштабирование производительности и емкости, которое необходимо индустрии центров обработки данных для более экономичного управления рабочими нагрузками, требующими все более интенсивного использования памяти».

«Ожидается, что решения памяти CXL создадут много новых возможностей для отрасли в будущем, поскольку в будущем будут постоянно появляться более сложные приложения, связанные с памятью. Это позволит клиентам более эффективно управлять памятью за счет дополнительного масштабирования пропускной способности и емкости памяти при более низкой совокупной стоимости владения. SK hynix ожидает, что контроллер памяти SMC 2000 от Microchip обеспечит желаемое решение для удовлетворения таких потребностей и ускорения расширения всей экосистемы CXL», — сказал Уксонг Канг, вице-президент по продуктам и планированию DRAM в SK hynix.

«Компания SMART разработала SMC 2000 от Microchip в нашем модуле памяти CXL E3S (XMM), который внедряется в новые платформы с поддержкой CXL», — говорит Сатья Айер, вице-президент SMART Modular по специализированной памяти. Айер продолжает: «SMART имеет большой опыт запуска новых продуктов, основанных на новых отраслевых стандартах межсоединений, таких как модули памяти OpenCAPI DDIMM, и в настоящее время тесно сотрудничает с Microchip, чтобы сделать XMM одним из продуктов CXL в нашем портфолио».

Инструменты разработки

Для упрощения создания клиентами передовых систем, соответствующих стандарту CXL, SMC 2000 поставляется с дополнительным оборудованием для проектирования и нашим диагностическим инструментом ChipLink, который предоставляет обширные инструменты отладки, диагностики, настройки и анализа с интуитивно понятным графическим интерфейсом.

Samsung: первый CXL™ 2.0 DRAM

12 мая 2023 года компания Samsung Electronics объявила (https://news.samsung.com/global/Samsungdevelopsindustrysfirstcxldramsupportingcxl-2-0) об успешной разработке своей первой памяти CXL™ 2.0 DRAM, в которой используется контроллер CXL Memory eXpander Controller (MXC) компании Montage Technology.

CXL DRAM емкостью 128 ГБ на основе усовершенствованного интерфейса CXL 2.0 будет запущен в массовое производство в 2023 году, что ускорит коммерциализацию решений памяти нового поколения (рис. 4). Также Samsung продолжит сотрудничество с мировыми производителями центров обработки данных, серверов и чипсетов для поддержки экосистемы CXL.

“Бесконечная память”, обработка в памяти, память по запросу - 7

Рис. 4. Samsung memory expander CXL™ 2.0 DRAM емкостью 128/512 Гбайт [10].

Компания Samsung тесно сотрудничала с Intel в разработке этого знакового усовершенствования платформы Intel® Xeon®. Новая память CXL DRAM поддерживает интерфейс PCle 5.0 (x8 линий) и обеспечивает пропускную способность до 35 ГБ в секунду.

«Компания Montage рада начать массовое производство первых контроллеров с поддержкой CXL 2.0», — сказал Стивен Тай (Stephen Tai), президент Montage Technology. – Мы с нетерпением ждем продолжения нашего партнерства с Samsung для продвижения технологии CXL и расширения ее экосистемы».

CXL 2.0 впервые поддерживает пул памяти — метод управления памятью, который связывает несколько блоков памяти CXL на серверной платформе для формирования пула и позволяет хостам динамически выделять память из пула по мере необходимости. Новая технология позволяет заказчикам максимально повысить эффективность при одновременном снижении эксплуатационных расходов, что, в свою очередь, поможет заказчикам реинвестировать ресурсы в укрепление серверной памяти (рис. 5).

“Бесконечная память”, обработка в памяти, память по запросу - 8

Рис. 5. Стандарт CXL 2.0 дает возможность организовывать пулы памяти на базе CXL-коммутатора.

Расширенные функции безопасности ограничивают количество хостов, которые могут иметь доступ к пулу памяти, а функция горячей замены позволяет администраторам заменять CXL DRAM на «горячих» серверах без их предварительного отключения.

Samsung планирует начать массовое производство CXL 2.0 DRAM в конце этого года и готова предоставить дополнительные предложения различной емкости для удовлетворения спроса на будущие вычислительные приложения.

CXL — это интерфейс следующего поколения, повышающий эффективность ускорителей, DRAM и устройств хранения данных, используемых с ЦП в высокопроизводительных серверных системах. Учитывая, что его пропускная способность и емкость могут быть расширены при использовании с основной DRAM, ожидается, что развитие технологии вызовет волну на рынке вычислений следующего поколения, где ключевые технологии, такие как искусственный интеллект (ИИ) и машинное обучение (МО), привели к быстрому росту спроса на высокоскоростную обработку данных.

Напомним, что в мае 2022 г. Samsung Electronics представила (https://news.samsung.com/global/Samsungelectronicsintroducesindustrysfirst-512gbcxlmemorymodule) первый в отрасли модуль памяти CXL 1.1 емкостью 512 ГБ (рис. 6). Новые пакеты памяти CXL в 4 раза превышают объем памяти по сравнению с предыдущей версией, что позволяет масштабировать сервер до десятков терабайт и всего с одной пятой системной задержкой. Также Samsung представила обновленную версию своего программного инструментария с открытым исходным кодом, который облегчает развертывание памяти CXL в существующих и новых ИТ-системах.

“Бесконечная память”, обработка в памяти, память по запросу - 9

Рис. 6. Samsung 512GB CXL Memory Module.

С момента представления в мае 2021 года первого в отрасли прототипа CXL DRAM с контроллером программируемой вентильной матрицы (FPGA) Samsung тесно сотрудничает с компаниями, занимающимися центрами обработки данных, корпоративными серверами и производителями микросхем, над разработкой улучшенного настраиваемого устройства CXL. Новая память CXL DRAM построена с контроллером CXL на специализированной интегральной схеме (ASIC) и является первой памятью DDR5 DRAM емкостью 512 ГБ, что обеспечивает в четыре раза больший объем памяти и в пять раз меньше системную задержку по сравнению с предыдущим предложением Samsung CXL.

Большой пул памяти, совместно используемый CXL и основной памятью, позволяет серверу увеличить объем памяти до десятков терабайт и в то же время увеличить пропускную способность до нескольких терабайт в секунду (рис. 7).

“Бесконечная память”, обработка в памяти, память по запросу - 10

Рис. 7. Samsung 512GB CXL Memory Module позволяет удвоить емкость ОП одного CPU.

Samsung CXL DRAM емкостью 512 ГБ первое устройство памяти с поддержкой интерфейса PCIe 5.0 и который имеет форм-фактор EDSFF (E3.S), что особенно подходит для высокопроизводительных корпоративных серверов нового поколения и центров обработки данных.

Обновленная версия комплекта разработки Samsung Scalable Memory Development Kit (SMDK) с открытым исходным кодом представляет собой комплексный пакет ПО, который позволяет расширителю памяти CXL беспрепятственно работать в гетерогенных системах памяти, позволяя системным разработчикам включать память CXL в различные ИТ-системы, работающие с искусственным интеллектом, большими данными и облачными приложениями, без необходимости изменять существующие среды приложений (рис. 8).

“Бесконечная память”, обработка в памяти, память по запросу - 11

Рис. 8. Samsung SMDK.

Scalable Memory Development Kit (SMDK)

  • Unified interface for heterogeneous memory system management

Plugin:

  • Two selectable paths – Optimization and Compatible Path, with or without modification of application SW
  • Intelligent Tiering Engine – supports memory tiering scenarios with priority, capacity, bandwidth, etc.
  • Memory Pool Management – supports scalability reflecting memory request status and system resource

Kernel:

  • Memory Partitioning allows logical memory views for heterogeneous physical DRAM and CXL memory

CXL DRAM емкостью 512 ГБ будет доступна на рынке по мере появления серверных платформ следующего поколения.

Samsung для AI

Новые гипермасштабируемые платформы искусственные интеллекты (ИИ), такие как Midjourney, Google Bard и ChatGPT/GPT4, меняют отрасли и революционизируют рабочие потоки. Но для их поддержки требуются самые современные технологии памяти, которые предоставляет Samsung Semiconductor: новые типы памяти, твердотельные накопители и даже интерфейсы, специально разработанные для преодоления традиционных узких мест в производительности (https://semiconductor.samsung.com/us/newsevents/techblog/howsamsungmemoryispoweringtheairevolution/). Samsung выделяет 3 подтипа CXL-устройств с различным использованием подпротоколов CXL (рис. 8а).

“Бесконечная память”, обработка в памяти, память по запросу - 12

Рис. 8а. Подтипы CXLустройств, выделяемых Samsung на основе использования CXL-подпротоколов [7].

Далее рассматриваются некоторые из инноваций Samsung для приложений искусственного интеллекта и машинного обучения (ML).

Технология PIM для сокращения перемещения данных ИИ

Модели AI и ML перемещают гораздо больше данных через DRAM, чем стандартные приложения, что снижает общую производительность. В традиционном компьютере, использующем архитектуру фон Неймана, данные последовательно перемещаются между процессором и памятью. В таких системах выборка инструкций и операция с данными не могут выполняться одновременно. В ИИ, где требуются большие объемы обработки данных, чем в традиционных приложениях, эта особенность создает заторы, что приводит к снижению скорости и увеличению энергопотребления. Чтобы удовлетворить экспоненциально растущие требования, которые гипермасштабируемые ИИ предъявляют к традиционным решениям для памяти, Samsung создала технологию Processing-in-Memory (PIM) для памяти с высокой пропускной способностью (HBM). С помощью технологии PIM внедряется процессор прямо в HBM DRAM, перенос части работы по вычислению данных с процессора на саму память, тем самым сокращая перемещение данных и повышая эффективность использования энергии и данных ИИ. Результаты использования технологии PIM для приложения ИИ говорят сами за себя. По оценкам, в случае моделей ИИ размером 6 миллиардов более 80% всех вычислительных функций можно ускорить с помощью PIM, повысив производительность в 3,5 раза.

Один графический процессор (GPU) с памятью Samsung HBM PIM представляет собой тестовый вариант карты Instinct MI100 производства @AMD. Применяя технологию Samsung HBM-PIM к крупномасштабным приложениям искусственного интеллекта и HPC, Samsung увидела потенциал для удвоения производительности ускорителя графического процессора при одновременном снижении энергопотребления (https://semiconductor.samsung.com/us/newsevents/techblog/hbmpimcuttingedgememorytechnologytoacceleratenextgenerationai/).

AMD рассказала об этом на конференции ISSCC 2023 в феврале, где они сказали: «С системной точки зрения мы хотим быть максимально эффективными, и с нашим партнером Samsung и их технологией PIM мы наблюдаем до 85% экономии энергии при перемещении данных при обработке памяти, и это многообещающая технология для оптимизации в будущих системах» (ISSCC: https://youtube.com/watch?v=3jHi8E5C18&feature=shares&t=1300).

Усовершенствованные твердотельные накопители для расширенного интеллекта

Точно так же, как ИИ требует больше данных для перемещения через память, чем традиционные приложения, эти модели также должны чаще записывать и получать доступ к данным на диске и меньшими порциями. Чтобы удовлетворить уникальные требования ИИ к традиционным твердотельным накопителям (SSD), Samsung внедрила две новые технологии. Во-первых, твердотельные накопители с семантикой памяти (Memory-Semantic SSD™ – SSD на базе CXL со встроенной DRAM). При использовании в ИИ семантический твердотельный накопитель с памятью может привести к повышению производительности до 20 раз. Твердотельные накопители с семантической памятью, оптимизированные для чтения и записи небольших фрагментов данных, увеличивают скорость случайного чтения с диска при одновременном снижении задержки, что делает его идеальным решением для рабочих нагрузок, требующих быстрой обработки небольших наборов данных, таких как AI/ML.

Технология CXL таких SSD поддерживает низкую задержку благодаря протоколу CXL.memory, а встроенная динамическая память Memory-Semantic SSD™ выполняет функции (рис. 9):

  • обработку приложений AI и ML, для которых обычно требуются фрагменты данных относительно небольшого размера;
  • запись данных приложений в кэш DRAM со скоростью

“Бесконечная память”, обработка в памяти, память по запросу - 13

Рис. 9. Функциональность Samsung MemorySemantic SSD™ [7].

MemorySemantic SSD™ поддерживает два режима: Dual Mode и Persistent Mode (рис. 9а). В режиме ввода-вывода NVMe и режиме памяти CXL производительность чтения 128 байт выше в 20 раз (в сравнении с PCIe Gen4 SSD).

“Бесконечная память”, обработка в памяти, память по запросу - 14

Рис. 9а. Samsung MemorySemantic SSD™ поддерживает два режима работы [7].

Целевые нагрузки, поддерживаемые в режиме Persistent Mode (рис. 9б):

– контрольные точки целевых рабочих нагрузок:

  • контрольные точки обучения Al/ML во избежание перезапуска;
  • контрольные точки долговременной симуляции HPC;

– журнал/метаданные/индекс обновления:

  • обновления журнала/индекса повторного выполнения базы данных;
  • журналы файловых систем, метаданные и обновления индексов.

“Бесконечная память”, обработка в памяти, память по запросу - 15

Рис. 9б. Поддерживаемые нагрузки Samsung MemorySemantic SSD™ в режиме Persistent Mode [7].

Среди основных преимуществ MemorySemantic SSD™:

  • поддержка многоуровневого решения для памяти с соответствующей задержкой и пропускной способностью;
  • лучшая совокупная стоимость владения за счет расширения памяти большей емкости;
  • хранение данных без потерь, обеспечиваемое NAND Rash Backup Store;
  • простота развертывания для системной совместимости;
  • доступ с малой степенью гранулярности с мин. 64 байта передачи данных.

 

Во-вторых, Samsung разработал Samsung SmartSSD на базе AMD Adaptive Platform. Подобно технологии PIM, которая интегрирована в память, SmartSSD — это вычислительный накопитель, который помещает процессор в хранилище. Перемещая обработку данных ближе к тому месту, где хранятся сами данные, интеллектуальные твердотельные накопители могут значительно ускорить работу приложений с интенсивным использованием данных, таких как ИИ HyperScale (рис. 9в).

“Бесконечная память”, обработка в памяти, память по запросу - 16

Рис. 9в. Samsung Smart SSD™ дает возможность разгрузить хост, в разы повышая прикладную производительность [9].

Более быстрые интерфейсы благодаря CXL для приложений ИИ

Samsung создала технологию CXL Memory Expander, которая позволяет серверам увеличивать объем памяти до десятков терабайт, увеличивая пропускную способность до сотен гигабайт в секунду. Кроме того, есть CXL-PNM. Как PIM и SmartSSD, CXL-PNM (Processor-near-Memory, рис. 9г) — это передовая технология, которая может сократить перемещение данных между ЦП и памятью. Размещая процессоры ближе к памяти, технология CXL-PNM повышает скорость загрузки моделей ИИ в 2 раза, а емкость — до 4 раз.

“Бесконечная память”, обработка в памяти, память по запросу - 17

Рис. 9г. Samsung CXL-PNM.

Разработка CXL-решения PNM для высокопроизводительных моделей искусственного интеллекта

CXL™ можно использовать в сочетании с другими технологиями, такими как Processing-near-Memory (PNM), чтобы упростить расширение емкости памяти (https://semiconductor.samsung.com/us/newsevents/techblog/samsungelectronicssemiconductorunveilscuttingedgememorytechnologytoacceleratenextgenerationai/).

PNM, как и PIM, представляет собой технологию, объединяющую память и логические микросхемы в усовершенствованный пакет интегральных схем, который сокращает перемещение данных между ЦП и памятью за счет использования памяти для вычисления данных. В случае PNM, как следует из названия, вычислительные функции выполняются ближе к памяти, чтобы уменьшить узкое место, возникающее между процессором и передачей данных в память.

Первая в отрасли технология PNM на основе интерфейса CXL™ от Samsung, представленная на мероприятии Memory Tech Day 5 октября 2022 г., зарекомендовала себя как отличное решение для использования с высокопроизводительной обработкой моделей искусственного интеллекта. В ходе тестирования было подтверждено, что решения PNM на основе интерфейса CXL™ более чем удваивают производительность в таких приложениях, как рекомендательные системы (DLRM – Deep Learning Recommendation Model) или базы данных в памяти, которые требуют высокой пропускной способности памяти (рис. 10, 11).

“Бесконечная память”, обработка в памяти, память по запросу - 18

Рис. 10. Решения Samsung CXL-PNM PNM более чем удваивают производительность в таких приложениях, как рекомендательные системы или базы данных в памяти, которые требуют высокой пропускной способности памяти.

“Бесконечная память”, обработка в памяти, память по запросу - 19

Рис. 11. Стремительный рост размера DLRM-моделей за последние годы [7].

Решения для памяти, адаптированные к характеристикам моделей ИИ

С богатыми данными и сложными моделями искусственного интеллекта решения для пропускной способности и передачи данных также требуют настройки, чтобы максимизировать их преимущества.

Данные, используемые в моделях ИИ, классифицируются как плотные и разреженные в соответствии с их характеристиками. Плотные данные имеют место, когда доля достоверных данных высока внутри всего кластера данных и, следовательно, плотные, в то время как связанные и разреженные данные имеют низкую долю достоверных данных. Приложения ИИ, такие как автономное вождение и распознавание голоса, попадают в категорию плотных данных, а алгоритмы рекомендаций на основе пользователей (рекомендация друга в Facebook) являются примерами разреженных данных. Для каждой модели требуются специальные решения для памяти, соответствующие приложению.

Samsung применила технологию PIM к моделям ИИ, основанным на плотных данных, и технологию PNM к моделям ИИ, основанным на разреженных данных, чтобы удовлетворить разнообразные потребности клиентов.

«Технология HBMPIM Cluster — это первое в отрасли специализированное решение памяти для крупномасштабного искусственного интеллекта», — сказал Чеолмин Парк (Cheolmin Park), руководитель новой группы бизнес-планирования в бизнес-подразделении памяти Samsung Electronics. — Путем интеграции решений CXL PNM с HBMPIM посредством комплексного процесса стандартизации программного обеспечения мы можем предложить новый стандарт высокоэффективных и высокопроизводительных решений памяти, которые могут способствовать экологичному управлению данными за счет сокращения и оптимизации перемещения огромных объемов данных, необходимых для приложений ИИ».

Samsung Electronics планирует активно взаимодействовать с ИТ-индустрией и учебными заведениями для продвижения технологии PIM/PNM в будущем. Интегрированное программное обеспечение, поддерживающее решения PNM на основе HBMPIM и CXL, представлено в качестве демонстрации на SC22, крупнейшей в отрасли конференции по суперкомпьютерам.

Marvell: CXL Development Platform для многохостового пула памяти

В ноябре 2022 г. Marvell анонсировала [8] инновационную CXL-платформу развития для многохостового пула памяти (CXL Development Platform for MultiHost Memory Pooling). Платформа сочетает в себе технологию Marvell CXL с новыми процессорами AMD EPYC 4-го поколения для ускорения революции в архитектуре облачных центров обработки данных. Платформа ориентирована на операторов облачных центров обработки данных и OEM-производителей серверов.

Платформа обеспечивает две функции CXL: расширение памяти и объединение памяти. Расширение позволяет добавлять ресурсы памяти по желанию без ухудшения пропускной способности, связанного с традиционным расширением памяти с использованием слотов для модулей памяти с двухрядным расположением выводов (DIMM). Объединение в пул позволяет совместно использовать и динамически распределять память между ЦП, а не выделять ее для конкретного ЦП. Обе функции приводят к более высокому использованию ресурсов памяти в масштабе всей системы, включая возможность использования ранее незанятой памяти.

Это объявление первый публичный шаг Marvell к производству CXL после недавнего приобретения компанией Tanzanite, специализирующейся на CXL. Видение Marvell для облачного центра обработки данных следующего поколения — это архитектура, когда она полностью дезагрегирована и компонуема. Интеграция технологии CXL в обширный портфель компании будет способствовать созданию новых архитектур центров обработки данных со значительными преимуществами в эффективности и производительности.

«Память центра обработки данных, напрямую привязанная к процессорам, ограничивает масштабирование облачной инфраструктуры и общую эффективность. CXL изменит это, — сказал Тад Омура (Thad Omura), вице-президент по маркетингу Flash Business Unit, Marvell. – Мы стремимся предоставить нашим клиентам и партнерам инструменты, необходимые для максимально быстрой интеграции технологии CXL в их проекты. Вместе с AMD и их процессорами EPYC 4-го поколения мы позволяем им делать именно это. С нашей новой платформой развития операторы облачных вычислений и OEM-производители находятся на пути к более эффективному использованию системной памяти и снижению затрат на DRAM/память».

Расширение памяти (memory expansion)

Первое использование CXL будет заключаться в упрощении добавления памяти. Существуют следующие ограничения при добавлении памяти [11]:

  • сервер должен быть открыт при добавлении дополнительной DRAM с помощью DIMM (двухрядный модуль памяти);
  • в сервере есть ограниченное количество слотов DIMM;
  • DIMM также не имеет механизма для передачи данных телеметрии, таких как сервис и история битовых ошибок. Операторы облачных центров обработки данных используют такие данные для наблюдения за своей инфраструктурой.

 

Используя CXL, модуль расширения памяти можно подключить к передней панели сервера через PCIe, избегая необходимости открывать сервер. Охлаждение системы также более простое, поскольку память находится далеко от процессора. Контроллер CXL модуля расширения памяти также может отправлять данные телеметрии.

CXL также увеличивает пропускную способность памяти. При добавлении модуля DIMM к CPU исходный и добавленный модули DIMM используют один и тот же канал; пропускная способность удваивается, но не пропускная способность интерфейса. Однако использование CXL открывает канал, поскольку добавленная память использует шину PCIe (рис. 12).

“Бесконечная память”, обработка в памяти, память по запросу - 20

Рис. 12. Преимущества CXL-расширения памяти [12].

CXL-расширитель памяти добавляет несколько десятков наносекунд задержки. Поэтому при CXL-расширении памяти можно использовать двухуровневую память (рис. 13): “Hot” memory – DRAM, “Cold” memory – CXL (“TPP: Transparent Page Placement for CXLEnabled Tiered Memory”, https://arxiv.org/abs/2206.02878).

“Бесконечная память”, обработка в памяти, память по запросу - 21

Рис. 13. Двухуровневая организация памяти при ее CXL-расширении [12].

Объединенная память (Pooled memory)

CXL также поддерживает объединение памяти. CPU может брать память из пула для задачи, а по завершении освобождает память, чтобы ее мог использовать другой CPU. Затем будущие обновления памяти добавляются в пул, а не в отдельный ЦП. Это позволят масштабировать память независимо от процессоров (рис. 14).

“Бесконечная память”, обработка в памяти, память по запросу - 22

Рис. 14. Два способа организации общего пула памяти: подключение напрямую к хостам через CXL-контроллер пула и через CXL-коммутатор [12].

Вероятная следующая разработка — доступ всех ЦП к памяти через коммутатор CXL. Каждому ЦП больше не требуется локальный контроллер DRAM, вместо этого он может получить доступ к расширителю памяти или пулу памяти с помощью CXL-фабрики.

Использование коммутатора CXL увеличивает задержку доступа к памяти. Время обращения ЦП к своей локальной памяти составляет около 100 нс, в то время как переход через CXL-коммутатор к объединенной памяти, по прогнозам, займет 140-160 нс.

К коммутатору также можно подключить ускоритель CXL. Здесь микросхема ускорителя добавляется к памяти, которая может совместно использоваться кэш-памятью совместно с CPU через CXL-фабрику.

Также с помощью коммутатора CXL можно добавить аппаратное обеспечение ускорения ввода-вывода. Такое оборудование включает в себя Ethernet, блоки обработки данных (DPU), контроллеры интеллектуальных сетевых интерфейсов (SmartNIC) и контроллеры твердотельных накопителей (SSD).

Разработка CXL memory pooling appliance предполагает 2 этапа (рис. 15): первый – с FPGA (через контроллер Tanzanite Silicon Solutions), второй – с заменой FPGA на ASIC [13].

“Бесконечная память”, обработка в памяти, память по запросу - 23

“Бесконечная память”, обработка в памяти, память по запросу - 24

Рис. 15. Разработка CXL memory pooling appliance предполагает 2 этапа: первый – с FPGA, второй – с заменой FPGA на ASIC [13].

MemVerge и Sk Hynix: проект «Бесконечная память»

Проект Endless Memory

Тему Endless Memory – “бесконечная память” – MemVerge® развивала фактически с самого начала создания компании [6]. Эти решения строились на базе технологии Intel Optane (с использованием модулей памяти Intel® Optane™ DC Persistent Memory). После того как в августе 2022 г. Intel объявила о прекращении развития и производства продуктов на ее основе, MemVerge® стала развивать свои решения класса Endless Memory на базе протокола CXL.

В конце мая 2023 г. компания MemVerge® (https://www.memverge.com) объявила [2], что она совместно с компанией SK hynix Inc. (https://skhynix.com/), запустила Project Endless Memory [3], революционную совместную систему, которая решает проблему исчерпания памяти в приложениях, интенсивно использующих данные. Нехватка памяти — это серьезная проблема, которая может привести к сбоям из-за нехватки памяти (OOM, Out-of-Memory) или снижению производительности из-за использования подкачки, особенно в кластерных средах, где использование памяти неодинаково для узлов.

Чтобы решить эту проблему, MemVerge заключила партнерское соглашение с SK hynix для создания решения «Бесконечная память». Endless Memory сочетает в себе программное обеспечение Elastic Memory Service от MemVerge и Niagara Pooled Memory System от SK hynix, что позволяет хостам динамически распределять память по мере необходимости, уменьшая ошибки OOM и повышая производительность приложений.

Endless Memory представляет собой отраслевую веху, поскольку в ней используются технологии пула памяти CXL и технологии многоуровневого хранения, работающие на реальном оборудовании пула памяти CXL от SK hynix. Инновационное решение включает в себя технологию, которая меняет способ управления приложениями, интенсивно использующими данные, и обеспечивает более простой и эффективный способ управления памятью в кластерных средах.

По словам Хошика Кима (Hoshik Kim), вице-президента и научного сотрудника, Memory Forest x&D в SK hynix: «Тестирование показывает, что всего 20% дополнительной памяти CXL из нашей Niagara Pooled Memory System (Niagara Pooled Memory System: прототип объединенной памяти CXL на основе FPGA) может повысить производительность приложений в 3 раза по сравнению с существующим подходом к памяти подкачки».

Масштаб приложений больших данных ограничен объемом памяти, доступной на одном узле. Расширение памяти одного узла является дорогостоящим и невозможным сверх предела, поэтому обычно используется подход масштабирования с несколькими узлами в кластере. При горизонтальном масштабировании большие объемы данных отправляются между узлами по сети, что создает несколько проблем:

  • дополнительную задержку и борьбу за пропускную способность сети;
  • несколько копий одних и тех же данных, что увеличивает общее использование памяти;
  • “перекос данных” — несбалансированный раздел данных, вызывающий всплеск использования памяти на узле, перегрузку памяти или даже “убийцу” OOM.

 

Проект Endless Memory решает эту проблему, объединяя программное обеспечение Elastic Memory Service от MemVerge и Niagara Pooled Memory System от SK Hynix, чтобы хосты могли динамически распределять память по мере необходимости, уменьшая ошибки OOM и повышая производительность приложений.

Endless Memory представляет собой отраслевую веху, поскольку в ней реализованы технологии пула памяти CXL и технологии многоуровневого хранения, работающие на реальном оборудовании пула памяти CXL от SK Hynix. Инновационное решение включает в себя технологию, которая меняет способ управления приложениями, интенсивно использующими данные, и обеспечивает более простой и эффективный способ управления памятью в кластерных средах.

Проект Gismo – мультисерверная общая память на базе CXL

Проект Gismo (Global IOFree Shared Memory Objects) был представлен MemVerge [1, 5] 23 мая 2023 г. на Международной конференции по суперкомпьютерам (ISC, International Supercomputing Conference). Проект Gismo представляет первую в мире мультисерверную общую память на базе CXL и ускоряет работу распределенных приложений, устраняя стену ввода-вывода, состоящую из сетевого ввода-вывода и копий данных.

Project Gismo, легко интегрируя технологию Compute Express Link (CXL), обеспечивает обмен данными в режиме реального времени между несколькими серверами, устраняя необходимость в сетевом вводе-выводе и сокращая задержки при передаче данных.

Проект Gismo решает такие же выше отмеченные проблемы с трафиком данных между узлами тремя способами:

  • каждый узел в кластере подключается к общей памяти через CXL, что обеспечивает быстрый прямой доступ к памяти вместо сетевого трафика;
  • единое хранилище общих объектов обеспечивает передачу объектов по ссылке и без копирования между несколькими узлами, что еще больше ускоряет доступ и значительно снижает общее использование памяти;
  • устраняет неравномерность данных, поскольку хранилище объектов находится в общей памяти, а не разделено на отдельные узлы.

 

Это инновационное решение позволяет организациям раскрыть весь потенциал своих распределенных приложений, ускоряя рабочие нагрузки с интенсивным использованием данных и снижая задержки до беспрецедентного уровня. С помощью Project Gismo можно значительно повысить производительность, оптимизируя инфраструктуру и использование ресурсов (рис. 15а).

“Бесконечная память”, обработка в памяти, память по запросу - 25

Рис. 15а. Проект Gismo дает возможность создавать компонуемые масштабируемые пулы памяти в рамках стойки с разными типами памяти (ист.: https://servernews.ru/1087245).

Ключевыми вариантами использования Project Gismo являются приложения AI/ML, включая большие языковые модели, базы данных следующего поколения и финансовые торговые платформы.

По словам Чжэ Чжана (Zhe Zhang), руководителя отдела разработки открытого исходного кода Anyscale, «Ray используется для масштабирования больших языковых моделей, таких как ChatGPT. Project Gismo от MemVerge расширяет архитектуру Ray с нулевым копированием, ориентированную на память, на несколько экземпляров сервера, значительно повышая производительность перемешивания и других обменов данными. Мы с нетерпением ждем продолжения сотрудничества с MemVerge и сообществом Ray».

Ray (https://www.ray.io/) — это унифицированная вычислительная платформа с открытым исходным кодом и богатым набором библиотек и интеграций, которая упрощает масштабирование рабочих нагрузок ИИ и Python — от обучения до глубокого обучения, настройки и обслуживания моделей.

На состоявшемся CXL Forum (7 июня 2023 г.) в рамках конференции ISC 2023 Чарльз Фан (Charles Fan), генеральный директор и соучредитель MemVerge, представил ряд вариантов использования Project Gismo и преимущества этих применений [15].

Основное преимущество — это то, что CXL делает возможной общую память между узлами:

  • несколько узлов имеют прямой доступ к одной и той же области памяти CXL;
  • Cache Coherence является частью спецификации оборудования CXL 3.0;
  • когерентность программного кэша может быть реализована поверх аппаратного обеспечения CXL 2.0.

 

Пример 1. Приложения AI/ML на платформе Ray.

Цель тестирования состояла в оценке количественных показателей преимущества использования решения Ray+Gismo при решении задач AI/ML при передаче объектов в многоузловой конфигурации. Структурная схема тестирования представлена на рис. 15б. Результаты тестирования – рис. 15в.

“Бесконечная память”, обработка в памяти, память по запросу - 26

“Бесконечная память”, обработка в памяти, память по запросу - 27

Рис. 15б. Структурная схема конфигурации тестирования применения CXL Memory Card в составе решения Gismo [15].

“Бесконечная память”, обработка в памяти, память по запросу - 28

Рис. 15в. Результаты тестирования при перемещении объектов в базовой конфигурации Ray и в конфигурации Ray+Gismo [15].

Project Gismo и преимущества этих применений [15].

Преимущества решения Ray+Gismo:

  • отсутствие операций ввода-вывода: больше нет сериализации объектов и передачи по сети для удаленного доступа к объектам;
  • Zero Copy: больше никаких копий объектов на разных узлах;
  • отсутствие переполнения: сокращение перераспределения объектов и искажения данных, поскольку каждый узел имеет доступ ко всему пулу памяти.

 

Пример 2. Кэш-память для базы данных HTAP (Hybrid transaction/ analytical processing).

HTAP (гибридная транзакционная/аналитическая обработка) — это термин, введенный Gartner Inc., в ее исследовательском отчете в начале 2014 года (https://en.wikipedia.org/wiki/Hybrid_transactional/analytical_processing): “HTAP — это новая архитектура приложений, которая «ломает стену» между обработкой транзакций и аналитикой. Это позволяет принимать более обоснованные решения в режиме реального времени.”

В более поздних отчетах Gartner начал называть HTAP «расширенными транзакциями». Другая аналитическая компания Forrester Research называет ту же концепцию «транслитической», а 451 Group называет ее «гибридной операционной и аналитической обработкой» или HOAP (Hybrid operational and analytical processing).

Фактически БД класса HTAP появились, когда ведущие поставщики СУБД (IBM DB2, Oracle, Microsoft SQL и др.) стали поддерживать поколоночное (для OLAP) и построчное (для OLTP) хранение таблиц одновременно. Поддержка в одной лицензии этих двух способов доступа появилась позже. В это же время стала активно развиваться и in memory обработка таблиц, активно продвигаемая SAP.

MatrixOrigin – гиперконвергентная гетерогенная облачная база данных, развиваемая одноименной китайской компанией (https://www.matrixorigin.io/about).

MatrixOrigin (https://www.matrixorigin.io/), разработчик гибридного транзакционно аналитического процессора следующего поколения, является еще одним ранним пользователем Project Gismo. Они обнаружили, что Gismo значительно упрощает архитектуру кэширования и повышает производительность как при обработке транзакций, так и при аналитической обработке в облаке.

«Проект Gismo значительно упростил нашу архитектуру кэширования, устранив необходимость в сложных копиях данных и уменьшив неравномерность данных», — сказал Фэн Тянь (Feng Tian), технический директор MatrixOrigin. – Глобальная общая память, доступная нескольким серверам, обеспечивает беспрепятственный обмен данными и совместную работу, повышая общую эффективность нашего движка. В результате мы добились значительного повышения производительности, что позволило нам справляться с большими рабочими нагрузками и быстрее отвечать на запросы наших клиентов».

Среди особенностей БД MatrixOrigin (рис. 15г):

  • база данных MatrixOrigin HTAP имеет масштабируемую архитектуру;
  • локальный кэш может иметь высокий процент промахов кэша;
  • когерентность кэша затруднена.

“Бесконечная память”, обработка в памяти, память по запросу - 29

“Бесконечная память”, обработка в памяти, память по запросу - 30

Рис. 15г. Особенности использования БД MatrixOrigin без и с решением Gismo [15].

Интеграция Gismo в состав решения для БД MatrixOrigin позволила:

  • создать общую кэш-память;
  • обеспечить более высокую частоту попаданий в кэш;
  • использовать меньше копий кеша;
  • устранить обработку когерентности кэша.

 

Пример 3. Поддержание отказоустойчивости базы данных.

Одним из первых пользователей проекта Gismo является Timeplus (https://www.timeplus.com/), разработчик потоковой базы данных нового поколения в реальном времени. Их вариант использования сосредоточен на использовании Gismo для повышения отказоустойчивости их базы данных, достигая двадцатикратного повышения скорости переключения при сбое.

По словам Тинга Ванга (Ting Wang), генерального директора Timeplus: «благодаря революционной много серверной архитектуре с общей памятью Gismo на базе CXL мы значительно улучшили отказоустойчивость нашей системы баз данных. Скорость обработки отказов потоковых запросов увеличилась в 20 раз, что позволило нам обеспечить непревзойденный пользовательский опыт для продолжения обработки потоковых данных».

Среди особенностей БД Timeplus (рис. 15д):

  • распределенная потоковая аналитика Timeplus, используемая для мониторинга торговли в режиме реального времени;
  • синхронизация данных для аварийного восстановления занимает много времени.

Внедрение Gismo позволило:

  • обеспечить более быстрое переключение базы данных при отказе;
  • использовать контрольные точки и восстановление на основе Gismo;
  • добиться значительно более быстрых синхронизации данных и аварийного восстановления.

“Бесконечная память”, обработка в памяти, память по запросу - 31

“Бесконечная память”, обработка в памяти, память по запросу - 32

Рис. 15д. Использование Gismo для обеспечения отказоустойчивости БД [15].

CXL-форум

Ожидается, что CXL-совместимые серверы, хранилища и сети начнут поставляться в 2023 году. Разработчики-первопроходцы и первые пользователи уже создают концепткары и тестируют их.

MemVerge создала форум CXL (https://memverge.com/cxlforumcommunitynewssubscribe/), чтобы помочь сообществу разработчиков и пользователей работать вместе.

Memory Machine Cloud Edition — это программное обеспечение, обеспечивающее прозрачный доступ к многоуровневой и объединенной в пул памяти CXL. Средство просмотра памяти — это бесплатный инструмент, который визуализирует физическую топологию ресурсов памяти DDR и CXL, а также пропускную способность, распределение и использование для каждого процесса.

CXL-совместимые версии программного обеспечения доступны для квалифицированных разработчиков и пользователей в рамках CXL-форума (https://memverge.com/cxlforumcommunitynewssubscribe/). Через партнерскую программу Big Memory Technology можно получить ранний доступ к Memory Viewer. Также MemVerge предоставляет полную демоверсию, бесплатную пробную версию или доступ к игре в песочнице в AWS, чтобы проиллюстрировать, как Memory Machine Cloud может помочь сократить расходы на облако на 60% и более (https://memverge.com/cxl/).

SK Hynix: CXL-память с вычислительными возможностями

CXL Memory Expansion/Cmputational Memory Solutions (CMS)

В октябре 2022 г. SK Hynix на OCP Global Summit представила одно из первых в отрасли – CXL-память с вычислительными возможностями (CMS, computational memory solutions) — модуль расширения памяти объемом 512 ГБ с вычислительными возможностями и интерфейсом PCIe 4.0 x4 с протоколом CXL (https://news.skhynix.com/skhynixintroducesindustrysfirstcxlbasedcmsattheocpglobalsummit/). Решение, являющееся результатом тесного сотрудничества с SK Telecom (рис. 16, 17, 18).

“Бесконечная память”, обработка в памяти, память по запросу - 33

Рис. 16. SK hynix CXL Memory Expansion/Computational Memory Solutions (CMS).

“Бесконечная память”, обработка в памяти, память по запросу - 34

Рис. 17. Блок-диаграмма-1 SK hynix CXL Memory Expansion/Computational Memory Solutions (CMS).

“Бесконечная память”, обработка в памяти, память по запросу - 35

Рис. 18. Блок-диаграмма-2 SK hynix CXL Memory Expansion/Computational Memory Solutions (CMS).

Технология CMS обеспечивает не только преимущества CXL в части гибкого расширения объема памяти, но также демонстрирует преимущества вычислительных функций машинного обучения и фильтрации данных, часто выполняемых приложениями для анализа больших данных. Решение также отсеивает операции, выполнение которых неэффективно для CPU или которые потребляют много энергии при передаче данных между памятью и CPU. Пак Кён (Park Kyoung), объявляя о планах дальнейших исследований и разработок, сказал: «Благодаря интернализации вычислительных функций CMS обеспечивает производительность в несколько раз выше, чем у десятков ядер CPU в конкретных вычислениях. Учитывая, что это всего лишь прототип, мы думаем, что можем еще больше повысить производительность, и рассматриваем возможность применения технологии в других приложениях, таких как большие данные».

Конвергенция передовых технологий компаний SK Group

Пак также сказал: «При выводе на рынок новых технологий и их решений важно доказать их ценность с точки зрения клиента, но возможный объем сотрудничества с клиентами относительно ограничен, особенно для серверных зон центров обработки данных. В этом смысле сотрудничество с SK Telecom предоставило прекрасную возможность воплотить CMS в жизнь. Опыт SK Telecom в разработке и эксплуатации сервисной инфраструктуры на основе AI/Big Data нашел свое отражение в каждой части процесса разработки». Чтобы эффективно обрабатывать большие объемы данных, SK Telecom разработала и запустила в различных коммерческих сервисах собственную Lightning DB, платформу для анализа данных в оперативной памяти.

Lightning DB: платформа SK Telecom с ориентированным на память дизайном, специализирующимся на обработке данных в реальном времени. Он может обеспечивать высокую производительность анализа данных за счет оптимизированной параллельной обработки после разделения и хранения больших объемов данных в более мелких единицах.

Обе компании одновременно приступили к разработке как CMS, так и Lightning DB, применяемой к CMS. Благодаря этому процессу SK hynix смогла обнаружить и применить вычислительные функции, необходимые клиентам, а SK Telecom смогла повысить конкурентоспособность своей платформы.

Ян Сынджи (Yang Seungji), вице-президент и руководитель отдела исследований и разработок в SK Telecom, сказал: «Обычно аппаратным решениям новой концепции требуется значительное время, чтобы доказать свою эффективность с точки зрения программного приложения. Но на этот раз были выбраны значимые расчеты для реальных прикладных услуг SK Telecom, что помогло нам сэкономить значительное количество времени за счет совместного выполнения всех процессов от проектирования структуры аппаратного и программного обеспечения до разработки и проверки». Ян продолжил: «По мере того, как мы проверяли улучшения производительности решений, мы планируем применить их для задач проверки, которые повысят точность крупномасштабных данных обучения ИИ в будущем, и использовать их для повышения конкурентоспособности услуги ИИ SK Telecom».

Филиалы SK Group в области ИКТ осуществляют научно-исследовательские и опытно-конструкторские проекты для объединения различных технологий связанных компаний, включая полупроводники, аппаратные решения, программные платформы и услуги искусственного интеллекта. Ли Чжон Мин, вице-президент и руководитель отдела будущих исследований и разработок в SK Telecom, сказал: «Этот случай важен тем, что мы успешно разработали ведущую технологию, объединив возможности искусственного интеллекта и полупроводников SK Telecom и SK hynix вместе. Мы продолжим предоставлять клиентам новые технологические преимущества и вносить свой вклад в экосистему исследований и разработок в области ИКТ по всему миру».

CMS SK Hynix содержит четыре стандартных модуля памяти DDR емкостью 128 ГБ и оснащена системой на кристалле (или, возможно, набором микросхем), которая может обрабатывать алгоритм машинного обучения KNN (k-ближайших соседей, k-nearest neighbors), ускорение алгоритма классификации, фильтрацию данных и балансировку нагрузки с интерфейсом PCIe 4.0 x4, который поддерживает протоколы CXL.mem и CXL.io. Плата CMS также имеет два сетевых разъема для подключения к другим узлам (https://finance.yahoo.com/news/skhynixunveilscxlmemory-183757837.html).

SK Hynix заявляет, что ее прототип CMS может выполнять операции фильтрации и обработки данных в режиме реального времени быстрее, чем различные многоядерные CPU.

SK hynix DDR5 DRAM CXLTM Memory

В начале августа 2022 г. SK hynix Inc. представила (https://news.skhynix.com/sk-hynix-develops-ddr5-dram-cxltm-memory-to-ex-pand-the-cxl-memory-ecosystem/) свои первые образцы памяти CXL (Compute Express Link) на базе DDR5 DRAM. Образец имеет форм фактор EDSFF (стандартный форм-фактор для предприятий и центров обработки данных) E3S, поддерживает PCIe 5.0 x8 Lane, использует DRAM стандарта DDR5 и оснащен контроллерами CXL. Массовое производство расширяемой памяти CXL начнется в 2023 году (рис. 19, 20, 21).

“Бесконечная память”, обработка в памяти, память по запросу - 36

Рис. 19. SK hynix DDR5 DRAM CXLTM Memory.

“Бесконечная память”, обработка в памяти, память по запросу - 37

Рис. 20. Текущие возможности подключения DDR5 DIMM.

“Бесконечная память”, обработка в памяти, память по запросу - 38

Рис. 21. Возможности расширения памяти с использованием модулей CXL 2.0 Memory Expansion Solution.

Первое устройство памяти CXL, разработанное SK hynix, представляет собой продукт емкостью 96 ГБ, состоящий из 24-гигабитных модулей памяти DDR5 DRAM на основе 1-анм, что является новейшим технологическим узлом. Компания рассчитывает на высокую степень удовлетворенности клиентов этим продуктом благодаря гибкой конфигурации пропускной способности и экономичному расширению емкости.

В экосистему расширения памяти CXL от SK hynix входят Dell, Intel, AMD, Montage Technologies и др.

Обеспечение доступности технологий путем разработки HMSDK, предназначенного для памяти CXL

SK hynix также разработала набор для разработки программного обеспечения для гетерогенной памяти (HMSDK, Heterogeneous Memory Software Development Kit – позволяет использовать различные типы памяти в одной системе) исключительно для устройств памяти CXL. В комплект будут включены функции для повышения производительности системы и мониторинга систем при выполнении различных рабочих нагрузок. Компания планирует распространять его с открытым исходным кодом с 4-го кв. 2022 года. Ожидается, что конечные пользователи, такие как разработчики программного обеспечения, смогут более эффективно использовать память SK hynix CXL.

Компания подготовила для оценки отдельный образец, чтобы клиентам было проще его оценить. Поскольку в настоящее время нет сервера, поддерживающего EDSFF E3S x8 Lane, SK hynix заменила контакты EDSFF выделенных образцов на PCIe, чтобы помочь клиентам установить образцы в существующие слоты PCIe.

Источники, доп. ресурсы

[1]  MemVerge Unveils World’s First CXL-Based MultiServer Shared Memory at ISC. May 23, 2023 – https://memverge.com/memverge-unveils-worlds-first-cxl-based-multi-server-shared-memory-at-isc/.

[2]  MemVerge and SK hynix announce Endless Memory. May 22, 2023 – https://memverge.com/memverge-and-sk-hynix-announce-endless-memory/.

[3]  MemVerge and sk Hynix: Project Endless Memory, Gregory Price, Senior Software Engineer at MemVerge. June 08, 2023 – https://www.youtube.com/watch?v=uDQfwzMl54A, https://www.youtube.com/@memverge4105.

[4]  MemVerge: The Road to Endless Memory, MemVerge CEO and co-founder Charles Fan. June 08, 2023 – https://www.youtube.com/watch?v=rO4PdTAwLTY, https://www.youtube.com/@memverge4105.

[5]  MemVerge Project Gismo: Global IOfree Shared Memory Objects, MemVerge CEO and cofounder Charles Fan. June 08, 2023 – https://www.youtube.com/watch?v=D66W7eqFbhc&t=479s, https://www.youtube.com/@memverge4105.

[6]  Endless Memory, 08 2021 – https://memverge.com/wpcontent/uploads/2021/08/Endless-Memory-Webinar.pdf.

[7]  Memory-Semantic SSD™: Samsung’s CXL-based SSD for the Memory-Centric Computing Era. Webinar. Apr 17, 2023 – https://semiconductor.samsung.com/us/news-events/tech-blog/webinar-memory-semantic-ssd/.

[8]  Marvell Announces Innovative CXL Development Platform for Multi-Host Memory Pooling. November 10, 2022 – https://www.marvell.com/company/newsroom/marvell-announces-innovative-cxl-development-platform-for-multi-host-memory-pooling.html.

[9]  Python with Computational Storage, Samsung Semiconductor Inc. Apr. 2023 – https://www.snia.org/educational-library/python-computational-storage-2023.

[10]  Explore the Compute Express Link™ (CXL™) Device Ecosystem and Usage Models. Apr. 2023 – https://www.snia.org/cmssummit.

[11]  Marvell plans for CXL’s introduction in the data centre. JULY 4, 2022 – https://www.gazettabyte.com/home/2022/7/4/marvell-plans-for-cxls-introduction-in-the-data-centre.html.

[12]  Thinking Memory, Mats Oberg, Associate Vice President, Marvell, Compute + Memory + Storage Summit, APRIL 11 2023 – https://www.snia.org/educational-library/thinking-memory-2023.

[13]  Transforming Cloud Data Centers with CXL. Shalesh Thusoo VP CXL Product Development, Marvell Technology, Inc. – https://memverge.com/wp-content/uploads/2022/10/CXL-Forum-Wall-Street_Marvell.pdf.

[14]  Marvell’s CTO: peering into the future is getting harder. APRIL 13, 2023 – https://www.gazettabyte.com/home/2023/4/13/marvels-cto-peering-into-the-future-is-getting-harder.html.

[15]  MemVerge Project Gismo: Global IOfree Shared Memory Objects, 7 June 2023 – https://www.youtube.com/watch?v=D66W7eqF

Авторы: Гантимуров А.П., Калашник А.Г.

FavoriteLoadingОтслеживать

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Максимальный размер загружаемого файла: 0 Б. Вы можете загрузить: изображение, аудио, видео, документ, таблица, интерактив, текст, архив, код, другое. Ссылки на YouTube, Facebook, Twitter и другие сервисы, вставленные в текст комментария, будут автоматически встроены. Перетащите файл сюда

Последние статьи

Top