Введение
В настоящее время большую часть решений на рынке в стадии предпродажной подготовки занимают т.н. модули расширения памяти (expansion memory module), которые представляют из себя пакет DIMM DRAM с контроллером CXL. Решения с NVDIMM-N и NVDIMM-P представляют лишь единичные образцы, а последние все еще находятся в стадии разработки. Предложения на на рынке для расширения памяти на базе CXL должны появиться в конце 2023 г. – начале 2024 г.
SMART Modular Technologies
2 августа 2022 г. компания SMART Modular Technologies (“SMART”, https://www.smartm.com/) объявила [7] о доступности своего нового модуля памяти – Compute Express Link™ (CXL™) Memory Module (CMM-E3S, XMM, NV-XMM, рис. 1). Новые модули SMART DDR5 CMM-E3S помогают повысить производительность серверов и центров обработки данных, позволяя добавлять когерентную кеш-память за интерфейсом CXL, что еще больше расширяет возможности обработки больших данных за пределы текущих 8-канальных/12-канальных ограничений большинства серверов (рис. 2). Модули CMM-E3S это энергонезависимые модули NVDIMM-N с подключением по CXL 2.0.
Рис. 1. SMART CXL™ Memory Module (CMM-E3S, XMM, NV-XMM).
CXL добавляет емкость, постоянную (persistent) память и расширяет полосу пропускания
Рис. 2. Миграция с архитектуры с использованием Intel® Optane™ и DDR4 NVDIMM на архитектуру с поддержкой CXL NV-XMM и DDR5 NVDIMM [6].
Память с последовательным подключением увеличивает емкость и пропускную способность по сравнению с модулями DIMM основной памяти. Серверы с модулями CMM-E3S можно динамически настраивать для различных приложений и рабочих нагрузок без выключения. Память может быть разделена между узлами для удовлетворения требований к пропускной способности и задержке.
Модули SMART CMM-E3S предлагаются с новейшим контроллером ASIC CXL, встроенным в форм-фактор E3.S, с 64 ГБ и 96 ГБ памяти DDR5, соответствующей спецификации CXL 2.0. Цель этого модуля — дать возможность клиентам и партнерам по ЦП запустить экосистему CXL и проверить соответствие требованиям на различных серверных платформах.
Модули SMART CMM-E3S предоставляют дополнительный объем памяти, который можно динамически распределять за интерфейсом CXL для тех рабочих нагрузок, которые в этом нуждаются. SMART использует свой опыт внедрения новых технологий и новых стандартов межсоединений для полной поддержки внедрения памяти CXL.
Новые модули SMART E3.S CMM-E3S являются первыми в планируемом семействе продуктов памяти CXL, предназначенных для расширения емкости памяти и расширения пропускной способности памяти. Другие продукты CXL, которые, как ожидается, будут выпущены в ближайшем будущем, включают карты расширения (AIC, Add-In Cards) и форм-факторы E1.S, каждый из которых предназначен для различных конфигураций серверных корпусов и приложений.
Технический опыт SMART в поддержке модулей памяти на базе ASIC и FPGA соответствует требованиям проверки CXL для функций RAS, включая целостность пути данных, искажение и внесение ошибок, ECC памяти, память Chipkill™ ECC и очистку, чтобы гарантировать работу новых модулей CMM-E3S.
Архитектура SMART CMM-E3S представлена на рис. 3.
Рис. 3. Архитектура SMART CXL™ Memory Module (CMM-E3S, XMM, NV-XMM) [8].
Основные технические особенности CMM-E3S (https://www.smartm.com/api/download/fetch/115):
– доступен в форм-факторе EDSFF E3.S 2T (короткий 2U);
– CXL-2.0 совместим со скоростями PCIe-Gen5, работающими на скорости 32 ГТ/с;
– емкость 64 ГБ, 96 ГБ;
– поддерживает функции надежности, доступности и удобства обслуживания (RAS), добавленные в CXL-2.0;
– питание осуществляется только от источника питания 12 В от периферийного интерфейса, совместимого с EDSFF (SFF-TA-1009);
– поддерживает боковые (sideband) интерфейсы для отладки, управления и обновления системы, позволяющее осуществлять внешнее управление модулем;
– поддерживает дополнительные функции безопасности для защиты данных от атак по побочным каналам;
– производительность 64 ГБ/с при 66% операций чтения в DDR5 по CXL x16;
– реализация на базе ASIC.
Среди других прикладных преимуществ CMM-E3S [8]:
– позволяет перейти с архитектуры NVDIMM-N с DDR4 на DDR5 без существенных изменений;
– данные, чувствительные к задержке и которые постоянно изменяются, могут получить выгоду от NVDIMM и NV-XMM;
– DDR5 NVDMM-N появится в ближайшем будущем и заполнит пробел в высокопроизводительных приложениях постоянной памяти с низкой задержкой;
– CXL NV-XMM можно использоваться в приложениях, чувствительных к низкой задержке;
– CXL NV-XMM может сосуществовать с DDR5 NVDIMM-N;
– CXL NV-XMM открывает новые варианты использования для повышения емкости и возможности компоновки.
Расширение памяти CXL
SMART CMM-E3S относится к продуктам памяти CXL Type 3 (CXL.mem), позволяя увеличить объем памяти на одно ядро процессора (рис. 4, https://www.smartm.com/product/promote/compute-express-link).
Рис. 4. SMART CXL™ Memory Module (CMM-E3S) относится к устройству класса CXL Device Type-3.
Добавление четырех SMART CMM-E3S позволяет повысить пропускную способность памяти для одного процессора 1,66 раза, а емкость памяти процессора в 1,5 раза (рис. 5).
Рис. 5. Добавление четырех SMART CMM-E3S позволяет повысить пропускную способность памяти для одного процессора 1,66 раза, а емкость памяти в 1,5 раза (https://www.smartm.com/product/promote/compute-express-link).
Более низкая совокупная стоимость владения (TCO)
CMM-E3S — более экономичный выбор для расширения памяти в современных системных архитектурах. Вместо покупки 8 модулей DDR5 RDIMM по 128 ГБ клиенты могут получить эквивалентную емкость памяти, используя 8 модулей DDR5 RDIMM по 64 ГБ в сочетании с 8 картами расширения CXL (AIC). Эта конфигурация приводит к значительному снижению затрат, составляющему более 40% (рис. 6), т.к. планки 128ГБ в 5 раз дороже чем 64ГБ и даже применение дополнительного CXL-устойства все равно выгоднее. Ожидается, что предстоящий CXL AIC от SMART будет запущен в ближайшем будущем.
Рис. 6. SMART CMME3S позволяет снизить ТСО на 40%.
Объединение памяти CXL (CXL Memory Pooling)
CXL 2.0 поддерживает коммутацию пула памяти для более эффективного распределения памяти между хостами. На уровне 2.0 устройство можно разделить на несколько логических устройств (MLD, Multiple Logical Devices), что позволяет до 16 хостам одновременно получать доступ к различным частям памяти (рис. 7).
Рис. 7. Совместное использование пула памяти на основе SMART CMME3S и коммутатора CXL 2.0.
Например, хост 1 (H1) может использовать половину памяти в устройстве 1 (D1) и четверть памяти в D2, чтобы точно согласовать требования к памяти для своей рабочей нагрузки с доступной емкостью в пуле памяти. Оставшуюся емкость в D1 и D2 можно использовать с помощью H2-H#.
SK hynix
1 августа 2022 г. SK hynix Inc. представила (https://news.skhynix.com/sk-hynix-develops-ddr5-dram-cxltm-memory-to-expand-the-cxl-memory-ecosystem/) свои первые образцы памяти CXL (Compute Express Link) на базе DDR5 DRAM. Образец имеет форм-фактор EDSFF (стандартный форм-фактор для предприятий и центров обработки данных) E3.S, поддерживает PCIe 5.0 x8 Lane, использует DRAM стандарта DDR5 и оснащен контроллерами CXL. Массовое производство расширяемой памяти CXL начнется в 2023 году (рис. 8, 9, 10).
Рис. 8. SK hynix DDR5 DRAM CXLTM Memory
Рис. 9. Текущие возможности подключения DDR5 DIMM.
Рис. 10. Возможности расширения памяти с использованием модулей CXL 2.0 Memory Expansion Solution.
Это DRAM c возможностью подключения по CXL. Это не NVDIMM и не Persistent Memory.
Первое устройство памяти CXL, разработанное SK hynix, представляет собой продукт емкостью 96 ГБ, состоящий из 24-гигабитных модулей памяти DDR5 DRAM на основе 1а нм (1 ангстрем = 0,1 нм), что является новейшим технологическим узлом. Компания рассчитывает на высокую степень удовлетворенности клиентов этим продуктом благодаря гибкой конфигурации пропускной способности и экономичному расширению емкости.
В экосистему расширения памяти CXL от SK hynix входят Dell, Intel, AMD, Montage Technologies и др.
Комплект ПО HMSDK для разработки CXL-памяти
SK hynix также разработала набор для разработки программного обеспечения для гетерогенной памяти (HMSDK, Heterogeneous Memory Software Development Kit – позволяет использовать различные типы памяти в одной системе) исключительно для устройств памяти CXL. В комплект будут включены функции для повышения производительности системы и мониторинга систем при выполнении различных рабочих нагрузок. Компания планирует распространять его с открытым исходным кодом с 4-го кв. 2022 года. Ожидается, что конечные пользователи, такие как разработчики программного обеспечения, смогут более эффективно использовать память SK hynix CXL.
Компания подготовила для оценки отдельный образец, чтобы клиентам было проще его оценить. Поскольку в настоящее время нет сервера, поддерживающего EDSFF E3.S x8 Lane, SK hynix заменила контакты EDSFF выделенных образцов на PCIe, чтобы помочь клиентам установить образцы в существующие слоты PCIe.
Samsung Memory Expander CXL™ 2.0 DRAM
12 мая 2023 года компания Samsung Electronics объявила (https://news.samsung.com/global/samsung-develops-industrys-first-cxl-dram-supporting-cxl-2-0) об успешной разработке своей первой памяти CXL™ 2.0 DRAM, в которой используется контроллер CXL Memory eXpander Controller (MXC) компании Montage Technology.
Это DRAM c возможностью подключения по CXL 2.0. Это не NVDIMM и не Persistent Memory.
CXL DRAM емкостью 128 ГБ на основе интерфейса CXL 2.0 будет запущен в массовое производство в 2023 году, что ускорит коммерциализацию решений памяти нового поколения (рис. 11). Также Samsung продолжит сотрудничество с мировыми производителями центров обработки данных, серверов и чипсетов для поддержки экосистемы CXL.
Рис. 11. Samsung Memory Expander CXL 2.0.
Компания Samsung тесно сотрудничала с Intel в разработке этого знакового усовершенствования платформы Intel® Xeon®. Новая память CXL DRAM поддерживает интерфейс PCle 5.0 (x8 линий) и обеспечивает пропускную способность до 35 ГБ в секунду.
CXL 2.0 впервые поддерживает пул памяти — метод управления памятью, который связывает несколько блоков памяти CXL на серверной платформе для формирования пула и позволяет хостам динамически выделять память из пула по мере необходимости. Новая технология позволяет заказчикам максимально повысить эффективность при одновременном снижении эксплуатационных расходов, что, в свою очередь, поможет заказчикам реинвестировать ресурсы в укрепление серверной памяти (рис. 12).
Рис. 12. Стандарт CXL 2.0 дает возможность организовывать пулы памяти на базе CXL-коммутатора.
Расширенные функции безопасности ограничивают количество хостов, которые могут иметь доступ к пулу памяти, а функция горячей замены позволяет администраторам заменять CXL DRAM на «горячих» серверах без их предварительного отключения.
Samsung планирует начать массовое производство CXL 2.0 DRAM в конце этого года и готова предоставить дополнительные предложения различной емкости для удовлетворения спроса на будущие вычислительные приложения.
Напомним, что в мае 2022 г. Samsung Electronics представила (https://news.samsung.com/global/samsung-electronics-introduces-industrys-first-512gb-cxl-memory-module) первый в отрасли модуль памяти CXL 1.1 емкостью 512 ГБ (рис. 6). Новые пакеты памяти CXL в 4 раза превышают объем памяти по сравнению с предыдущей версией, что позволяет масштабировать сервер до десятков терабайт и всего с одной пятой системной задержкой. Также Samsung представила обновленную версию своего программного инструментария с открытым исходным кодом, который облегчает развертывание памяти CXL в существующих и новых ИТ-системах.
С момента представления в мае 2021 года первого в отрасли прототипа CXL DRAM с контроллером программируемой вентильной матрицы (FPGA) Samsung тесно сотрудничает с компаниями, занимающимися центрами обработки данных, корпоративными серверами и производителями микросхем, над разработкой улучшенного настраиваемого устройства CXL. Новая память CXL DRAM построена с контроллером CXL на специализированной интегральной схеме (ASIC) и является первой памятью DDR5 DRAM емкостью 512 ГБ, что обеспечивает в четыре раза больший объем памяти и в пять раз меньше системную задержку по сравнению с предыдущим предложением Samsung CXL.
Большой пул памяти, совместно используемый CXL и основной памятью, позволяет серверу увеличить объем памяти до десятков терабайт и в то же время увеличить пропускную способность до нескольких терабайт в секунду (рис. 13).
Рис. 13. Samsung 512GB CXL Memory Module позволяет удвоить емкость ОП одного CPU.
Samsung CXL DRAM емкостью 512 ГБ первое устройство памяти с поддержкой интерфейса PCIe 5.0 и который имеет форм-фактор EDSFF (E3.S), что особенно подходит для высокопроизводительных корпоративных серверов нового поколения и центров обработки данных.
Обновленная версия комплекта разработки Samsung Scalable Memory Development Kit (SMDK) с открытым исходным кодом представляет собой комплексный пакет ПО, который позволяет расширителю памяти CXL беспрепятственно работать в гетерогенных системах памяти, позволяя системным разработчикам включать память CXL в различные ИТ-системы, работающие с искусственным интеллектом, большими данными и облачными приложениями, без необходимости изменять существующие среды приложений.
CXL DRAM емкостью 512 ГБ будет доступна на рынке по мере появления серверных платформ следующего поколения.
Micron Technology
Micron CZ120 memory expansion modules cCXL™ 2.0
7 августа 2023 г. компания Micron Technology, Inc. объявила (https://investors.micron.com/news-releases/news-release-details/micron-launches-memory-expansion-module-portfolio-accelerate-cxl) о доступности образцов модулей расширения памяти Micron CZ120 для клиентов и партнеров (рис. 14). Модули Micron CZ120 выпускаются емкостью 128 ГБ и 256 ГБ в форм-факторе E3.S 2T, в котором используется интерфейс PCIe ® Gen5 x8. Кроме того, модули CZ120 способны обеспечить пропускную способность памяти при чтении/записи до 36 ГБ/с (измерено при выполнении рабочей нагрузки MLC с соотношением чтения/записи 2:1 на одном модуле расширения памяти CZ120) и дополнять стандартные серверные системы, когда требуется увеличение объема памяти и пропускной способности. Модули CZ120 используют стандарты Compute Express Link™ (CXL™) и полностью поддерживают стандарт CXL 2.0 Type 3. Используя уникальную двухканальную архитектуру памяти и технологию DRAM для крупносерийного производства Micron, Micron CZ120 обеспечивает более высокую емкость модуля и повышенную пропускную способность. Рабочие нагрузки, которые выигрывают от большего объема памяти, включают модели обучения и вывода ИИ, приложения SaaS, базы данных в памяти, высокопроизводительные вычисления и вычислительные рабочие нагрузки общего назначения, которые выполняются на локальном гипервизоре или в облаке.
Рис. 14. Micron CZ120 memory expansion module.
Модуль расширения памяти Micron CZ120 разработан с использованием интеллектуального контроллера памяти SMC2000 (https://www.microchip.com/en-us/products/memory/smart-memory-controllers) от Microchip Technology. Это DRAM c возможностью подключения по CXL 2.0. Это не NVDIMM и не Persistent Memory.
«Мы разрабатываем и тестируем наши модули расширения памяти CZ120, используя платформы Intel и AMD, способные поддерживать стандарт CXL. Наши инновации в продуктах в сочетании с нашими совместными усилиями с экосистемой CXL позволят быстрее принять этот новый стандарт, поскольку мы работаем коллективно над удовлетворением постоянно растущих потребностей центров обработки данных и их рабочих нагрузок, интенсивно использующих память», — прокомментировал Сива Макинени (Siva Makineni), вице-президент Micron Advanced Memory Systems Group.
«Недавно мы протестировали наш процессор AMD EPYC 9754 с модулями CZ120 и видим впечатляющие результаты в производительности теста TPC-H по сравнению только с DRAM», — сказал Махеш Ваг (Mahesh Wagh), старший научный сотрудник отдела архитектуры серверных систем AMD.
Модули расширения памяти Micron высокой емкости на базе CXL позволяют гибко создавать серверы с большей емкостью памяти и низкой задержкой для удовлетворения требований рабочих нагрузок приложений, обеспечивая до 96% больше запросов к базе данных в день и на 24% большую пропускную способность чтения/записи памяти в день. ЦП, чем серверы, использующие только память RDIMM (пропускная способность MLC при использовании 12 модулей x 64GB Micron 4800MT/s RDIMMs + 4x256GB CZ120 memory expansion modules по сравнению только с RDIMM). Благодаря модулям расширения памяти Micron CZ120 емкостью 256 ГБ независимые поставщики программного обеспечения, поставщики облачных услуг, производители оригинального оборудования и производители оригинального дизайна могут создавать серверы с дополнительной емкостью памяти до 2 ТБ (при добавлении модулей расширения памяти CZ120 емкостью 8×256 ГБ могут возникнуть системные ограничения). Увеличение емкости означает повышение производительности и увеличение пропускной способности памяти без необходимости использования большего количества серверов. Улучшая использование вычислительных ресурсов и ресурсов памяти для корпоративных и облачных приложений, организации могут сократить капитальные и эксплуатационные расходы на приложения своих центров обработки данных.
Micron: CXL будет чистым позитивом для роста спроса на DRAM и роста общего адресуемого рынка [10]
Проблема “стены памяти”
Современные параллельные компьютерные архитектуры склонны к появлению узких мест на системном уровне, которые могут ограничивать производительность обработки приложений. Исторически это явление было известно как «стена памяти», когда скорость улучшения производительности микропроцессора намного превышает скорость улучшения скорости памяти DRAM. За последнее десятилетие темпы роста числа ядер ЦП привели к увеличению разрыва между производительностью ЦП и памяти (рис. 15), что затрудняет решение сложных вычислительных задач.
Рис. 15. Исторический разрыв в производительности процессора и памяти (ист.: Synopsys).
Добавление процессорных ядер — это лишь часть решения многих задач прикладных вычислений. В большинстве случаев жизненно важно иметь пропускную способность памяти для снабжения этих процессорных ядер данными. Производители ЦП попытались смягчить проблему разрыва масштабирования путем постепенного усовершенствования, добавляя больше каналов памяти и увеличивая скорость передачи данных по этим каналам в ЦП нового поколения. Новые поколения технологий DRAM обеспечивают временное облегчение за счет изменения скорости передачи данных в памяти.
В табл. 1 показан прогресс за последнее десятилетие в увеличении количества ядер ЦП и скорости передачи данных DDR DRAM наряду с добавлением большего количества каналов памяти в 2011, 2017, 2021 и 2023 годах. Однако даже при теоретических скоростях передачи данных памяти и большем количестве каналов памяти, пропускной способности памяти сложно идти в ногу с ростом числа ядер ЦП и поддерживать скорость 4 ГБ/с на ядро с течением времени.
Табл. 1. Развитие процессоров и памяти и влияние на показатель пропускная способность на ядро.
Взаимосвязь между вычислительными возможностями платформы, измеряемыми количеством ядер ЦП, и масштабированием доступного объема памяти также подвергается сомнению. Как показывают исторические данные о тенденциях на рис. 16, количество ядер процессора увеличивалось довольно быстро, в то время как рост емкости системной памяти на ядро неуклонно снижался. Интеграция контроллера памяти в ЦП обычно приводила к более прямому и ограниченному соотношению емкости процессора и памяти. Емкость можно увеличить, добавив больше модулей DIMM на канал. Однако из-за увеличения загрузки каналов добавление большего количества модулей DIMM на канал часто требует снижения тактовой частоты памяти, что снижает пропускную способность памяти, усугубляя ранее обсуждавшуюся проблему со “стеной памяти”.
Рис. 16. Исторические тренды для типичного объема системной памяти и количества ядер ЦП (ист.: на основе емкости и количества ядер из общедоступных таблиц данных AMD и Intel, а также публичных заявлений).
Проблема максимизации эффективности ИТ-ресурсов
Приложения и сервисы разбиваются на микросервисы для оптимизации доступных ресурсов по мере того, как рабочая нагрузка увеличивается и снижается.
ИТ-нагрузки исторически определялись для пикового спроса. Однако это часто означает, что существует значительное избыточное выделение ресурсов, поскольку рабочие нагрузки нечасто работают на пиковых уровнях. На протяжении большей части недавней истории в отрасли наблюдался невероятно низкий (ниже 50%, а зачастую и значительно ниже этого уровня, https://www.techtarget.com/searchitoperations/definition/What-is-server-virtualization-The-ultimate-guide) общий уровень использования ресурсов центров обработки данных (https://www.gartner.com/en/newsroom/press-releases/2022-12-06-how-to-make-the-data-center-eco-friendly).
Со временем виртуализация и облачная инфраструктура предоставили значительные возможности, помогающие сохранять и даже восстанавливать ресурсы, потерянные из-за избыточного выделения ресурсов и недостаточного использования, — за счет улучшенной автоматизации, миграции и размещения рабочих нагрузок, а также других методов. Многие считали, что это резко сократит TAM (total addressable market) для серверной инфраструктуры в дата-центре. Это имело совершенно противоположный эффект и создало спрос на вычислительные платформы ЦП с более высокой плотностью, поскольку эффективность позволяла экономить в других областях, таких как энергопотребление и оперативное управление. Таким образом, усиливая парадокс Джевонса, «повышение эффективности использования ресурсов приведет к увеличению потребления ресурсов, а не к снижению».
Стремление к большей гибкости и эффективности никогда не было таким высоким, и в отрасли постоянно обсуждается вопрос создания компонуемого «центра обработки данных будущего». Одним из идеалов, к которым стремятся центры обработки данных следующего поколения, является более детальный контроль над использованием ресурсов, включая переосмысление того, как ресурсы могут совместно использоваться не только на уровне центра обработки данных, но также между стойками и даже внутри серверов.
Эволюция центра обработки данных с CXL-архитектурой
CXL стал экономически эффективным, гибким и масштабируемым архитектурным решением, которое формирует центр обработки данных будущего. CXL изменит способ развертывания традиционной стоечной и стековой архитектуры серверов и коммутаторов в центрах обработки данных. Специально созданные серверы с выделенными фиксированными ресурсами, состоящими из компонентов ЦП, памяти, сети и хранилища, уступят место более гибким и масштабируемым архитектурам. Серверы в стойке, когда-то подключенные к фиксированным ресурсам сети, хранилища и вычислений для работы в качестве решения, будут динамически компоноваться с помощью инфраструктуры управления программным обеспечением для удовлетворения потребностей современных и новых рабочих нагрузок, таких как искусственный интеллект и глубокое обучение (рис. 17).
Рис. 17. Эволюция центра обработки данных от традиционных стоек и стеков к полной компонуемости (ист.: Marvell).
Промышленность сосредоточила внимание на потенциале, который можно раскрыть с помощью таких как устройства памяти, подключенные к CXL. Точки подключения памяти обеспечивают расширение памяти большой емкости и могут использоваться для интенсивных серверных рабочих нагрузок с увеличенной пропускной способностью памяти, низкой задержкой и когерентностью памяти для гетерогенных вычислений/обработки и достижения многоуровневого управления инфраструктурой памяти. Многоуровневое распределение памяти будет реализовано во многом так же, как многоуровневое представление было введено в хранилище на протяжении последних нескольких десятилетий, и в конечном итоге будет включать в себя расширение памяти с прямым подключением, объединение памяти в пул и совместное использование памяти.
Центр обработки данных станет более ориентированным на память благодаря возможности динамически создавать серверы с пулами памяти объемом более терабайта, что позволит запускать больше приложений в памяти. Память класса хранения (Storage-class memory) становится новым основным активным уровнем хранения данных, при этом NAND и дисковые накопители используются для хранения «теплых» и неактивных данных, которые будут совместно использоваться несколькими хостами.
В конечном итоге центр обработки данных перейдет к полной дезагрегации всех элементов сервера, включая вычисления, память, сеть и хранилище. Массовое развертывание контейнеров и микросервисов будет обеспечивать динамическую настройку базовых ресурсов, необходимых для оптимизированного решения со сбалансированным соотношением вычислительных ресурсов и памяти и без снижения производительности. Благодаря CXL развертывание сервисов и базового оборудования, используемого в конфигурациях по требованию, станет плавным и быстрым, а появление программного обеспечения для управления компоновкой позволит повысить эффективность модели «как услуга» в гетерогенной среде.
Как CXL решает проблему “стены памяти”
Свойства протокола CXL, обеспечивающие связность и согласованность устройств памяти и устройств, позволят решить проблему «стены памяти», позволяя расширить память за пределы слотов DIMM сервера. Расширение памяти CXL представляет собой двойной подход: увеличение пропускной способности для преодоления проблемы «стены памяти» и увеличение емкости для рабочих нагрузок с интенсивным использованием данных для серверов с поддержкой CXL.
Для типичных рабочих нагрузок важно поддерживать пропускную способность каждого ядра ЦП для обеспечения идеальной эффективности. Поскольку число ядер быстро увеличивается, пропускная способность снижается (см. табл. 1). Расширение памяти CXL с прямым подключением позволяет серверным платформам масштабироваться и устранять пробелы в дополнительной пропускной способности для поддержания баланса.
Еще одним фактором, который следует учитывать, является уменьшение емкости памяти на каждое ядро по мере увеличения количества ядер. Требования к рабочей нагрузке приложений продолжают расти, увеличивая объем ресурсов, необходимых для быстрого анализа собранных данных и представления результатов в виде полезной бизнес-аналитики. Эти важные рабочие нагрузки (например, машинное обучение, НЛП, компьютерное зрение, рекомендательные системы, базы данных в памяти и т. д.) могут быть экономично решены за счет увеличения объема памяти на систему. Модули памяти CXL можно подключать непосредственно к серверу, обеспечивая процессорам большую пропускную способность и большую емкость за пределами каналов памяти с прямым подключением, и делать это с задержкой, сравнимой с задержкой канала NUMA между процессорами на двухпроцессорном сервере.
Как CXL решает проблемы эффективности и устойчивости ИТ
Разнообразные рабочие нагрузки в разных вертикалях приложений очень чувствительны к вычислительным операциям, объему памяти, пропускной способности и задержке. Приложения, которые работают в облаке, на предприятии или в периферийном центре обработки данных на традиционных стоечных серверах, должны соответствовать соглашениям об уровне обслуживания (SLA). Распространенным подходом является распределение этих типов рабочих нагрузок приложений по нескольким системам. При построении ИТ-инфраструктуры не всегда следует простому эмпирическому правилу достижения системного баланса между вычислительными ресурсами и ресурсами устройств. Балансировка этих ресурсов зависит от рабочих нагрузок, которые могут быть привязаны к вычислительным ресурсам, памяти или операциям ввода-вывода.
Первоначальные развертывания систем на базе CXL предоставляют возможности расширения производительности и емкости в соответствии с масштабированием вычислительных ресурсов в зависимости от требований рабочей нагрузки. Память, хранилище, сеть и ускорители становятся взаимозаменяемыми модулями, поскольку форм-факторы и возможности подключения стандартизированы, а серверы можно компоновать в соответствии с требованиями рабочей нагрузки. Такой подход позволяет производителям серверов, включая поставщиков облачных услуг, сократить количество серверных SKU, которые им необходимо разрабатывать и обслуживать для работы с множеством приложений своей клиентской базы. Это также помогает ИТ-администраторам правильно определить размер сервера с адекватными ресурсами, чтобы уменьшить количество серверов, на которые необходимо распределить одну рабочую нагрузку, чтобы повысить эффективность и производительность.
Со временем ценность архитектур CXL будет расширена до стоек, что обеспечит возможность компоновки. Компонуемость — это возможность более гибко распределять соотношение памяти и вычислительных ресурсов на одном или нескольких серверах, поддерживающих одну или несколько рабочих нагрузок. Балансировка ресурсов может быть достигнута за счет расширения памяти, объединения памяти или совместного использования памяти. В стойке подход горизонтального масштабирования позволяет динамически распределять пулы ресурсов (вычислительные, сетевые, память, хранилище и ввод-вывод) с бесшовной интеграцией в соответствии с требованиями приложения. Вычислительные ресурсы, память, сеть и хранилище назначаются приложению или микросервису, когда экземпляр (instance) подключается к сети с помощью программного обеспечения для управления композицией, используя встроенное обнаружение на уровне устройств внутри стойки. Во время пиковых нагрузок приложению могут быть оперативно назначены дополнительные ресурсы для соблюдения соглашений об уровне обслуживания. Когда потребность в рабочей нагрузке приложений снижается, дополнительные ресурсы можно освободить и переназначить другим службам. Совместное использование ресурсов или объединение в пулы обеспечивает более эффективное использование без необходимости избыточного выделения систем, а также означает более высокую производительность, снижение сложности программного стека и снижение общей стоимости системы.
Конечно, всегда будут ограничения на то, сколько общих (и, следовательно, компонуемых) ресурсов будет агрегировано для каждой конкретной рабочей нагрузки, поскольку клиентам необходимо учитывать факторы безопасности и отказоустойчивости, а также проблемы эффективности рабочей нагрузки и использования. Хотя пулы памяти создают ресурсы, необходимые для учета пиковых уровней, 85% организаций требуют, чтобы время безотказной работы составляло 99,99% для соблюдения соглашений об уровне обслуживания (https://www.datacenterknowledge.com/networks/ten-ways-ensure-maximum-data-center-uptime), что необходимо учитывать в пулах памяти внутри стойки, что приводит к некоторой переподписке, даже если используется объединенная подключенная память CXL. Более того, хотя объединение памяти в пулы может облегчить краткосрочные проблемы, связанные с избыточным выделением памяти, необходимо тщательно учитывать сбои расширения пула памяти, чтобы избежать сбоев серверов во всей стойке, а также обеспечить избыточность во избежание простоев.
Одним из подходов, пользующихся популярностью, является создание ресурсных зон или модулей, которые обеспечивают баланс эффективного использования общих ресурсов с необходимостью минимизировать влияние перебоев в обслуживании и обеспечении надлежащей безопасности и соответствия требованиям. Преобразование ресурсов выделенных устройств в ресурсы общего пула и их динамическое распределение не только снижает энергопотребление вычислительного узла, но также улучшает воздушный поток и температурный режим, что приводит к более эффективному охлаждению в стойке, снижению потребности в системах HVAC и дальнейшему снижению энергопотребления центра обработки данных.
Влияние CXL на рост рынка DRAM
Micron ожидает, что CXL поможет поддержать высокий рост числа центров обработки данных на 20% в краткосрочной и среднесрочной перспективе.
Рынок памяти CXL в ближайшем будущем будет зависеть от того, насколько быстро серверные платформы с поддержкой CXL станут доступными для широкой отрасли. Поскольку память CXL является развивающимся рынком, рост памяти на CXL будет очень быстрым, но не окажет огромного влияния на весь рынок DRAM до 2026 года. Группа по исследованию рынка Yole Intelligence прогнозирует, что спрос на DRAM на CXL вырастет до 100 эксабит к 2028 году. По прогнозам Yole Intelligence, биты CXL будут составлять 31% от общего количества битов DRAM на серверах в 2028 году (Yole Intelligence “DRAM Market Monitor Q1 2023”).
В недавнем документе Карнеги-Меллона и Microsoft (https://arxiv.org/abs/2203.00241) обсуждается, как объединение в пулы влияет на экономию совокупной стоимости владения CXL. В документе предлагается решение по объединению пулов на основе CXL, которое приводит к экономии совокупной стоимости владения на 4–5 % за счет снижения требований к памяти для заданного набора гипермасштабируемых рабочих нагрузок на 9–10%. Среднегодовой темп роста битов DRAM в центрах обработки данных (CAGR) остается в диапазоне 20%, что включает в себя влияние CXL. Даже с добавлением пула памяти это окажет небольшое влияние на общий рост DRAM в центре обработки данных. Грубая математика для простого расчета этого эффекта достигается путем умножения снижения на 9–10% на ожидаемый среднегодовой темп роста в 20–30%. Теоретический расчет наихудшего сценария предполагает сокращение на 2-3 процентных пункта из-за объединения. Конечно, этот теоретический сценарий неосуществим, поскольку объединение в пул связано с компромиссом по задержке и требованиями к оптимизации программного обеспечения, а объединение в пул применимо не ко всем рабочим нагрузкам. Во-вторых, применимость и расширение пула ограничены необходимостью обеспечения отказоустойчивости с некоторым уровнем избыточности и риском каскадного распространения сбоя пула памяти на несколько размещенных серверов. Наконец, любое влияние будет смягчено постепенным внедрением CXL. Пул с поддержкой CXL не сможет обратиться к текущей базе установок центров обработки данных, отличных от CXL.
В то время как возможность объединения в пулы с поддержкой CXL может уменьшить пиковые требования к памяти, необходимую для данного набора рабочих нагрузок, пропускная способность памяти с поддержкой CXL увеличит пиковую потребность в памяти, способную справиться с растущим набором ресурсоемких задач с интенсивным использованием памяти и рабочих нагрузок искусственного интеллекта, которые в настоящее время экономически неосуществимы с альтернативами CXL. Эти альтернативы CXL, такие как решения на основе Through Silicon Via (TSV), являются дорогостоящими и сталкиваются с проблемами тепловой плотности и целостности сигнала. Совокупность возможностей расширения памяти и объединения памяти дает чистый положительный результат для роста рынка DRAM.
Влияние CXL на доходы отрасли TAM и финансовая модель Micron
Рост доходов ТАМ для памяти зависит от битов и цены, а цена зависит от баланса спроса и предложения. CXL представляет собой межсетевое решение, и внедрение его технологии само по себе не увеличивает предложение на рынке. CXL сам по себе не должен быть разрушительным фактором для спроса и предложения в отрасли, а ценообразование, как ожидается, будет способствовать росту TAM. В некоторых конфигурациях память, подключенная к интерфейсам CXL, по сравнению со стандартными слотами памяти, является более экономически эффективной, позволяя создавать и развертывать серверные системы в масштабе, который в противном случае превысил бы бюджетные цели. Первые варианты использования CXL связаны с расширением памяти для конфигураций с одним хостом. Расширение памяти восстанавливает баланс между вычислениями и памятью для рабочих нагрузок, связанных с памятью, которые в противном случае были бы распределены между несколькими серверами, и консолидирует память этих серверов в слотах расширения CXL. Новые серверы, поддерживающие CXL 1.1+, появятся на рынке в 2023 году, но в основном будут использоваться в качестве проверки концепции новых решений памяти CXL. Реальное развертывание начнется в конце 2024 года, когда станут доступны серверы с поддержкой CXL 2.0 и дополнительными возможностями расширения памяти, что ознаменует начало увеличения среднего объема содержимого DRAM на сервере. Ожидается, что это станет началом роста доходов от интерфейса CXL, и по прогнозам, в 2025 году этот рынок достигнет $2 млрд.
Расширение ресурсов — это первый шаг в эволюции CXL перед переходом к полной компонуемости и объединению памяти в пулы, которые, как ожидаеся, начнут расти в 2026 году. В 2026 году многие новые серверы будут поддерживать CXL 3.0, и, по прогнозам, рынок серверов вырастет примерно до 21 миллиона единиц (Wheeler’s Network: CXL Chip Market Poised for Rapid Growth, https://www.wheelersnetwork.com/2022/11/cxl-chip-market-poised-for-rapid-growth.html), обеспечивая необходимую поддержку для дезагрегирования. Факторы, которые будут влиять на скорость внедрения пулов памяти, включают коммутаторы CXL и программное обеспечение, которое может обрабатывать многоуровневые пулы памяти и распределять ее между несколькими хостами, чтобы минимизировать задержку. В ближайшем будущем гиперскейлеры станут первыми сторонниками расширения пула памяти. Вполне вероятно, что их рост будет равномерно распределяться между расширением памяти одного хоста и объединением памяти внутри стойки. Micron, а также отраслевой аналитик Yole Intelligence, ожидаем, что к 2030 году объем рынка подключаемой памяти CXL превысит $20 млрд, а рынок памяти для центров обработки данных оценивается в $100 млрд, причем большая часть роста будет наблюдаться после 2025 года (рис. 18).
Рис. 18. Micron – прогноз TAM рынка CXL.
CXL обеспечивает необходимую архитектуру для решения проблемы «стены памяти» и открывает новый вектор для достижения экономичных решений в области памяти за счет расширения памяти. Кроме того, гибкая и масштабируемая архитектура CXL обеспечивает более эффективное использование и операционную эффективность вычислительных ресурсов и ресурсов памяти для масштабирования или масштабирования ресурсов в зависимости от требований рабочей нагрузки. Подключаемая память CXL предоставляет огромные возможности для роста в новых областях многоуровневого хранения памяти и позволяет масштабировать память независимо от ядер ЦП. CXL поможет поддерживать более высокие темпы роста разрядности DRAM, чем мы могли бы видеть без него. CXL это чистый позитив для роста DRAM.
XConn Technologies – первый чип для 32-портового CXL 2.0 /PCIe Gen 5 коммутатора
8 августа 2023 г. компания XConn Technologies (XConn) объявила (https://www.xconn-tech.com/product) о первом и единственном в отрасли гибридном коммутаторе CXL 2.0 и PCIe Gen 5. Коммутатор XConn, сочетающий в себе технологию Compute Express Link™ (CXL™) для центров обработки данных нового поколения и технологию межсоединений Peripheral Component Interconnect Express® (PCIe®) Gen 5, на одной 256-канальной SoC, обеспечивает самую низкую в отрасли port-to-port задержку и минимальное энергопотребление на порт в одном чипе при низкой совокупной стоимости владения (рис. 19).
XC50256 CXL2.0/PCle5.0 switch IC:
– 256 lanes with total 2,048GB/s switching capacity
– Lowest port to port latency
– Low power consumption/port
– Fully compliant with CXL2.0/1.1 and PCIE Gen5
– Support CXL.io, CXL.mem and CXL.cache
– CXL1.1 and CXL2.0 Fabric Manager Interface Support MLD (Multiple Logic Device)
– Multiple virtual CXL switches (VCS)
– Support CXL Type2 and Type 3 memory devices
– Total up to 32 ports with Bifurcation
– Full RAS support (ECC/Parity, DPC, Hot‑Plug, Data Poisoning)
Рис. 19. Чип XConn XC50256 CXL2.0/PCle5.0 для разработки коммутаторов
XConn Technologies отмечает запуск нового революционного коммутатора XC50256 под кодовым названием «Apollo».
Коммутатор Apollo разработан с нуля и специально разработан для приложений искусственного интеллекта (ИИ), машинного обучения (ML) и HPC. Системные дизайны, использующие коммутатор Apollo, могут реализовать объединение памяти и функции расширения CXL с помощью существующего сегодня оборудования CXL 1.1, кроме того, эти дизайны будут проверены на будущее с помощью будущей технологии CXL 2.0. Работая в гибридном режиме, коммутатор поддерживает устройства CXL и PCIe в одной системе. Эта гибкость позволяет поставщикам систем выбирать лучшие компоненты для разработки системы искусственного интеллекта, одновременно обеспечивая плавный переход от PCIe к CXL в гетерогенной вычислительной среде.
XConn также объявила о выпуске коммутатора XC51256, поддерживающего только PCIe Gen 5.0. Благодаря 256 каналам этот продукт является самым плотным коммутатором PCIe Gen 5.0 и предлагает почти вдвое больше линий, чем ближайший конкурент. Этот коммутатор идеально подходит для конфигураций обработки JBOG (Just-a-Bunch-Of-GPU) и JBOA (Just-a-Bunch-Of-Accelerators) и обеспечивает самую низкую в отрасли задержку и мощность, одновременно экономя место на плате для клиентов за счет включения моделей использования. с одним чипом вместо нескольких чипов, необходимых у конкурентов.
Возможности подключения стали ключевым барьером в поддержке пропускной способности памяти и скорости обработки рабочих нагрузок с интенсивным использованием данных, таких как AI/ML и обработка геномики. С помощью Apollo компания XConn преодолевает барьер пропускной способности, почти вдвое увеличивая число коммутационных линий, предоставляемых конкурирующими решениями, и вдвое сокращая задержку между портами и энергопотребление на порт.
Коммутатор Apollo был разработан командой ветеранов межсетевых соединений, которые основали XConn в 2020 году. Обладая многолетним опытом работы в области межсоединений и коммутации центров обработки данных, руководящая команда XConn также состоит из активно участвующих членов Консорциума CXL, Open Compute Project и PCI-SIG. Образцы коммутаторов XConn Apollo XC50256 и XC51256 уже доступны.
Одновременно с объявлением XConn на саммите Flash Memory Summit компании Samsung , MemVerge , H3 Platform и XConn представили (https://memverge.com/samsung-memverge-h3-platform-and-xconn-demonstrate-memory-pooling-and-sharing-for-endless-memory/) систему памяти CXL с пулом емкостью 2 ТБ на базе коммутатора XConn. Система решает проблемы с производительностью, с которыми сталкиваются сильно распределенные приложения AI/ML, которые включают: перераспределение памяти, когда основная память заполнена; чрезмерное копирование памяти; ввод-вывод в хранилище; сериализация/десериализация и ошибки нехватки памяти, которые могут привести к сбою приложения.
Компания Samsung возглавила создание первого в мире модуля памяти CXL. MemVerge разработала Project Endless Memory, первое в мире программное обеспечение для эластичной памяти, которое может масштабировать объем памяти по требованию. Компания XConn поставила первый в отрасли коммутатор CXL, а платформа H3 объединила аппаратные и программные компоненты. Четыре компании совместно разработали монтируемую в стойку систему высотой 2U с объемом памяти 2 ТБ, которую можно динамически распределять между вычислительными хостами для удовлетворения потребностей современных приложений.
Совместно разработанная система памяти CXL с пулом емкостью 2 ТБ, представленная на конференции Flash Memory Summit, включает 8 модулей памяти Samsung CXL емкостью 256 ГБ и коммутатор XConn XC50256 CXL 2.0 с 256 линиями. Платформа H3 интегрировала аппаратное и встроенное ПО в систему, которая может быть подключена к 8 вычислительным хостам. ПО Project Endless Memory от MemVerge бесперебойно работает на аппаратной системе и помогает пользователям визуализировать, объединять, распределять по уровням и динамически распределять память подключенным хостам.
XC50256 — это первая в мире микросхема коммутатора CXL 2.0 и PCIe Gen5. Коммутатор имеет до 32 портов, которые можно разделить на 256 линий с общей коммутационной способностью 2048 ГБ/с и низкой задержкой между портами.
По словам генерального директора XConn Джерри Фана, «Flash Memory Summit — это дебют систем, использующих наш ASIC-коммутатор Apollo. Это поколение систем обеспечит приложениям искусственного интеллекта меньшую задержку и более высокую пропускную способность, чем системы, использующие коммутаторы на основе FPGA».
Совместно разработанную демонстрационную систему можно объединить в пул, распределить по уровням с основной памятью и динамически предоставлять приложениям с помощью программного обеспечения Memory Machine X от MemVerge и ее службы эластичной памяти. Кроме того, служба наблюдения Memory Viewer отображает физическую топологию, а также тепловую карту объема памяти и использования полосы пропускания приложением.
Astera Labs – самые производительные в отрасли контроллеры памяти CXL
19 сентября 2023 г. Astera Labs объявила, что ее платформа Leo Memory Connectivity Platform обеспечивает беспрецедентную производительность серверов центров обработки данных для рабочих нагрузок с интенсивным использованием памяти. Leo — первый в отрасли контроллер памяти Compute Express Link™ (CXL™), который увеличивает общую пропускную способность серверной памяти на 50%, а также снижает задержку на 25% при интеграции с процессором Gen 5 Intel® Xeon® Scalable Processor.
Благодаря новому аппаратному чередованию подключенной CXL и собственной памяти CPU, Astera Labs и Intel исключают любые изменения ПО на уровне приложений для увеличения ресурсов памяти сервера через CXL. Существующие приложения могут легко подключаться по принципу «подключи и работай», чтобы использовать максимально возможную пропускную способность и емкость памяти в системе.
Инновации CXL, предлагаемые Astera Labs и Intel, напрямую устраняют эти узкие места и закладывают основу для облачных, гибридных облачных и корпоративных центров обработки данных для максимизации производительности ускоренных вычислений.
Astera Labs имеет опыт предоставления первых в отрасли решений, которые имеют решающее значение для развития экосистем PCIe и CXL. Помимо повышения производительности памяти с помощью Leo, Astera Labs также обеспечивает лидерство в области совместимости со своими интеллектуальными таймерами Aries PCIe 5.0 / CXL 2.0 на современных серверных платформах Intel. Являясь наиболее широко используемым и проверенным семейством ретаймеров PCIe/CXL в отрасли, Aries имеет режим CXL с малой задержкой, который дополняет Leo, образуя наиболее надежное решение для подключения памяти CXL.
Aurora A-Series CXL Smart Memory
Решение Aurora A-Series CXL Smart Memory в форм-факторе карты расширения (add-in-card) — это готовое предложение Astera Lab для быстрого крупномасштабного развертывания таких сценариев использования, как расширение и объединение памяти с использованием интеллектуальных контроллеров памяти Leo P-Series CXL (рис. 20).
Рис. 20. Решение Aurora A-Series CXL Smart Memory A1000-1P4AA (https://www.asteralabs.com/product-details/aurora-a-series/)
Платформа подключения памяти Leo Memory Connectivity Platform для CXL 1.1 и 2.0 от Astera Labs — это ведущее в отрасли специализированное SoC и аппаратное решение, позволяющее устранить узкие места в пропускной способности и емкости памяти, а также уменьшить объем неиспользуемой памяти на облачных серверах.
Интеллектуальные контроллеры памяти Leo CXL обеспечивают надежное расширение памяти, а также дезагрегированное объединение и совместное использование памяти для процессоров, ускорителей рабочих нагрузок и интеллектуальных устройств ввода-вывода. Leo устраняет необходимость выделения избыточной памяти, тем самым снижая общую совокупную стоимость владения и оптимизируя эффективность ЦП и производительность приложений для вычислительных нагрузок.
Аппаратные решения для интеллектуальной памяти Aurora CXL серии A предлагают все преимущества контроллеров Leo и обеспечивают быстрое развертывание CXL по принципу «включай и работай» с более быстрым выходом на рынок для OEM-производителей систем и центров обработки данных. Портфель платформ Leo CXL Memory Connectivity представлен в табл. 2.
Табл. 2. Портфель платформ Leo CXL Memory Connectivity
Среди поддерживаемых применений: облачные серверы с ресурсоемкими вычислительными нагрузками, такими как искусственный интеллект и машинное обучение; гетерогенные CPU, GPU b серверы-ускорители; вычислительные серверы общего назначения.
Преимущества и особенности интеллектуальных контроллеров памяти Leo CXL:
– специально разработан для развертывания в облачном масштабе, ориентированного на такие рабочие нагрузки, как искусственный интеллект и машинное обучение;
– поддержка опций расширения памяти, объединения и совместного использования памяти для гетерогенных топологий CPU/GPU;
– устройство CXL Type-3, поддерживающее расширение памяти CXL 1.1 и 2.0;
– интерфейс CXL до 32 ГТ/с на полосу, до 16 полос;
– несколько каналов DDRx для увеличения объема памяти до 2 ТБ;
– до 5600 МТ/с на канал памяти для полного использования доступной пропускной способности интерфейса CXL 1.1 и 2.0;
– настраиваемые RAS и программные API серверного уровня для интеграции со службами управления;
– бесшовное взаимодействие со всеми основными поставщиками процессоров, графических процессоров и памяти;
– гибкий и масштабируемый интерфейс памяти с каналом передачи данных с низкой задержкой;
– лучшие в своем классе функции безопасности, обеспечивающие сквозную целостность и защиту данных.
Аппаратные решения для Aurora A-Series CXL Smart Memory обеспечивают следующие преимущества:
– поддержку всех преимуществ и возможностей интеллектуальных контроллеров памяти Leo CXL;
– форм-фактор платы расширения (add-in card) PCIe x16 CEM;
– снижение совокупной стоимости владения за счет более детального обслуживания — можно заменить один неисправный модуль DIMM;
– настраиваемый объем памяти с помощью разъемов DIMM с функцией Plug-and-Play;
– до 4 модулей DDR5 RDIMM с поддержкой до 2 ТБ;
– встроенные разъемы отладки для управления на облачных серверах;
– мониторинг температуры и состояния контроллеров памяти и памяти Leo;
– выявление неисправностей RDIMM и исправление ошибок;
– крупносерийные решения, отвечающие требованиям производства, с надежной цепочкой поставок.
Тестирование
На саммите Flash Memory Summit (FMS, 23 августа 2023 г.) Astera Labs и ее партнеры, MemVerge и Supermicro, были удостоены награды Best of Show за самое инновационное корпоративное бизнес-приложение.
На выставке FMS было продемонстрировано высокопроизводительное решение OLTP (онлайн-обработка транзакций) с памятью, подключенной к CXL. Доказано, что это решение увеличивает пропускную способность транзакций, снижает затраты на инфраструктуру и улучшает взаимодействие с пользователем популярных сервисов, используемых каждый день, таких как службы доставки продуктов, онлайн-бронирование, онлайн-платежи, а также отслеживание и мониторинг заказов.
Существует ряд сценариев использования в корпоративном бизнесе, которые могут извлечь выгоду из дополнительной емкости и пропускной способности памяти, обеспечиваемой памятью, подключенной к CXL. Например, онлайн-покупки.
Повышение производительности базы данных с помощью CXL
Совместное решение, состоящее из гиперсервера Supermicro X13 под управлением MemVerge Memory Machine и нашей платформы подключения памяти Leo CXL для обеспечения памяти, подключенной к CXL (рис. 21, 22).
Рис. 21. Компоненты тестируемого решения (https://www.asteralabs.com/videos/demo-accelerating-database-performance-with-leo-memory-connectivity-platform/).
Рис. 22. Сравнение локальной памяти и локальной памяти + CXL (https://www.asteralabs.com/videos/demo-accelerating-database-performance-with-leo-memory-connectivity-platform/).
Чтобы продемонстрировать возможности совместного решения, мы использовали стандартный тест TPC, который широко используется Oracle и SAP для установления рекордов скорости баз данных. В представленной демонстрации CPU1 был генератором трафика, а CPU0 — базой данных хоста. TPC использовался для моделирования транзакций 1000 клиентов с большой базой данных в памяти, емкость которой превышала емкость локальной памяти ЦП. Демо-версия показала, как база данных высвобождается из локальной памяти, как платформа Leo Memory Connectivity Platform устраняет узкие места в памяти, позволяя разместить больше клиентов, повышает производительность базы данных и сокращает задержки. Это решение снижает затраты на инфраструктуру за счет поддержки большего количества клиентов, которые будут обслуживаться на меньшем количестве серверов, одновременно улучшая качество обслуживания пользователей.
На рис. 23 показано, что по мере увеличения количества клиентов совместное решение способно обеспечить повышение производительности на 250% при увеличении загрузки ЦП всего на 15%.
Рис. 23. Поддержка большего количества клиентов на сервере с помощью CXL (https://www.asteralabs.com/videos/demo-accelerating-database-performance-with-leo-memory-connectivity-platform/).
На рис. 24 также показано, как CXL может улучшить взаимодействие с пользователем, поддерживая большее количество очередей в секунду и одновременно сокращая задержку P95 на 75%. В реальной OLTP-системе взаимодействие с пользователем зависит от качества обслуживания, которое также зависит от других факторов, влияющих на задержку в обоих направлениях.
Рис. 24. Обеспечение лучшего пользовательского опыта с помощью CXL.
Использование платформы подключения памяти Leo дает возможность значительно сократить узкие места, а загрузка ЦП увеличивается за счет большего количества доступной памяти через CXL, что еще больше повышает производительность OLTP.
Источники, доп. ресурсы
[1] SDC2022 – Persistent Memories: Without Optane, Where Would We Be? September 12-15, 2022. Presented by Jim Handy, Objective Analysis and Thomas Coughlin, Coughlin Associates – https://www.youtube.com/watch?v=UpgXOhZSgYU; SDC Website: https://storagedeveloper.org/; SNIA Educational Library: https://snia.org/library.
[2] Migration from Direct-Attached Intel® Optane™ Persistent Memory to CXL™ – Attached Memory, Dec. 2022 – https://semiconductor.samsung.com/us/news-events/tech-blog/what-hyperscalers-need-to-know-about-flexible-data-placement-fdp/.
[3] Path to CXL™ ”Maximizing Business Value for Data Centers. January 2023 (Intel-Optane-Usage-Models-CXL-2023.pptx) – https://www.intel.com/content/www/us/en/content-details/757387/path-to-cxl-maximizing-business-value-for-data-centers.html.
[4] Global Non-Volatile Dual In-Line Memory Module (NVDIMM) Market 2023 by Manufacturers, Regions, Type and Application, Forecast to 2029 – https://www.marketresearchreports.com/gir/global-non-volatile-dual-line-memory-module-nvdimm-market-2023-manufacturers-regions-type-and.
[5] GLOBAL DYNAMIC RANDOM ACCESS MEMORY (DRAM) MARKET SIZE & SHARE ANALYSIS – GROWTH TRENDS & FORECASTS (2023 – 2028) – https://www.mordorintelligence.com/industry-reports/dynamic-random-access-memory-market.
[6] Persistent Memory in New Forms and Architectures With CXL. Presented by : Pekon Gupta, SMART Modular Technologies. September 12-15, 2022. SDC2022 – https://www.snia.org/sites/default/files/SDC/2022/SNIA-SDC22-Gupta-Persistent-Memory-New-Forms-and-Architecture-With-CXL.pdf.
[7] SMART Modular Technologies Launches its First Compute Express Link™ Memory Module. Avg. 02 2022 – https://www.smartm.com/media/press-releases/SMART_Modular_Technologies_Launches_its_First_Compute_Express_Link_Memory_Module.
[8] Scaling NVDIMM-N Architecture for System Acceleration in DDR5 and CXL™ – Enabled Systems. Presented by; Arthur Sainio and Pekon Gupta. Persistent Memory + Computational Summit 2022, May 24-25, 2022 – https://www.snia.org/sites/default/files/PM-Summit/2022/PMCS22-Sainio-Gupta-Scaling-NVDIMM-N-Architecture.pdf.
[9] Compute Express Link™ 2.0 White Paper. Nov. 2020 – https://b373eaf2-67af-4a29-b28c-3aae9e644f30.filesusr.com/ugd/0c1418_14c5283e7f3e40f9b2955c7d0f60bebe.pdf.
[10] Micron’s Perspective on Impact of CXL on DRAM Bit Growth Rate. 20.03.2023.
[11] Memory Class Storage is Permanently Changing Server Architectures. 30 sept. 2022 – https://www.nantero.com/wp-content/uploads/NRAM-White-Paper-4-1.pdf.
[12] Persistent Memory for Artificial Intelligence. Bill Gervasi, Principal Systems Architect, 2018 – https://www.nantero.com/wp-content/Documents/20180803_nantero_ai_persistent_memory.pdf.
[13] Insight into CXL 2.0 Security Features and Benefits. Updated: Nov 10, 2022. By Sandeep Dattaprasad, Astera Labs.
[14] Emerging Memory Technology on CXL™. WSOS 2023, Andy Rudoff, Intel Labs – https://www.betriebssysteme.org/wp-content/uploads/2023/05/WSOS_2023_Rudoff.pdf.
[15] Compute Express Link (CXL) 3.0 Announced: Doubled Speeds and Flexible Fabrics, by Ryan Smith on August 2, 2022 – https://www.anandtech.com/show/17520/compute-express-link-cxl-30-announced-doubled-speeds-and-flexible-fabrics.
[16] An Introduction to the Compute Express LinkTM (CXLTM) Interconnect. Debendra Das Sharma Intel, Robert Blankenship Intel, Daniel S. Berger Microsoft Azure – https://arxiv.org/ftp/arxiv/papers/2306/2306.11227.pdf.
Авторы: Гантимуров А.П., Калашник А.Г.
Отслеживать