12 декабря, 2023

PavelS

SmartNIC, DPU, IPU (часть 2)

32 минуты

1154

#Хештеги

#BAUMSTORAGE#NVMEoF/FC#Архитектура#ИИ#Программирование#Протоколы#Разработка#Системное администрирование#СистемныйАнализ#Технологии

Broadcom

Broadcom Stingray PS1100R SmartNIC

В августе 2018 г. Broadcom представила (https://www.broadcom.com/company/news/product-releases/40966) первый в отрасли программируемый адаптер хранения данных 100G с поддержкой стандартов NVMeoF over RoCEv2/v1 (RDMA over Converged Ethernet) и NVMe/TCP.

Адаптер Stingray™ PS1100R 100G PCIe предназначен для приложений хранения NVMe™ over Fabrics (NVMe-oF™), подключенных к Ethernet. Плата адаптера PS1100R представляет собой готовое решение для хранения данных с поддержкой коммутационной сети для устройств следующего поколения Just a Bunch of Flash (JBOF) и Bunch of Flash, подключаемых к коммутационной сети (FBOF).

Stingray SoC предлагает значительные преимущества за счет интеграции хорошо зарекомендовавшего себя на рынке сетевого адаптера Broadcom 100G NetXtreme^® Ethernet; восьми высокопроизводительных 3 ГГц 64-разрядных ядер ARM^® v8 Cortex^®-A72; аппаратных ускорителей для криптографической защиты, RAID и Dedup, а также подключения PCIe Gen 3.0. Такой высокий уровень интеграции SoC сводит к минимуму общее энергопотребление и площадь чипа по сравнению с многочиповыми решениями. Открытая и легко программируемая архитектура Stingray на основе ARM обеспечивает гибкую программно-определяемую плат форму. Изготовленный по 16-нм техпроцессу FinFET+, Stingray обеспечивает высокую доступную производительность процессора A72, обеспечивая революционное ускорение данных и производительность хранения в компактном форм-факторе (рис. 1).

Рис. 1. Компоненты Broadcom Stingray (https://nvme.smb-solution.ru/broadcom-ps1100r/).

Основные характеристики и преимущества:

высоко оптимизированный целевой адаптер хранилища 100G Ethernet NVMe-oF (общедоступные варианты 25/50/100GbE);
производительность 3 млн IOPS;
высокоскоростная обработка пакетов с определенным ускорением и часто программируемой логикой — Broadcom использует свой NetExtreme IP;
контроллеры памяти – двухканальная память DDR4-2400 (например, на PS1100R), обычно с 8 ГБ;
RoCEv2 для доступа к данным с малой задержкой и высокой производительностью ввода-вывода;
NVMe/TCP для простоты развертывания дезагрегированного хранилища в любой сети TCP;
аппаратная разгрузка для RAID/Erasure, дедупликации и безопасности для ускорения работы служб хранения;
ускорители — имеются дополнительные ускорители криптографии, сжатия и такие функции, как RAID 5 XOR и кодирование стирания;
программно-определяемое хранилище на основе восьми высокопроизводительных ядер ARM A72 с частотой 3 ГГц;
стандартный форм-фактор PCIe, поддерживающий JBOF хранилища на основе PCIe;
линии PCIe Gen3 — до 16 линий PCIe Gеn3 с гибким управлением корневым комплексом;
функции безопасности и управления — Arm TrustZone, безопасная загрузка и безопасное хранилище ключей;
запускает собственную ОС отдельно от хост-системы — дистрибутив Linux и компоненты передаются на kernel.org.

«Наша однокристальная система Stingray обеспечивает лучшую в отрасли пропускную способность и количество операций ввода-вывода в секунду при низком энергопотреблении, специально разработанном для использования в небольших форм-факторах адаптеров, таких как стандарт PCIe половинной высоты и половинной длины, — говорится в сообщении Дэна Хардинга (Dan Harding), вице-президента по маркетингу подразделения Compute and Connectivity в Broadcom. – Производственная доступность карты адаптера 100G является важной вехой для Broadcom отрасли в целом, так как это позволяет немедленно развертывать NVMe поверх Fabrics. Программируемость устройства Stingray предоставляет клиентам несколько вариантов транспорта, включая RDMA и TCP, а также возможность развиваться в соответствии с будущими стандартами».

Ниже представлены 2 модели PS1100R PCIe Storage Adapter и 2 модели PS225 PCIe Smart NIC Adapter.

PS1100R PCIe адаптеры для хранения данных (рис. 2):

BCM958804A8041C: один порт 100 Гбит/с с 8 ГБ памяти DDR4и пассивным радиатором;
BCM958804A8040C: один порт 100 Гбит/с с 8 ГБ памяти DDR4и активным радиатором.

Рис. 2. Broadcom Stingray PS1100R (https://www.servethehome.com/wp-content/uploads/2021/05/Broadcom-Stingray-DPU-Example-Q2-2021.jpg).

PS225 PCIe SmartNIC адаптеры (рис.3):

BCM958802A8044C: двухпортовый 25 Гбит/с с 4 ГБ памяти DDR4;
BCM958802A8048C: двухпортовый 25 Гбит/с с 8 ГБ памяти DDR

Рис. 3. Broadcom Stingray PS225 PCIe SmartNIC [1].

Stingray™ PS225 2Ч25-Gb High-Performance Data Center SmartNIC

Плата Broadcom^® Stingray™ PS225 SmartNIC специально разработана для предоставления решений в развивающемся центре обработки данных. Плата объединяет мощные сетевые и обрабатывающие подсистемы для приложений SmartNIC, включая ускорение плоскости данных и программно-определяемое хранилище (SDS), включая NVMe-over-Fabrics (NVMe-oF). PS225 разработан в низкопрофильном форм-факторе половинной длины для серверных приложений половинной и полной высоты.

PS225 SmartNIC оснащен высокопроизводительной SoC для центра обработки данных Stingray, которая включает в себя усовершенствованный сетевой контроллер 100G NetXtreme® ESeries, высокопроизводительный блок ЦП ARM, интерфейс PCI Express (PCIe) 3.0 x8, ключевые ускорители для разгрузки вычислений и высокоскоростная подсистема памяти, включающая кэш-память L3 и интерфейсы DDR4 — все они связаны между собой целостной структурой Network-on-Chip (NoC).

Сетевой интерфейс основан на технологии контроллера NetXtreme последнего поколения, обеспечивающей высокую скорость передачи пакетов и низкую задержку. Поддержка стандарта NVMe-oF включена в RoCE (RDMA через Converged Ethernet) v1 и v2, а также в TCP и других транспортных средствах, обеспечивая перспективную и масштабируемую платформу для развертывания дезагрегированного хранилища в различных топологиях. Мощный настраиваемый ускоритель потоков TruFlow™ добавляет мощные аппаратные возможности проверки и обработки пакетов, перемещая обычные рабочие нагрузки по потоковой обработке на аппаратное обеспечение и освобождая ЦП для рабочих нагрузок приложений. Подсистема ЦП ARM состоит из восьми ЦП ARMv8 CortexA72 с тактовой частотой 3,0 ГГц, расположенных в многокластерной конфигурации.

В интерфейсе PS225 Ethernet используется многоскоростной SerDes PHY, общий для микросхемы коммутатора Broadcom, подключенный к двум разъемам SFP28 для обеспечения двухпортового подключения 25 Гбит/с. Интерфейс поддерживает прямое подключение оптических модулей или кабелей DAC (прямое подключение медных кабелей).

Семейство продуктов Stingray поддерживается комплексным комплектом для разработки программного обеспечения, обеспечивающим полный готовый дистрибутив Linux, а открытая модель программирования позволяет портировать и разрабатывать приложения с минимальными усилиями. Платформа использует стандартные инструменты и библиотеки Linux и стандартные GNU. Все драйверы для Stingray SoC размещены на сайте kernel.org, а все периферийные интерфейсы используют стандартные драйверы устройств.

Ключевые особенности Stingray™ PS225 2×25-Gb High-Performance Data Center SmartNIC:

PCIe NIC in half-height, half-length form factor;
PCIe 3.0 x8 Host Interface;
Stingray data center SoC: eight 64-bit ARM Cortex-A72 cores at 3.0 GHz with 16 MB cache;
Integrated NetXtreme 100GbE NIC;
TruFlow configurable flow accelerator;
RoCE v1/v2 support;
SR-IOV support;
4, 8, or 16 GB of onboard dual-channel DDR4 memory;
100 Gb/s cryptography engine with single-pass hashing and encryption/decryption;
100 Gb/s RAID5, RAID6, and erasure engine;
Deduplication (De-Dup) including Rabin Fingerprint, SHA, and MD5;
Secure boot;
Secure key storage;
ARM TrustZone;
Public Key Acceleration (PKA) engine.

Функциональность Broadcom Stingray может расширяться на базе SPDK (Storage Performance Development Kit, https://spdk.io/).

На рис. 4 показано использование Broadcom Stingray PS1100R 100GbE Storage Adapter компании Broadcom в сети хранения NVMe-oF в качестве контроллера FBOF. Коммутация может осуществляться, например, на базе встроенного чипа Broadcom PEX9700 или на базе коммутационного адаптера – P411W-32P.

Рис. 4. Использование Stingray PS1100R 100GbE Storage Adapter в сети хранения NVMe-oF в качестве контроллера FBOF (https://nvme.smb-solution.ru/broadcom-ps1100r/).

Доступность Broadcom Stingray SmartNIC в настоящее время требует уточнения.

P411W-32P PCIe 4.0 NVMe Switch Adapter

В портфеле Broadcom представлен P411W-32P PCIe 4.0 NVMe Switch Adapter (https://www.broadcom.com/products/storage/nvme-switch-adapter/pcie-gen-4-switch-adapter/p411w-32p). Broadcom P411W-32P — это первый в отрасли полностью управляемый коммутатор NVMe Gen 4.0, обеспечивающий возможности корпоративного класса для требований к подключению твердотельных накопителей NVMe (SSD). P411W-32P использует первоклассную конструкцию платы Broadcom, микросхему коммутатора PEX88048 PCIe Gen 4.0 и солидный опыт работы с микропрограммами, чтобы обеспечить расширенные функции, недоступные при использовании традиционных методов подключения накопителей NVMe. Как и HBA Broadcom, адаптер P411W-32P поставляется с полностью проверенным и поддерживаемым микропрограммным обеспечением и стандартами, основанными на функциях внешнего управления (рис. 5).

Рис. 5. P411W-32P PCIe 4.0 NVMe Switch Adapter.

Адаптер-коммутатор Broadcom^® P411W-32P NVMe PCIe 4.0 (номер модели 50054) обеспечивает высокопроизводительное подключение к системам хранения для серверов и рабочих станций. Адаптер использует коммутатор PEX88048 PCIe 4.0, который поддерживает интерфейс x16 PCIe 4.0, 16 ГТ/с для хост-системы с 32 портами PCIe 4.0 16 ГТ/с для подключения устройств NVMe.

Особенности Broadcom^® P411W-32P:

поддерживает 32 линии PCIe 4.0, которые можно настроить как порты x4, x2 и x1 для подключения NVMe;
поддержка 16-канального хост-интерфейса PCIe 4.0;
поддерживает скорость соединения PCIe 16 ГТ/с;
имеет четыре внутренних разъема x8 Slimline (SFF-8654);
соответствует сигнализации боковой полосы SFF-9402;
предлагается с полнопрофильным кронштейном и низкопрофильным вентилируемым кронштейном;
оснащен одним светодиодным индикатором пульса и одним светодиодным индикатором состояния системной ошибки;
соответствует спецификации SFFTA-1005 для универсального управления базовой платой (UBM).

PCIe — это стандартная высокоскоростная локальная шина для двухточечного взаимодействия компонентов ввода-вывода с процессором и подсистемами памяти в высокопроизводительных компьютерах и серверах. Коммутатор PEX88048 обеспечивает функциональность PCIe для адаптера. Коммутатор PEX88048 подключается непосредственно к шине PCIe и генерирует синхронизацию и протокол в соответствии со спецификациями PCIe.

Адаптер поддерживает 16-канальный PCIe 4.0 с производительностью 16 Гбит/с до 256 Гбит/с в одном направлении и 512 Гбит/с в двух направлениях. Каждый порт поддерживает скорость PCIe до 16 Гбит/с в каждом направлении.

Операционная система и поддержка драйверов

Адаптеру не требуется драйвер для работы или связи с подключенными дисками NVMe. Диски изначально представлены хосту и используют собственные драйверы NVMe.

Следует использовать inbox драйвер FusionMPT™ SAS для обновлений встроенного ПО. Следующие операционные системы поддерживают входящий драйвер FusionMPT SAS:

Microsoft Windows;
VMware vSphere/ESXi;
Red Hat Enterprise Linux;
SuSE Linux;
Ubuntu Linux;
Citrix XenServer;
CentOS Linux;
Debian Linux;
Oracle Enterprise Linux;
Fedora;
FreeBSD.

Управление объединительной платой (backplane)

Адаптер поддерживает спецификацию отраслевого стандарта SFF-TA-1005 Specification for Universal Backplane Management (UBM) и обеспечивает следующие основные функции:

сообщает о возможностях объединительной платы, включая следующие:
- ширина диска NVMe;
- максимальные скорости;
- поддержка двух портов;
- поддержка включения и отключения питания привода (PWDIS, power enable and disable);

поддерживает независимость от порядка кабелей: управление светодиодным индикатором диска и идентификатор слота не зависят от порядка кабеля;
обеспечивает вставку диска в горячем режиме за счет управления синхронизацией PERST#.

Объединительные платы на базе SF-FTA-1005 (UBM)

Объединительные платы, использующие SFF-TA-1005 (UBM), автоматически сообщают адаптеру номер слота. Для получения дополнительной информации см. спецификацию SFF-TA-1005. Из-за этой автоматизации не существует особых требований к порядку кабелей между адаптером и разъемами объединительной платы.

В большинстве объединительных плат используются разъемы x4 или x8, обращенные к хосту. Каждый разъем x8 имеет сторону «A» и сторону «B». Используйте один контроллер UBM для каждого разъема, чтобы максимизировать гибкость кабеля. На рис. 6 показана объединительная плата, в которой используются разъемы x8 с одной целью UBM для каждого разъема. Красная линия указывает на подключение I²C шины.

Рис. 6. Backplane c x8 коннекторами.

Чипы-коммутаторы серий PEX88000/PEX9700 (управляемые PCIe-коммутаторы на основе технологии ExpressFabric^®)

Broadcom, лидер в области коммутации PCI Express с более чем 1 млрд поставленных портов, продвигает эволюцию подключения к центрам обработки данных с помощью ведущего в отрасли семейства коммутаторов PCIe Gen 3.0 и Gen 4.0 и нового решения PCIe Gen 4.0 retimer.

Для удовлетворения потребностей приложений, интенсивно использующих данные, и гипермасштабных вычислений современным облачным вычислениям и центрам обработки данных требуются решения, обеспечивающие максимальную производительность при минимальном энергопотреблении. Хотя вычислительные устройства и устройства хранения данных имеют встроенный интерфейс PCIe для внутренней связи, все они используют разные технологии, такие как Ethernet или InfiniBand, для внешнего подключения. Новая серия коммутаторов PEX88000 PCIe Gen 4.0 идеально подходит для машинного обучения, искусственного интеллекта, конвергентных серверов, систем хранения и систем ввода-вывода с использованием PCIe (рис. 7).

Рис. 7. Примеры топологий использования чипов PEX88000 для построения мультихостовых AI/ML-систем.

Это новое семейство PEX88000 PCIe Gen 4.0 основано на семействе коммутаторов Broadcom серий PCIe Gen 3.0 PEX9700 и PEX8700. Эти коммутаторы могут значительно повысить производительность и доступность. Коммутаторы PCIe Gen 4.0 и Gen 3.0 существенно снижают внутреннюю задержку и энергопотребление, вызванные компонентами, необходимыми для преобразования данных хоста PCIe для других протоколов. Результатом стала стойка устройств, объединенных в единое высокопроизводительное, масштабируемое и высокодоступное вычислительное решение.

Рис. 8. Примеры топологий использования чипов PEX88000 для построения мультихостовых систем и NVMe-апплайнсов.

Чипы-коммутаторы Broadcom PEX9700

Чипы-коммутаторы Broadcom PEX88000/PEX9700 позволяют создавать высокопроизводительные, масштабируемые и экономичные коммутационные сети на основе PCI Express с малой задержкой. Чипы-коммутаторы позволяют совместно использовать ввод-вывод со стандартным SRIOV или многофункциональными возможностями, позволяя нескольким хостам или узлам находиться в одной сети на основе PCIe. Хосты взаимодействуют через туннельное оконное соединение (TWC), специальную возможность связи между хостами с малой задержкой для коротких пакетов (https://docs.broadcom.com/doc/AV00-0327EN).

• Общий ввод-вывод с использованием стандартов

Коммутаторы PEX9700 позволяют совместно использовать виртуальные функции (VF) конечных точек SRIOV (таких как контроллер Broadcom MegaRAID^® SAS) и назначать их нескольким хостам одновременно. Каждый хост может перечислить назначенные ему функции, используя стандартное программное обеспечение BIOS и ОС, и использовать их с не модифицированными драйверами, предоставленными поставщиком. Использование стандартного системного программного обеспечения минимизирует затраты на поддержку программного обеспечения.

• Программно-определяемая фабрика

Коммутаторы построены на гибридной аппаратно-программной платформе, которая обеспечивает широкие возможности настройки и гибкость в отношении количества хостов, конечных точек и слотов PCIe. Критические пути имеют прямую аппаратную поддержку, что позволяет фабрике предлагать неблокирующую производительность на скорости линии с такими функциями, как совместное использование ввода-вывода. Решение дополняется процессором управления, который взаимодействует с управлением платформой через API и/или интерфейс командной строки. Решение предлагает инновационный подход к настройке и управлению, используя внешний центральный процессор управления (mCPU) для инициализации коммутатора PEX9700, настройки таблиц маршрутизации, обработки ошибок, событий горячего подключения и расширения возможностей решения, без модификации системного ПО.

• Tunneled Window Connection (TWC)

TWC позволяет отправлять короткие сообщения с одного хоста на другой с очень малой задержкой и без накладных расходов, связанных с DMA.

• Сдерживание нисходящего порта (DPC/eDPC)

Большинство серверов с трудом обрабатывают серьезные ошибки, особенно когда конечная точка PCIe исчезает из системы. DPC/eDPC позволяет отключить нисходящий канал после неисправимой ошибки, что делает возможным контролируемое и надежное восстановление.

• Гибкие топологии

Коммутаторы PEX9700 устраняют топологические ограничения PCIe. Коммутатор поддерживает другие топологии, такие как сетка, блок расширения ввода-вывода с несколькими хостами и многие другие.

При этом компоненты остаются архитектурно и программно совместимыми со стандартом PCIe.

• Улучшенная изоляция SSC

Коммутаторы предлагают несколько механизмов поддержки много тактовых доменов, включая синхронизацию с расширенным спектром; устраняя необходимость передачи общих часов через объединительную плату. В дополнение к стандартному подходу Avago к проблеме теперь доступен новый подход PCI-SIG под названием SRIS (Separate Refclk Independent SSC Architecture).

• Приложения

Продукты, основанные на технологии ExpressFabric, могут помочь предоставить решение для проектирования гетерогенной системы с требованием гибкого сочетания процессоров, элементов хранения и коммуникационных устройств.

• Кластеры высокопроизводительных вычислений (HPC)

HPC-кластеры состоят из высокопроизводительных процессорных элементов, которые обмениваются данными через каналы с высокой пропускной способностью и малой задержкой для выполнения таких приложений, как обработка медицинских изображений, финансовая торговля, хранение данных и т.д.

Коммутаторы PEX9700 можно использовать в приложениях коммутационной фабрики для кластеризации высокопроизводительных вычислений. Подсистемы обработки могут быть подключены к фабрике PCIe при выполнении одного и того же прикладного программного обеспечения. Кластеризация на основе коммутатора PCIe устраняет необходимость в дорогостоящих устройствах для соединения протоколов, что приводит к снижению затрат и энергопотребления. Системы кластеризации могут быть построены с совместным использованием ввода-вывода в качестве дополнительной встроенной возможности, когда это необходимо.

• Комплект для разработки программного обеспечения (SDK)

SDK для серии PEX9700 включает драйверы, исходный код и интерфейсы с графическим интерфейсом, помогающие в настройке и отладке. Как performancePAK™, так и visionPAK™ являются эксклюзивными продуктами Avago и поддерживаются их RDK и SDK, которые являются самыми передовыми в отрасли комплектами для разработки аппаратного и программного обеспечения.

• performancePAK

PerformancePAK — это набор уникальных и инновационных функций повышения производительности, которые позволяют коммутаторам Avago Gen 3 быть самыми производительными коммутаторами на современном рынке.

• visionPAK

visionPAK — это набор интегрированных аппаратных и программных инструментов для диагностики отладки, который позволяет пользователям быстрее выводить свои системы на рынок.

Marvell

В конце июня 2021 г. компания Marvell представила [2] свой новый продукт OCTEON^® 10 DPU (доступность – 2H2021, рис. 9), предназначенный для ускорения и обработки широкого спектра рабочих нагрузок, связанных с безопасностью, сетью и хранением данных, необходимых для ресурсоемких приложений 5G, облачных вычислений, операторов связи и корпоративных центров обработки данных. С ростом переноса рабочих нагрузок в облако, сложными требованиями к безопасности и растущим числом периферийных устройств спрос на вычисления, ориентированные на данные, ускорился. Сочетая вычислительные ресурсы с лучшими в своем классе аппаратными ускорителями, процессор Marvell OCTEON 10 DPU обеспечивает значительное преимущество в совокупной стоимости владения и является новшеством в отрасли. Обеспечивая в три раза более высокую производительность и на 50% более низкое энергопотребление по сравнению с предыдущими поколениями OCTEON, недавно анонсированное решение является первым, разработанным на основе 5-нм техпроцесса с использованием Arm^®Neoverse ™. Ядра N2, а также первое встроенное аппаратное ускорение искусственного интеллекта/машинного обучения (AI/ML), первый интегрированный 1-терабитный коммутатор и первый аппаратный ускоритель векторной обработки пакетов (VPP).

Рис. 9. Marvell OCTEON^® 10 DPU.

«Чтобы удовлетворить и превзойти растущие требования к обработке данных для рабочих нагрузок сети, хранилища и безопасности, Marvell сосредоточилась на значительных инновациях DPU для вычислений, аппаратных ускорителей и высокоскоростного Ввода-вывода», — сказал Джон Сакамото (John Sakamoto), вице-президент подразделения Infrastructure Processors Business Unit, Marvell. – OCTEON 10 обеспечивает лидерство в области вычислений, поддерживает сетевые и защитные рабочие нагрузки, превышающие 400G, и включает в себя передовые системы ввода вывода, включая DDR5 и PCIe 5.0».

«Мы хотели бы поздравить Marvell с выпуском ведущего в отрасли семейства DPU OCTEON 10. Тесно сотрудничая с лидерами отрасли, такими как Marvell, Samsung предоставляет широкий спектр мощных решений 5G, отвечающих разнообразным потребностям операторов мобильной связи», — сказал Сунг-Вон Ли (Sung-Won Lee), вице-президент по сетевому бизнесу в Samsung Electronics. – Вместе с нашими партнерами по экосистеме Samsung продолжит разрабатывать и продвигать мобильные технологии, чтобы запустить следующий этап 5G, который повысит качество мобильных приложений».

«DPU Marvell OCTEON 10 предлагают расширенные возможности обработки пакетов для анализа, классификации и встроенного IPSec», — сказал Дэниел Ньюман (Daniel Newman), партнер-основатель Futurum Research. – Что делает Marvell OCTEON 10 DPU захватывающим, так это новые инновационные аппаратные ускорители, встроенные для удовлетворения потребностей во встроенном машинном обучении и векторной обработке пакетов, а также коммутатор на 1 терабит».

«Сегодня для обработки потока данных, генерируемых из облака на периферийные устройства, требуется значительный объем вычислений, — сказал Крис Берджи (Chris Bergey), старший вице-президент и генеральный менеджер подразделения Infrastructure Business, Arm. – Сочетание передовой 5-нм технологии, ядер Neoverse N2 и OCTEON 10 позволит Marvell справляться со сложными рабочими нагрузками и продемонстрировать свои сильные стороны в вычислениях DPU».

В отличие от других решений DPU, которые ограничены вариантами использования в центрах обработки данных, OCTEON 10 от Marvell масштабируется для обслуживания самых требовательных гипермасштабируемых облачных рабочих нагрузок, центров обработки данных операторов и предприятий, беспроводного транспорта 5G, SDWAN и даже без вентиляторных сетевых периферийных устройств. Чтобы обеспечить лучшую в своем классе мощность и производительность для этих приложений, каждое устройство OCTEON 10 сочетает в себе оптимальное сочетание вычислительных ресурсов, аппаратного ускорения, пропускной способности канала передачи данных и ведущих в отрасли операций ввода-вывода, включая PCIe 5.0 и DDR5.

Семейство SDK OCTEON 10 — это открытая платформа, использующая экосистему Arm. Поддержка SDK включает в себя стеки сетей, безопасности и хранения, комплексные расширения DPDK и VPP, а также поддержку виртуализации и контейнеров. Доп. инфо: https://www.marvell.com/products/data–processing–units.html.

Платформа Marvell OCTEON^® 10, построена на основе семи поколений первых в отрасли (рис. 10), наиболее масштабируемых и широко распространенных процессоров инфраструктуры данных, включают в себя широкий спектр встроенных аппаратных ускорителей и оптимизированы для облачных центров обработки данных с искусственным интеллектом и корпоративных сетей.

Рис. 10. Поколения платформы Marvell OCTEON^®.

Особенности DPU Marvell OCTEON 10:

первый в отрасли 5-нм DPU, который включает в себя ядра ArmNeoverse N2, обеспечивающие в 3 раза более высокую вычислительную производительность и на 50% меньшее энергопотребление по сравнению с предыдущими поколениями OCTEON;
инновационные аппаратные ускорители для встроенного машинного обучения/ИИ обеспечивают 100-кратный прирост производительности по сравнению с программным логическим выводом;
аппаратный ускоритель на основе VPP увеличивает скорость обработки пакетов более чем в 5 раз (рис. 11);
встроенный 1-терабитный коммутатор, настоящая встроенная криптография и программируемая обработка пакетов (рис. 12);
поддержка Datapath более 400G;
DPU обеспечивает высокоскоростное подключение с помощью усовершенствованных интерфейсов, включая DDR5, PCIe0 и высоко оптимизированный 56GSerDes, проверенный на базе кремния;
поддержка более 20М IOPS c NVMe SSD.

Рис. 11. Векторный ускоритель обработки пакетов (Vector packet processing, VPP) Marvell OCTEON^® 10.

Рис. 12. Интегрированный 1 Тбит/с коммутатор с 16 МАС-адресами Marvell OCTEON^® 10.

В семействе DPU Marvell OCTEON^® 10 четыре модели: CN103XX, CN106XX, CN106XXS и DPU400 (рис. 13). При этом потребляемая мощность старшей модели – 60 Вт. Максимальные показатели производительности DPU Marvell OCTEON^® 10 (рис. 14):

Compute: 1000+ SPECint;
Ethernet ports: Up to 400GE;
Datapath: 400G+;
Storage: 20M+ IOPS;
AI/ML: 100’s TOPS;
Security: 400G+ of IPSEC и SSL.

Рис. 13. Семейство моделей DPU Marvell OCTEON^® 10.

Рис. 14. Максимальные показатели производительности DPU Marvell OCTEON® 10 при облачных и дацентр-применениях.

DPU OCTEON^® 10 Machine Learning

Интегрированный ускоритель логических выводов одно из самых значительных нововведений в DPU OCTEON^® 10, который может быть использован для самого широкого круга применений (рис. 15) [3].

Рис. 15. Ускоритель логических выводов на структурной схеме DPU Marvell OCTEON^® 10.

За последнее десятилетие предприятия начали перемещать рабочие нагрузки и доступ за пределы этой контролируемой среды в общедоступные, частные и гибридные сети, доступ к которым осуществляется как через проводные, так и все чаще через беспроводные сети связи.

Сочетание удаленного доступа, стремления снизить затраты и модернизировать услуги, а также расширения возможностей облачной сети привело к созданию цифрового рабочего места без границ (или без периметра) и значительно изменило динамику создания и управления подключением и доступом. Эта дезагрегация ресурсов центра обработки данных открыла возможности для добавления в облако ускорителей для этих рабочих нагрузок, так называемых ускорителей рабочих нагрузок. В дополнение к сети и безопасности в список вариантов использования инфраструктуры были добавлены новые рабочие нагрузки для хранения, видео и 5G, каждый из которых требует ускорения рабочей нагрузки. И, наконец, возможность логического вывода на основе машинного обучения может дополнить эти рабочие нагрузки обнаружением аномальных ошибок, улучшениями безопасности и качества, а также глубоким анализом приложений. Эти возможности должны быть реализованы в комплексной оптимизированной программной среде с открытым исходным кодом.

Интегрированный логический вывод

Встроенный ML-процессор логического вывода в OCTEON 10 DPU может быть запрограммирован полностью рабочими нагрузками ML, либо как гибридная разгрузка для ускорения ядер ARM Neoverse N2. Ядра Armv9 Neoverse N2 включают оптимизированные векторные инструкции для рабочих нагрузок машинного обучения, что обеспечивает гораздо более высокую производительность по сравнению с процессорами Arm предыдущего поколения. Эта гибридная интегрированная возможность логического вывода устраняет другое необходимое вычислительное оборудование в сети, выполняющее задачи машинного обучения в автономном режиме или в режиме, близком к реальному времени, и переводит задачи в режим реального времени.

Встроенная функция логических выводов устраняет дополнительное перемещение данных между сетевыми узлами, значительно сокращая задержку логических выводов и снижая требования к мощности и сети. Она открывает двери для приложений, требующих полного присутствия машинного обучения на OCTEON 10 либо в виде «голого железа», либо в виртуальных машинах и контейнерах. Ускоритель логического вывода машинного обучения OCTEON 10 включает в себя запатентованную технологию, обеспечивающую лучшую в своем классе производительность на ватт, и все это в простом в использовании открытом программном пакете.

Интегрированные ML-нагрузки для логических выводов

Встроенная функция логического вывода приносит пользу инфраструктурным рабочим нагрузкам в различных вертикалях. Вот некоторые примеры.

• Сеть

Ускорение вывода ML можно применять к программным реализациям традиционного сетевого оборудования при коммутации, туннелировании и периферии, а также для предоставления рекомендаций, связанных с показателями качества и телеметрии (джиттер, задержка, надежность) сетевого трафика. Сетевые функции выиграют от использования машинного обучения в сочетании с управлением трафиком, пакетной обработкой пакетов и ускорителями планирования в тракте данных OCTEON 10.

• Безопасность

Распределенная обработка и мультисервисные облачные приложения требуют анализа трафика (DPI, QoE, TM), безопасности (брандмауэры, IDS/IPS) и видимости сети для обеспечения оптимального отображения потоков данных — идеальные цели для интегрированного аппаратного ускорителя логического вывода. Использование программного DPI в сочетании с ML для выявления вредоносных потоков трафика может быть использовано для обнаружения злоумышленников в сети, а также применения ML к анализу трафика сетевых функций для определения SLA трафика в отношении полосы пропускания, задержки, сбоев и джиттера, интересующие случаи.

• Хранилище

Третий класс ускорителей инфраструктуры — это хранилище, неразрывно связанное с качеством обслуживания в сети, за счет выбора методов шифрования и сжатия для данных в состоянии покоя и данных в движении. Основываясь на использовании ресурсов хранения, блок логического вывода может принять решение о выборе типов шифрования и сжатия, маркировке блоков хранения и размещении данных в горячих, теплых и холодных областях хранения. Этот аппаратный интегрированный ускоритель логических выводов наряду с более чем 3-кратной вычислительной производительностью Neoverse N2 (по сравнению с A72) помогает поддерживать устаревшие программные приложения для хранения данных, а также новые варианты использования вычислительных хранилищ для периферийных развертываний.

• 5G/Edge

5G открывает новый класс разгрузок DPU, для которых машинное обучение предлагает: массовую оценку канала MIMO, определение спектра, распределение ресурсов, принятие решений в неизвестных условиях сети — вот некоторые из актуальных вариантов использования. Машинное обучение в качестве микросервиса на периферии — это еще один вариант использования для мониторинга, наблюдения и самовосстановления сети, где оптимизированный по мощности OCTEON 10 DPU с полностью контейнеризированным программным обеспечением для виртуализации может подойти для роли, где комбинация CPU, DPU, GPU выполняются в одном устройстве.

Программное обеспечение для машинного обучения

Аппаратное обеспечение для машинного обучения полезно ровно настолько, насколько полезно работающее на нем программное обеспечение. Программный пакет Marvell для машинного обучения включает высоко оптимизированную цепочку инструментов с широкими возможностями для компиляции и выполнения моделей машинного обучения на процессорах Arm Neoverse N2 и процессоре логических выводов OCTEON 10 ML. Программное обеспечение поддерживает распространенные форматы машинного обучения и открытые платформы компиляции и развертывания (рис. 16).

Рис. 16. Поддерживаемые фреймворки и библиотеки для AI/ML DPU Marvell OCTEON^® 10.

Цепочка инструментов Marvell ML оптимизирована и интегрирована в платформы компиляторов ML, такие как TVM и GLOW. Модели машинного обучения, разработанные в этих средах, можно легко скомпилировать для OCTEON 10 Neoverse N2 и/или процессора вывода ML. Затем эти модели можно развернуть на целевом оборудовании или протестировать и настроить на виртуальных платформах Marvell, включая функциональный и точный эмулятор процессора вывода машинного обучения. Доступны драйверы, которые можно легко интегрировать в существующие приложения, предназначенные для работы в сети.

Marvell^® OCTEON SDK

Процессоры Marvell OCTEON поддерживаются общим SDK с пользовательскими расширениями и хуками для улучшений на уровне ядра (рис. 17) [4].

Рис. 17. SDK DPU Marvell OCTEON^® 10.

Программная платформа обеспечивает единый пользовательский интерфейс для всего портфеля устройств OCTEON последнего поколения и обеспечивает тесную интеграцию с другими кремниевыми продуктами Marvell для создания комплексного решения. Линейка продуктов OCTEON от Marvell занимает лидирующие позиции в различных рыночных вертикалях и рабочих нагрузках и гарантирует, что инвестиции клиентов останутся актуальными для нескольких поколений линеек кремниевых продуктов. Это также гарантирует отсутствие привязки к поставщику или зависимости от частоты обновления аппаратного и пользовательского программного обеспечения.

Процессоры OCTEON обеспечивают высокоэффективное выполнение или рабочие нагрузки для сетей, безопасности, основной полосы частот 5G и приложений пограничной инфраструктуры. Благодаря использованию открытых стандартов и API-интерфейсов OCTEON SDK помогает клиентам беспрепятственно повторно использовать программное обеспечение как на платформах OCTEON, так и на платформах других производителей, включая x86, за счет высокоэффективной разгрузки аппаратного ускорения сети, безопасности, 5G и пограничной инфраструктуры.

Программная платформа поставляется со специфическими расширениями вертикальной рабочей нагрузки для API-интерфейсов управления, управления и пользовательской плоскости, которые могут поддерживать полный набор интегрированных плоскостей управления и данных для независимой архитектуры ЦП, совместимой с «голым железом», а также с виртуализированной облачной реализацией.

Источники, доп. ресурсы

[1] Stingray™ PS225 2×25-Gb High-Performance Data Center SmartNIC (PS225-PB102_2018.pdf).

[2] Marvell Extends OCTEON Leadership with Industry’s First 5nm DPUs. OCTEON 10 Family Integrates Arm Neoverse N2 Cores and Sets Industry Benchmark for Performance and Low Power. June 28, 2021 – https://www.marvell.com/company/news-room/marvell-extends-octeon-leadership-industry-first-5nm-dpu.html.

[3] OCTEON^® 10Machine Learning. White Paper. June 2021 –

https://www.marvell.com/content/dam/marvell/en/public-collateral/embedded-processors/marvell-octeon-10-dpu-platform-white-paper.pdf.

[4] Marvell® OCTEON SDK – https://www.marvell.com/content/dam/marvell/en/public-collateral/embedded-processors/marvell-octeon-tx2-sdk-product-brief.pdf.

Авторы: Гантимуров А.П., Калашник А.Г.

Отслеживать

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Комментарий *

Имя *

Email *

Сайт

Вложение Максимальный размер загружаемого файла: 0 Б. Вы можете загрузить: изображение, аудио, видео, документ, таблица, интерактив, текст, архив, код, другое. Ссылки на YouTube, Facebook, Twitter и другие сервисы, вставленные в текст комментария, будут автоматически встроены. Перетащите файл сюда