Введение
Omni-Path Architecture (OPA) — высокопроизводительная коммуникационная архитектура, принадлежащая Intel. Она ориентирована на низкую задержку связи, низкое энергопотребление и высокую пропускную способность. Intel планировала разработать технологию на основе этой архитектуры для экзафлопсных вычислений (https://en.wikipedia.org/wiki/Omni–Path).
Производство продуктов Omni-Path началось в 2015 году, а поставки этих продуктов начались в первом квартале 2016 года. В ноябре 2015 года были анонсированы адаптеры на базе 2-портовой ASIC «Wolf River», использующие разъемы QSFP28 с канальными скоростями до 100 Гбит/с. Одно временно были анонсированы коммутаторы на базе 48-портовой ASIC «Prairie River». Первые модели этой серии были доступны с 2015 года.
Intel предлагала свои продукты и компоненты Omni-Path через других (аппаратных) поставщиков. Например, Dell EMC предлагала Intel Omni-Path в качестве Dell Networking серии H в соответствии со стандартом именования Dell Networking в 2017 г.
В июле 2019 года Intel объявила, что не будет продолжать разработку сетей Omni-Path, и отменила серию OPA 200 (вариант Omni-Path со скоростью 200 Гбит/с).
В сентябре 2020 года Intel объявила, что сетевые продукты и технологии Omni-Path будут объединены в новое предприятие с Cornelis Networks (https://www.cornelisnetworks.com/products/). Intel продолжит поддерживать устаревшие продукты Omni-Path, а Cornelis Networks продолжит линейку продуктов, используя существующую интеллектуальную собственность Intel, связанную с архитектурой Omni-Path.
Портфолио Cornelis Network Omni-Path основано на инвестициях, сделанных OpenFabrics Alliance, QLogic, Cray Aries и, конечно же, в проекте Intel Omni-Path. В Intel структура Omni-Path была тесно связана с (ныне несуществующей) разработкой Phi (OPA была интегрирована в процессор Phi Knights Landing) и была частью первоначального проекта суперкомпьютера Aurora до экзафлопсного масштабирования (который был переработан как совсем другая машина экзафлопного класса) [7].
Cornelis по-прежнему поставляет продукты Omni-Path 100 Гбит/с (OPA100), разработанные в рамках Intel, и планирует запустить продукты 400 Гбит/с в конце 2022 года, а более широкая доступность намечена на первый квартал 2023 года. Продукт OPA400 будет поддерживать разветвление до 200 Гбит/с.
В дорожной карте Cornelis Omni-Path есть решения со скоростью 800 Гбит/с (рис. 1).
Рис. 1. Дорожная карта развития продуктов Cornelis Omni-Path Express [7].
Термин Omni-Path Express означает расширенная/улучшенная/оптимизированная архитектура Omni-Path (рис. 1а). Прежде всего, это касается расширения стека ПО, который теперь поддерживает гораздо более широкий спектр сред приложений, чем это было возможно с помощью Verbs и PSM2 (с OPA). Поддерживаются популярные реализации MPI, такие как OpenMPI и MVAPICH, модели программирования PGAS с использованием SHMEM и Chapel. Также поддерживаются платформы искусственного интеллекта, такие как TensorFlow и PyTorch, а также файлы хранения объектов. В дополнение к этому существует «общая поддержка» для графических процессоров [7].
Рис. 1а. Расширенный стек ПО Cornelis Omni-Path Express [7].
Omni-Path Express работает на высокооптимизированном хост-программном обеспечении, которое поддерживает интерфейсы OpenFabrics (OFI, https://ofiwg.github.io/libfabric/), разработанные в рамках альянса OpenFabrics Alliance. Альянс описывает OFI как «набор библиотек и приложений, используемых для экспорта сервисов фабрики». В программный стек Omni-Path был добавлен собственный поставщика OFI для обслуживания слоя OFI libfabric. «Целью OFI и, в частности, libfabric, является определение интерфейсов, обеспечивающих плотную семантическую карту между приложениями и базовыми сервисами Fabric», — отмечается в проекте [7].
Семейство продуктов Omni-Path
Cornelis Networks предлагает сети следующего поколения для высокопроизводительных вычислений и приложений искусственного интеллекта. Аппаратное обеспечение Cornelis Networks состоит из высокопрозводительного сетевого решения коммутируемого типа, обеспечивая низкую задержку и высокую скорость передачи сообщений, что является основой производительности и масштабируемости приложений.
Cornelis Omni-Path Express поддерживает широкий спектр промежуточного программного обеспечения и сред, включая Intel MPI, Open MPI, MPICH, MVAPICH2, SHMEM, GasNet, TensorFlow и многие другие.
Благодаря высокооптимизированной реализации интерфейсов OpenFabrics Cornelis Omni-Path Express обеспечивает поддержку широкого спектра сред приложений с лучшей в отрасли производительностью для критически важных рабочих нагрузок конечных пользователей.
Cornelis Omni-Path Express обеспечивает исключительную производительность для широкого спектра приложений HPC, включая вычислительную гидродинамику, вычислительную химию, молекулярную динамику, геномику, моделирование финансовых рисков, автоматизированное проектирование, прогнозирование погоды, сейсмическую визуализацию и многие другие.
Cornelis Networks предоставляет следующий портфель устройств для интеграции высокопроизводительных вычислений, облачных вычислений и искусственного интеллекта:
- Omni-PathHostFabricInterface (HFI) — две низкопрофильные карты PCIe для оконечных устройств;
- маршрутизатор – CORNELIS™ OMNIPATH EXPRESS™ GATEWAYS CN100GWY;
- 48-портовый коммутатор 1U для монтажа в стойку;
- два полностью интегрированных коммутатора «директорскогокласса» для более крупных развертываний – 288 портов в 7U и 1152 порта в устройстве 20U;
- Cornelis Omni-Path Express Accelerated Host Fabric Suite.
Cornelis OmniPath адаптеры
Cornelis Networks (на июль 2023 г.) предлагает 2 типа адаптеров – с классической установкой и с поддержкой стандарта Open Compute Project (OCP) 3.0 (рис. 1б).
Рис. 1б. Cornelis Omni-Path Host Fabric Interface адаптеры: 1 Port PCIe x16 Low Profile (вверху) и 100 Series 1 Port PCIe x16 OCP 3.0 SFF Internal Lock (внизу).
Масштабируемый интерконнект
Высокие требования к горизонтально масштабируемым межсетевым соединениям обусловлены достижениями в области искусственного интеллекта, высокопроизводительной аналитики данных и традиционных сред моделирования и симуляции в сочетании с чрезвычайно мощными инфраструктурами обработки и хранения.
Cornelis Omni-Path Express — это следующее поколение высокопроизводительных коммутационных сетей, основанное на проверенной аппаратной основе в сочетании с программной средой OpenFabrics Interfaces (OFI), которая обеспечивает самую низкую в отрасли задержку, самую высокую скорость передачи сообщений и лучшую коллективную производительность, и все это при самой низкой загрузки ЦП в отрасли (https://www.cornelisnetworks.com/products/).
Масштабируемость лежит в основе принципов проектирования Omni-Path. На самых низких уровнях используется технология уровня канала Cray для исправления ошибок канала без влияния на задержку. Это влияет на фабрики любого масштаба, но особенно важно для крупномасштабных фабрик, которые, естественно, испытывают больше ошибок связи. Менеджер фабрик ориентирован как на программирование оптимальных таблиц маршрутизации, так и на быстрое выполнение этого. Это гарантирует, что трассировка даже для самых больших фабрик может быть выполнена за минимальное время [3].
Масштабируемость также является важным компонентом OPX. Минимизация использования кэша улучшает масштабируемость на отдельных узлах с большим количеством ядер. Минимизация задержки также улучшает масштабируемость за счет сокращения времени выполнения коллективных алгоритмов.
Использование hostfabric интерфейса управления ресурсами позволяет каждому ядру взаимодействовать с большим количеством удаленных одноранговых узлов. Стратегический выбор libfabric позволяет использовать функции программного обеспечения, такие как масштабируемые конечные точки, используя стандартные интерфейсы.
Масштабируемое повышение производительности приложений
Адаптеры Cornelis Omni-Path Express Accelerated Host Fabric обеспечивают идеальное семантическое соответствие между требованиями реальных приложений и масштабируемой структуры, обеспечивая максимальную масштабируемость и производительность по самой низкой в отрасли цене (https://www.cornelisnetworks.com/products/).
Адаптеры обеспечивают оптимальную производительность приложений, предоставляя ключевые функции для повышения эффективности, включая дисперсионную маршрутизацию и контроль перегрузки. Эти функции дополняются уникальной архитектурой подканального уровня, которая обеспечивает защиту целостности пакетов (защита с нулевой задержкой от ошибок передачи битов).
Эти функции вместе с расширенной поддержкой Virtual Fabrics обеспечивают уникальные возможности межсоединений для обеспечения лучшей в отрасли производительности и управляемости приложений в любом масштабе (https://www.cornelisnetworks.com/products/).
Ключевые особенности адаптеров – табл. 1.
Табл. 1. Особенности адаптеров Cornelis Omni-Path.
Преимущества:
– масштабируемое повышение производительности приложений; – лучшее в отрасли соотношение цены и качества; – усовершенствованные возможности подканального уровня, исключающие защиту канала и штрафы за задержку хвоста. Производительность: – 100 Гбит/с в стандартном формате; – хостинтерфейс PCIe x16; – более 160 млн сообщений MPI/сек; – – субмикросекундная задержка MPI. Расширенные возможности: – дисперсная маршрутизация; – защита целостности пакетов; – контроль перегрузки; – поддержка виртуальных фабрик. Высоко оптимизированный дизайн: – самая низкая сквозная задержка в масштабе; – лучшее коллективное производительность; – сбалансированная функциональность между ЦП и сетью с низкой загрузкой ЦП; – поддержка OpenFabrics Alliance (OFA) и интерфейсов OpenFabrics (OFI). |
Cornelis Omni-Path коммутаторы
Пограничные коммутаторы Cornelis Omni-Path Express Edge оснащены сорока восемью портами 100 Гбит/с, обеспечивая полную двунаправленную полосу пропускания для каждого порта (рис. 2).
Рис. 2. Cornelis Omni-Path Edge Switch CN100SWE.
Пограничные коммутаторы Cornelis Omni-Path Express очень универсальны: они являются единственным коммутатором в небольших кластерах, коммутатором первого уровня в более крупных кластерах и ядром сети в промежуточных кластерах.
Пограничные коммутаторы Omni-Path Express обеспечивают оптимальную производительность приложений, предоставляя ключевые функции для повышения эффективности, включая динамическую адаптивную маршрутизацию и контроль перегрузки. Эти функции дополняются уникальной архитектурой подканального уровня, которая обеспечивает защиту целостности пакетов (защита с нулевой задержкой от ошибок передачи битов) и оптимизацию потока трафика (приостановка передачи пакета с более низким приоритетом в пользу пакета с более высоким приоритетом).
Эти функции в сочетании с расширенной поддержкой Virtual Fabric обеспечивают уникальные возможности межсоединений, обеспечивающие лучшую в отрасли производительность и управляемость приложений в любом масштабе.
Ключевые особенности коммутаторов – табл. 2.
Табл. 2. Особенности коммутаторов Cornelis Omni-Path.
Производительность:
– 48 портов 100 Гбит/с в 1U; – совокупная пропускная способность коммутатора 9,6 Тбит/с; – задержка после переключения защиты менее 110 нс. Высоко оптимизированный дизайн: – резервное питание и вентиляторы; – реверсивный поток воздуха; – дополнительное внутреннее управление. Расширенные возможности: – динамическая адаптивная маршрутизация; – защита целостности пакетов; – оптимизация транспортных потоков; – динамическое масштабирование линий (Dynamic Lane Scaling); – контроль перегрузки; – виртуальные фабрики. Функции переключения: – OmniPath Switch Silicon 100 Series 48Port ASIC; – двунаправленная пропускная способность 100 Гбит/с на порт; – виртуальные дорожки: настраивается от одной до восьми виртуальных виртуальных машин плюс одна управляющая виртуальная сеть; – настраиваемый размер MTU: 2 КБ, 4 КБ, 8 КБ или 10 КБ; – максимальный размер таблицы многоадресной рассылки: 8192 записи; – максимальный размер таблицы одноадресной рассылки: 49151 запись; – QSFP28 Quad Small Form Factor подключаемые кабели; – поддерживает пассивные медные и активные оптические кабели. Особенности управления: – агент управления подсетями (SMA, Subnet Management Agent); – агент управления производительностью (PMA, Performance Management Agent); – последовательная консоль через последовательный порт USB; – дополнительные возможности внутреннего управления; – поддержка NTP, SNMP и LDAP; – управление шасси через CLI и GUI; – поддержка FastFabric Toolset и FM GUI. |
Шлюзы Cornelis Omni-Path Express
Шлюзы Cornelis Omni-Path Express предлагают несколько вариантов подключения для обеспечения мостового соединения с сетями Ethernet и фабриками InfiniBand. Системы хранения данных, развернутые с любым интерфейсом, теперь можно легко подключить к коммутационной сети Omni-Path Express HPC/HPDA/AI с помощью экономичного готового устройства. Другие системы с поддержкой Ethernet или InfiniBand также могут использовать эту возможность для подключения к фабрикам Omni-Path Express через шлюз (рис. 3).
Рис. 3. Cornelis Omni-Path Express Gateway.
Решения Cornelis Omni-Path Express для шлюзов Ethernet или InfiniBand
Решение Cornelis Omni-Path Express Gateway с подключением к Ethernet содержит 2 интерфейса 100 GbE для передачи трафика между двумя адаптерами Omni-Path Express Host Fabric (HFA) и с поддержкой до 200 Гбит/с через шлюз. Решения Cornelis OmniPath Express Gateway, подключенные к InfiniBand, предлагаются либо с интерфейсом 2 x 100 Гбит/с EDR, либо с интерфейсом HDR 200 Гбит/с для передачи трафика между двумя HFA Omni-Path Express и с поддержкой до 200 Гбит/с через шлюз. Выберите один из стандартных отраслевых протоколов IP-переадресации и протоколов LNET, чтобы удовлетворить потребности в подключении вашей среды с помощью шлюзов, подключенных к Ethernet или InfiniBand.
Отказоустойчивость легко настраивается на шлюзах Cornelis Omni Path Express Gateways, использующих IP-протоколы с возможностью аварийного переключения порт-порт и шлюз-шлюз. Отказоустойчивость и высокая доступность реализуются с использованием стандартных сетевых протоколов на нескольких шлюзах IP. Точно так же протокол LNET обеспечивает отказоустойчивость и возможности распределения нагрузки в соответствии с системными требованиями.
Cornelis Omni-Path Express Accelerated Host Fabric Suite
Cornelis Omni-Path Express Accelerated Host Fabric Suite предоставляет полный сетевой стек корпоративного класса, включая драйверы хоста на основе OpenFabrics, управление фабрикой, управление элементами, а также администрирование и диагностику кластера. Все они работают вместе, чтобы предоставить администраторам кластера и конечным пользователям детерминированное время установки и настройки, усовершенствованные алгоритмы маршрутизации и возможности отказоустойчивости, мощный мониторинг и диагностику, а также лучшую в отрасли производительность приложений в масштабе, и все это с прицелом на простоту использования.
ПО управления Cornelis Networks
Встроенная платформа управления обеспечивает простую установку и настройку, а также доступ к широкому спектру показателей производительности и конфигурации, создаваемых нашими микросхемами ASIC для коммутаторов.
ПО Cornelis Networks для драйверов разработано как часть ядра Linux. Все программные патчи Cornelis Networks отправляются непосредственно сообществу ядра Linux. Это гарантирует, что все клиенты получают максимальную совместимость с дистрибутивами Linux и простую интеграцию с другим программным обеспечением, таким как Lustre. Наличие встроенного драйвера значительно снижает сложность установки [3].
Диспетчер фабрики Omni-Path (FM) настраивает и маршрутизирует фабрику Omni-Path. Оптимизируя маршруты трафика и обеспечивая быстрое восстановление после сбоев, FM обеспечивает лучшую в отрасли производительность и надежность на фабриках от десятков до тысяч узлов.
Omni-Path Express (OPX) — это высокопроизводительное программное обеспечение для обмена сообщениями, выпущенное в ноябре 2022 года. Оно было специально разработано для уменьшения задержки по сравнению с более ранним программным обеспечением для обмена сообщениями. Была выполнена симуляция путей отправки и получения кода с точностью до цикла, чтобы свести к минимуму количество инструкций и использование кэша – это дало очень хорошие результаты.
ПО Cornelis Networks также интегрировано с OpenFabrics Interfaces (OFI, https://www.openfabrics.org/openfabrics–interfaces/), открытым стандартом, разработанным OpenFabrics Alliance. Модульная архитектура OFI помогает свести к минимуму задержку, позволяя программному обеспечению более высокого уровня, такому как MPI, использовать возможности коммутационной сети без дополнительных вызовов функций.
Суперкомпьютер Stampede3 с процессорами Intel Xeon Max HBM2e и Omni-Path 400 Гбит/с
В конце июля 2023 г. Техасский вычислительный центр (TACC, Texas Advanced Computing Center, Техасский университет в Остине, США) представил [1] свой новый суперкомпьютер Stampede3. Уже более десяти лет системы Stampede — Stampede (2012 г.) и Stampede2 (2017 г.) — являются флагманами научной суперкомпьютерной экосистемы Национального научного фонда (NSF, National Science Foundation). Системы Stampede будут и впредь предоставлять жизненно важные возможности исследователям во всех областях науки.
Ставший возможным благодаря награде в размере $10 млн за компьютерное оборудование от NSF, Stampede3 станет новейшим стратегическим ресурсом для открытого научного сообщества страны, когда он будет запущен в полную силу в начале 2024 года. Он позволит тысячам исследователей по всей стране исследовать вопросы, требующие повышенной вычислительной мощности.
«Мы продолжим наше давнее партнерство с Dell и Intel и будем использовать инвестиции NSF в Stampede2 для этого нового научного ресурса, используя новейшие технологические процессоры с памятью с высокой пропускной способностью, а также делая графические процессоры Intel широко доступными для открытого научного сообщества NSF», — сказал Дэн Станционе (Dan Stanzione), исполнительный директор TACC.
Stampede3 предоставит:
- производительность в 4 петафлопс для высокопроизводительного моделирования: 560 новых процессоров Intel® Xeon® CPU Max Series с узлами с поддержкой памяти с высокой пропускной способностью и почти 63 000 ядер для самых крупных и ресурсоемких вычислительных задач;
- новый графический процессор/подсистему искусственного интеллекта, включая 10 серверов Dell PowerEdge XE9640 и 40 новых процессоров Intel® Data Center GPU Max Series для AI/ML и других приложений, поддерживающих GPU;
- реинтеграцию 224 процессорных узлов Intel Xeon Scalable 3-го поколения для приложений с большим объемом памяти (добавлено в Stampede2 в 2021 г.);
- поддержку высокопроизводительных вычислений на базе более 1000 существующих масштабируемых процессорных узлов Stampede2 2-го поколения Intel Xeon Scalable, которые будут включены в новую систему для поддержки высокопроизводительных вычислений, интерактивных рабочих нагрузок и других небольших рабочих нагрузок;
- новую технологию Omni-Path Fabric 400 Гбит/с, которая обеспечивает высокую масштабируемость производительности благодаря сетевому межсоединению с пропускной способностью объединительной платы 24 ТБ/с, что поддерживает низкую задержку, превосходную масштабируемость приложений и широкие возможности подключения к подсистеме ввода-вывода;
- 1858 вычислительных узлов с более чем 140 000 ядер, более 330 терабайт оперативной памяти, 13 петабайт нового хранилища и пиковая производительность почти 10 петафлопс.
«Stampede3 предоставит сообществу пользователей доступ к узлам ЦП, оснащенным памятью с высокой пропускной способностью, для ускорения работы приложений», — сказала Кэти Антипас, офис-директор Управления передовой киберинфраструктуры NSF. – Кроме того, переход от Stampede2 к Stampede3 будет прозрачным для пользователей, что облегчит переход на новую систему. Я уверен, что это будет популярная платформа для широкого научного и инженерного сообщества».
Проект Stampede3, как и предыдущие системы Stampede, включает в себя больше, чем просто технологии. Stampede3 также будет включать в себя поддержку и обучение пользователей, обучение, документацию, управление данными, визуализацию, поддержку приложений на основе аналитики и совместную работу в исследованиях.
Новая система будет доставлена осенью 2023 года и запущена в серийное производство в начале 2024 года без перерыва в эксплуатации от Stampede2 до Stampede3. Она будет служить сообществу открытой науки с 2024 по 2029 год.
С момента развертывания более 11 000 пользователей, работающих над более чем 3000 финансируемых проектов, выполнили более 11 миллионов заданий по моделированию и анализу данных на Stampede2 за время его эксплуатации.
Тестирование
Пример 1. Масштабирование Ansys® LSDYNA® с помощью Cornelis Omni-Path Express [4]
Высокопроизводительные вычисления (HPC) становятся все более важным инструментом в процессе проектирования во многих секторах производства. Использование инструментов высокопроизводительных вычислений для инженерного моделирования и, в конечном счете, цифровых двойников сокращает время получения результатов, повышает точность и повышает общую эффективность проектирования.
Высокая производительность симуляций имеет решающее значение, поскольку это означает, что-либо большее количество симуляций может быть выполнено с заданным разрешением в исследовании проекта, либо более точные симуляции могут быть выполнены до жестких сроков. Когда моделирование выполняется с использованием более чем одного сервера (вычислительного узла), коммуникационная сеть (фабрика) между этими узлами может повлиять на производительность. Симуляция продвигается на столько быстро, насколько фабрика позволяет им общаться.
Ansys LSDYNA — это ведущее в отрасли решение для анализа методом конечных элементов (FEA, Finite Element Analysis) для всех типов физики, таких как испытания на падение, удары и проникновение, аварии и многое другое. В данном тестировании показана производительность Ansys LS DYNA на платформах Dell PowerEdge R7525 с процессорами AMD EPYCTM 7713 с использованием двух различных технологий коммутации — Cornelis Omni-Path Express (OPX) 100Гбит/с и InfiniBand HDR 200 Гбит/с. Основное внимание уделяется вычислительной и коммуникационной производительности с использованием библиотеки Intel® MPI, а также тому, как производительность масштабируется до кластера из 8 узлов Dell Technologies с двумя сокетами AMD EPYC™ 7713, каждый из которых имеет 32×16 ГБ 3200 МГц DDR4.
Стандартный тест topcrunch car2car (https://ftp.lstc.com/anonymous/outgoing/topcrunch/car2car/car2car.tgz, столкновение двух автомобилей) используется для сравнения производительности масштабирования Cornelis 100Gb OPX и 200Gb HDR InfiniBand. Время выполнения моделирования показано на рис. 4 для 8 узлов/1024 ядер с использованием среднего значения трех запусков, как показано в столбцах — чем меньше, тем лучше. Эффективность масштабирования, нормированная для одного узла, показана на вторичной оси. Производительность OPX соответствует производительности HDR для этого приложения на 8 узлах, где обе сети масштабируются с эффективностью примерно 60%. Это небольшая рабочая нагрузка для Ansys LSDYNA, которая расширяет пределы масштабирования, в то время как другие более крупные рабочие нагрузки масштабируются с большей эффективностью.
Рис. 4. Производительность бенчмарка Ansys LSDYNA car2car от 1 до 8 серверов (меньше – лучше).
Преимущество OPX становится очевидным, если учесть его значительно более низкую стоимость по сравнению с HDR. Чтобы выполнить это сравнение, из общедоступных источников [6] были получены цены на OPX и HDR для построения кластера из 8 узлов, построенного из 8 хост-адаптеров, 2-мегапиксельных медных кабелей и одного управляемого пограничного коммутатора. Производительность определяется как количество тестовых случаев, которые могут выполняться в течение одного года, и для каждого количества узлов производительность нормализуется по стоимости 8-узловой фабрики.
Как видно на рис. 5, Omni-Path Express обеспечивает двукратное повышение производительности на единицу стоимости фабрики для Ansys LSDYNA при выполнении теста car2car. Это означает, что заказчики могут развернуть кластер такой же производительности за меньшие деньги и перенаправить неиспользованный бюджет на дополнительные лицензии на приложения или вычислительные мощности.
Рис. 5. Производительность нормализована по стоимости 8-узловой фабрики.
Новый поставщик Cornelis Omni-Path Express (OPX) для libfabric обеспечивает дополнительную производительность существующего оборудования Omni-Path 100 Гбит/с и является предпочтительным поставщиком для архитектуры CN5000 следующего поколения. Благодаря оптимизированному пути кода, разработанному специально для libfabric, он обеспечивает небольшую задержку сообщений и преимущества в скорости сообщений по сравнению с традиционным поставщиком PSM2. OPX является простой заменой PSM2, и его производительность можно оценить параллельно с PSM2. Получить OPX можно либо с помощью загрузки программного обеспечения Cornelis Omni-Path Express Suite (OPXS) по адресу – www.cornelisnetworks.com, либо создать свой собственный с помощью libfabric версии 1.16.1 или новее из github (https://github.com/ofiwg/libfabric).
Пример 2. Panasas®, Penguin Solutions™ и Cornelis Networks™ объединяются для преобразования HPC [5]
Современные высокопроизводительные вычисления (HPC) продолжают трансформироваться от моделирования и симуляции традиционных исследовательских лабораторий к постоянно развивающейся конвергенции рабочих нагрузок и технологий. Рабочие нагрузки HPC более сложны и смешаны с приложениями, объединяющими моделирование и высокопроизводительный анализ данных. Инфраструктура высокопроизводительных вычислений также расширяется за счет вычислительных кластеров, таких как Omni-Path Express, обеспечивающих более высокую производительность и меньшую задержку, что помогает создать основу для производительности и масштабируемости приложений.
С этой целью Penguin Solutions, Panasas и Cornelis Networks объединились, чтобы определить и протестировать эталонный дизайн серверов Penguin Solutions Altus® и устройств хранения Panasas ActiveStor®, подключенных к фабрике Cornelis Omni-Path Express™ (OPX). Были проведены и задокументированы стандартные отраслевые тесты приложений HPC, охватывающие моделирование климата/погоды, вычислительную гидродинамику для производства и моделирование молекулярной динамики в науках о жизни.
В результате испытаний для трех различных вертикалей получилось HPC-решение, которое идеально подходит не только для традиционных рабочих HPC-нагрузок, но и способно соответствовать динамике и задачам современных высокопроизводительных вычислений. Это готовое решение, которое можно масштабировать от небольших до крупных конфигураций вычислительного кластера, до нескольких петабайт высокопроизводительного хранилища с гибкой пропускной способностью и подключением по мере необходимости.
Центры обработки данных с существующим хранилищем файловой системы, использующим Ethernet на внутренней стороне, не должны вкладывать средства в новое хранилище при развертывании сети OPX. Cornelis Networks предлагает высокопроизводительные шлюзовые решения, которые позволяют кластерам высокопроизводительных вычислений Omni-Path подключаться к этим существующим системам хранения, экономя время и деньги.
Тестовая установка показана на рис. 6. В этой тестовой конфигурации для хранения используется параллельная файловая система Panasas PanFS ActiveStor на устройствах хранения ActiveStor. На каждом из четырех узлов Penguin Computing Altus XE установлена сетевая карта 100GbE и интерфейс хост-фабрики (HFI) Cornelis Omni Path серии 100. Сетевая карта 100GbE напрямую подключается через коммутационную сеть Ethernet к управляющим узлам Panasas ActiveStor. Omni-Path HFI подключен к фабрике Cornelis Omni-Path. Кроме того, в структуре Omni-Path находится шлюз Cornelis Omni Path, который содержит сетевую карту 100GbE, соединяющую узлы Penguin Computing Altus® XE с узлами хранения Panasas ActiveStor.
Когда клиентские узлы работают в режиме Ethernet с прямым подключением, файловая система монтируется поверх установленных сетевых адаптеров 100GbE, и трафик хранилища не проходит по сети Omni-Path. Когда клиентские узлы работают в режиме шлюза, файловая система монтируется по сети Omni-Path и маршрутизируется через шлюз с конечным пунктом назначения к узлам хранения ActiveStor на базе Ethernet. Стандартная IP-маршрутизация ядра обрабатывается шлюзом Cornelis Omni-Path. Внеполосные метаданные между узлами Penguin Computing Altus XE и управляющими узлами Panasas ActiveStor аналогичным образом передаются через фабрику Cornelis Omni-Path и шлюз Cornelis Omni-Path при работе в режиме шлюза.
Рис. 6. Panasas PanFS ActiveStor.
Чтобы подтвердить функциональность и производительность решения, был проведен тест распределенного хранилища под названием elbencho (https://github.com/breuner/elbencho), а также три теста приложений для высокопроизводительных вычислений, охватывающих климатические, медико-биологические и производственные вертикали. Производительность сравнивается при записи в файловую систему с использованием устаревшей инфраструктуры и через шлюз Cornelis Omni-Path.
Тесты elbencho сравнивали производительность последовательного чтения с увеличением количества потоков (параллельность) от одного клиентского узла между шлюзом Omni-Path и режимами прямого подключения Ethernet. Как показано на рис. 7, производительность PanFS ActiveStor по насыщению полосы пропускания достигается за счет 16 потоков при размере блока 512 КБ в режиме шлюза Omni-Path. На рис. 8 показаны те же результаты теста производительности elbencho, полученные в режиме Ethernet с прямым подключением, где достигнутые масштабирование и максимальная пропускная способность очень сравнимы с режимом шлюза Omni-Path.
Рис. 7. Производительность последовательного чтения elbencho с использованием одного клиентского узла AMD с Cornelis Gateway.
Рис. 8. Производительность последовательного чтения elbencho с использованием одного клиентского узла AMD с прямым подключением к сети Ethernet.
Для дальнейшего тестирования шлюза были выбраны три приложения для высокопроизводительных вычислений, каждое из которых представляет собой уникальную научную вертикаль. Для климат/погоды было выбрано приложение Weather Research and Forecasting (WRF), работающее на 2,5 километровом эталоне континентальной части США. Для медико-биологических наук было выбрано приложение Nanoscale Molecular Dynamics (NAMD), выполняющее эталонный тест Satellite Tobacco Mosaic Virus (STMV). Наконец, для производственной вертикали было выбрано приложение OpenFOAM вычислительной гидродинамики с использованием эталонного теста для мотоциклов с 20 миллионами ячеек. Для всех этих трех приложений входные данные были изменены таким образом, что выходные данные в файловой системе ActiveStor были искусственно перегружены, что нагружало файловую систему больше, чем можно было бы ожидать при обычных производственных запусках.
На рис. 9 приведены результаты тестирования, показывающие производительность по сравнению с количеством узлов. Для каждого сравнения производительность базовых запусков «без записи» сравнивается с теми же симуляциями, но с включенным вводом выводом либо с использованием шлюза Cornelis Networks (синий), либо с прямым подключением Ethernet 100Gb ENIC. В этой последней конфигурации трафик MPI проходит через Cornelis Omni-Path, а трафик хранилища превышает 100 Гб.
Рис. 9. Производительность WRF.
Производительность с точки зрения среднего количества шагов в секунду показана на рис. 9 для WRF. Как и ожидалось, почти линейное масштабирование достигается при запуске без файлового ввода-вывода, что видно по черной пунктирной линии. Сплошная синяя линия — это идентичный запуск, но с включенным вводом-выводом и записью в узлы хранения Panasas ActiveStor через шлюз Cornelis Omni-Path, а сплошная красная линия — это сравнение при прямом подключении к ActiveStor через коммутационную сеть Ethernet. Как и ожидалось, при включении ввода-вывода происходит падение производительности по двум причинам. Во-первых, каждый раз, когда выполняется файловый ввод-вывод, выполняются дорогостоящие операции сокращения основного процесса MPI. Это увеличивает связь MPI в приложении. Во-вторых, сама операция ввода-вывода потребляет время основного процесса MPI, и другие процессы должны ждать, чтобы продолжить, пока ввод-вывод не завершится.
Результаты теста STMV для NAMD показаны на рис. 10. Почти линейное масштабирование достигается без файлового ввода-вывода. Практически никакого влияния на производительность не наблюдается как в режиме шлюза, так и в режиме Ethernet с прямым подключением. На основании данных о производительности нельзя сделать никаких убедительных выводов, кроме того, что Cornelis Omni-Path Gateway является жизнеспособной альтернативой Ethernet с прямым подключением к системе хранения Panasas ActiveStor.
Рис. 10. Производительность NAMD.
Результаты для OpenFOAM, выполняющего тест мотоцикла с 20 миллионами ячеек, показаны на рис. 11. Почти линейное масштабирование достигается, как и ожидалось, для случая «без записи». На двух и четырех узлах производительность Cornelis Omni-Path Gateway и Ethernet с прямым подключением практически неотличимы и должны рассматриваться как эквивалентные. Влияние файлового ввода-вывода (каждые два временных шага) довольно велико, так что масштабирование производительности с 2 до 4 узлов практически отсутствует. Хотя это искусственно завышенная скорость ввода-вывода для данного приложения, она доказывает жизнеспособность шлюза Cornelis Omni-Path.
Рис. 11. Производительность OpenFOAM.
Выводы
Результаты тестирования демонстрируют, что фабрика Cornelis Omni-Path с решением Omni-Path Gateway, предоставленным Cornelis Networks, является высокоэффективной и экономичной альтернативой фабрикам только Ethernet для центров обработки данных с высокопроизводительными вычислительными приложениями, имеющими доступ к Panasas ActiveStor. хранилище с использованием Ethernet в задней части. Тесты производительности, в том числе тест распределенного хранилища elbencho и тесты приложений для высокопроизводительных вычислений, представляющие различные научные вертикали, постоянно демонстрировали сопоставимую производительность в режиме шлюза Omni-Path и в режиме Ethernet с прямым подключением.
Тесты elbencho показали, что режим шлюза Omni-Path достиг ожидаемого насыщения пропускной способности, что соответствует производительности режима Ethernet с прямым подключением. Кроме того, тесты приложений для высокопроизводительных вычислений, включая приложения WRF, NAMD и OpenFOAM, продемонстрировали почти линейное масштабирование без файлового ввода-вывода (IO) и лишь незначительное влияние на производительность при включении ввода-вывода через Cornelis Omni-Path Gateway. Эти результаты показывают, что решение шлюза способно обрабатывать тяжелые операции ввода-вывода без ущерба для производительности.
В целом, решение Cornelis Omni-Path Gateway представляет собой привлекательное предложение для центров обработки данных, стремящихся использовать высокопроизводительные сетевые решения Cornelis Omni-Path Express при использовании существующей инфраструктуры хранения данных. Устраняя необходимость вкладывать средства в новые системы хранения, организации могут масштабироваться, экономя время и деньги. Успешное сотрудничество между Cornelis Networks, Penguin Solutions и Panasas при проверке этого решения еще больше подтверждает его эффективность и надежность.
Источники, доп. ресурсы
[1] New Stampede3 Advances Supercomputing Ecosystem. Jul 24, 2023.
[2] PANASAS®, PENGUIN SOLUTIONS™, & CORNELIS NETWORKS™ TEAM UP TO TRANSFORM HPC. Lauren Reynolds. August 1, 2023.
[3] Doug Fuller, VP of Software Engineering at Cornelis Networks – Interview Series. July 28, 2023 – https://www.unite.ai/doug-fuller-vp-of-software-engineering-at-cornelis-networks-interview-series/.
[4] Scaling Ansys® LSDYNA® with Cornelis Omni-Path Express. March 16, 2023 – https://www.cornelisnetworks.com/newsroom/scaling-ansys-ls-dyna-with-cornelis-omni-path-express/.
[5] PANASAS®, PENGUIN SOLUTIONS™, & CORNELIS NET WORKS™ TEAM UP TO TRANSFORM HPC. Lauren Reynolds. August 1, 2023.
[6] Pricing obtained on 1/27/2023 from https://www.colfaxdirect.com/store/pc/home.asp. Mellanox MCX653105A-HDAT $1267.50 per adapter. Mellanox MQM8700-HS2F managed HDR switch, $19,910.50. MCP1650H002E26 2M copper cable $248. Omni PathExpress pricing obtained on 1/27/2023 from https://wwws.nextwarehouse.com/. Cornelis 100HFA016LSDELL 100Gb HFI $493.21 per adapter. Cornelis Omni-Path Edge Switch 100 Series 48 port Managed switch – $11,366.78. Cornelis Networks Omni-Path QSFP 2M copper cable – $101.26. Exact pricing may vary depending on vendor and relative performance per cost is subject to change.
[7] With New Owner and New Roadmap, an Independent Omni Path Is Staging a Comeback. By Tiffany Trader. July 23, 2021 – https://www.hpcwire.com/2021/07/23/with-new-owner-and-new-roadmap-a
Авторы: Гантимуров А.П., Калашник А.Г.
Отслеживать