Все статьи

< вернуться назад

Система хранения данных — SWARM

Олег Ларин

O.larin

7 минут

2 года назад

2086

7

Разработка и философия SWARM

Журналист: Константин, привет! Расскажи, пожалуйста, кратко о себе и о продукте, над которым ты работаешь.

Константин: Привет. Я занимаюсь руководством отдела разработки распределенной системы хранения данных SWARM. Наш продукт — это РСХД, предназначенный для хранения больших объемов информации с оптимизированным, отказоустойчивым и распределенным доступом к ней. Основным для SWARM является объектный доступ к данным, который мы активно развиваем.

Журналист: Мы привыкли, что BAUM разрабатывает программные системы хранения данных (СХД), которые устанавливаются на платформы партнеров. SWARM придерживается той же философии, или у вас также предусмотрено использование собственного железа?

Константин: Да, SWARM тоже является программной СХД с определенными минимальными требованиями к аппаратному обеспечению. Мы активно сотрудничаем с партнерами и стремимся максимально эффективно использовать аппаратное обеспечение, на котором реализуется наша система. Наша цель — обеспечить максимальную производительность и отказоустойчивость на доступном оборудовании наших партнеров.

Журналист: Расскажите, почему было принято решение сосредоточиться на разработке решений scale-out? Можете ли вы назвать примеры продуктов, которые ушли с нашего рынка и могли бы быть заменены SWARM?

Константин: Мы выбрали направление scale-out, потому что традиционные scale-up системы ограничены по производительности своих контроллеров и менее гибки в масштабировании. Учитывая, что объемы данных постоянно растут, рынок нуждается в решениях, которые могут не только хранить большие объемы информации, но и легко масштабироваться. Что касается замены конкретных вендоров, ушедших с рынка, то наша цель не была в замене какого-то одного продукта. Мы хотели создать качественное и конкурентоспособное решение, которое рынок выберет за его надежность и высокое качество.

Технические особенности и инновации

Система хранения данных - SWARM - 1

Журналист: Константин, каждый успешный проект имеет свой «секретный соус». Каков ваш? Что выделяет вашу команду и делает ваш продукт особенным?

Константин: Наш «секретный соус» — это, пожалуй, отсутствие традиционного секрета. Основа нашего успеха — команда. Мы собрали группу высококвалифицированных профессионалов, которые искренне заинтересованы в успехе наших проектов. Они не только обладают глубокими знаниями, но и готовы делиться опытом и вместе преодолевать возникающие трудности. Кроме того, мы активно работаем с молодежью и сотрудничаем с ведущими учебными заведениями страны, помогая студентам найти свой путь в IT. Это не только способствует развитию новых талантов, но и обеспечивает свежие идеи и подходы в нашей работе.

Журналист: В контексте аппаратной поддержки, расскажите, предполагается ли полноценный HCL? Учитывая разнообразие доступного оборудования, пользователи, наверное, ожидают широкую поддержку платформ. Какие сетевые технологии вы используете?

Константин: Да, мы стараемся идти в ногу со временем, обеспечивая поддержку современного оборудования, и в то же время учитываем текущую рыночную ситуацию, поддерживая стандартные и доступные аппаратные решения. Что касается внутренней коммуникации в кластере, мы используем высокоскоростные Ethernet соединения. Для обеспечения отказоустойчивости применяется бондинг. В нашем арсенале есть разнообразие протокольных реализаций, включая TCP, RDMA и NVMeOF. Внешняя коммуникация также осуществляется через Ethernet соединения с различной пропускной способностью. Среди клиентских протоколов — на данный момент, оставили только S3. В архитектуру продукта мы закладываем возможность работы не только на платформах x86-64, но и на перспективных отечественных процессорах и, возможно, ПЛИС (FPGA).

Масштабируемость и перспективы

Система хранения данных - SWARM - 2

Журналист: Искусственный интеллект является одним из приоритетных направлений в BAUM. Как AI используется в вашей системе хранения данных?

Константин: Верно, искусственный интеллект требует обширных данных для обучения, и наша распределенная система хранения данных с объектным доступом идеально подходит для этой задачи. SWARM может хранить огромные массивы данных — миллиарды и триллионы объектов, которые могут быть использованы для эффективного обучения AI. Это позволяет AI анализировать и извлекать значимую информацию из больших объемов данных, улучшая тем самым процессы обработки и принятия решений.

Журналист: Константин, есть ли конкретная отрасль или вертикаль, для которой изначально разрабатывался продукт SWARM, или его предназначение — более общее?

Константин: SWARM разрабатывается как специализированная система хранения данных, сосредоточенная на объектном доступе. В качестве объектного хранилища SWARM может эффективно работать как с маленькими объектами, такими как файлы или изображения для обучения искусственного интеллекта, так и с крупными объектами, например, образами систем или бэкапами. Благодаря эффективным алгоритмам дедупликации мы можем оптимизировать хранение и увеличивать полезный объем данных.В результате чего, SWARM становится идеальным решением для задач, требующих высокой производительности и надежности хранения.

Журналист: Каковы минимальные и максимальные конфигурации SWARM, и какой объем дискового пространства имеет смысл использовать? Какие уровни надежности и доступности встроены в систему?

Константин: В архитектуре SWARM мы используем два типа серверов: модули управления и модули хранения. В минимальной конфигурации достаточно двух серверов — одного модуля управления и одного модуля хранения. Однако такая конфигурация обеспечивает ограниченный уровень отказоустойчивости и не рекомендуется для критически важных приложений. Для обеспечения высокого уровня надежности мы применяем синхронную репликацию кэша записи и синхронную репликацию данных на физических накопителях на уровне модулей хранения. При необходимости масштабирования, наша система способна поддерживать сотни петабайт данных и больше, что делает SWARM идеальным решением для крупномасштабных и требовательных к надежности проектов. Наша система умеет масштабироваться как на уровне доступа — парами модулей управления, так и модулями хранения. Это дает нам возможность создавать самые гибкие конфигурации, максимально приближенные к требованиям заказчика.

Журналист: Ваша команда адаптировала какое-то из уже существующих решений для обработки S3, или вы написали его с нуля? Как вы оцениваете соответствие полным спецификациям S3 от Amazon?

Константин: Всю реализацию S3 мы осуществили самостоятельно, с нуля. Решение не использовать готовые решения было обусловлено несколькими причинами: поддержка чужого кода может быть сложной, часто встречается избыточный функционал, который может снижать производительность, и отсутствие прозрачности в планах развития, что усложняет интеграцию необходимых нам функций. Мы стремимся полностью соответствовать спецификациям S3 от Amazon, так как рынок и клиенты уже привыкли к этому стандарту. Хотя стремление к 100% совместимости важно, на данном этапе это может быть избыточным. Мы фокусируемся на создании удобного и функционального решения, избегая лишней сложности.

Журналист: Какова текущая стадия разработки SWARM? Когда мы можем ожидать MVP и демонстрацию продукта для потенциальных заказчиков?

Константин: На данный момент минимально жизнеспособный продукт (MVP) уже завершен, и мы активно работаем над следующим этапом — инженерным образцом, который планируем представить к концу 2024 года. Наша главная цель сейчас — довести систему до полной готовности и обеспечить максимально удобную техническую поддержку для наших пользователей.

< вернуться назад

Олег Ларин

O.larin

Об авторе

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Посетитель сайта

Добавить комментарий Отменить ответ

Комментариев пока нет

Другие статьи, которые могут быть полезными

Современные распределенные объектные/файловые/блочные и key-value хранилища – NVIDIA Excelero NVMesh (часть 6)

3 года назад

PavelS

3125

26

Современные распределенные объектные/файловые/блочные и key-value хранилища – NVIDIA Excelero NVMesh (часть 6)

Введение Компания Excelero была основана в 2014 г. и разрабатывала программно-определяемое блочное хранилище на базе NVMe SSD-накопителей с малой задержкой для гипермасштабируемых приложений, таких как ИИ, машинное обучение и вычисления...

3125

26

3 года назад

Конвергенция данных и интеллекта

4 месяца назад

Андрей Гантимуров

1995

48

Конвергенция данных и интеллекта

Платформы хранения данных для AI/ML: архитектуры, вендоры и ключевые тренды В современной корпоративной среде искусственный интеллект (ИИ) перестал быть экспериментальной технологией и превратился в инструмент для создания конкурентных преимуществ. Однако...

1995

48

4 месяца назад

Data Fabric: ткань цифрового предприятия и роль систем хранения данных в её создании

5 месяцев назад

Александр Головатенко

406

7

Data Fabric: ткань цифрового предприятия и роль систем хранения данных в её создании

Цифровая трансформация заставляет компании одновременно ускорять аналитику, снижать затраты на интеграцию и соблюдать регуляторные требования. К 2026 году 75 % глобальных предприятий, по прогнозу Gartner, столкнутся с критическим дефицитом...

406

7

5 месяцев назад