Система хранения данных — SWARM
#BAUMSTORAGE #Архитектура #Кибербезопасность #ОблачныеТехнологии #ОбъектноеХранилище #Программирование #Сети #Технологии
7 минут

Система хранения данных — SWARM

Разработка и философия SWARM

Журналист: Константин, привет! Расскажи, пожалуйста, кратко о себе и о продукте, над которым ты работаешь.

Константин: Привет. Я занимаюсь руководством отдела разработки распределенной системы хранения данных SWARM. Наш продукт — это РСХД, предназначенный для хранения больших объемов информации с оптимизированным, отказоустойчивым и распределенным доступом к ней. Основным для SWARM является объектный доступ к данным, который мы активно развиваем.

Журналист: Мы привыкли, что BAUM разрабатывает программные системы хранения данных (СХД), которые устанавливаются на платформы партнеров. SWARM придерживается той же философии, или у вас также предусмотрено использование собственного железа?

Константин: Да, SWARM тоже является программной СХД с определенными минимальными требованиями к аппаратному обеспечению. Мы активно сотрудничаем с партнерами и стремимся максимально эффективно использовать аппаратное обеспечение, на котором реализуется наша система. Наша цель — обеспечить максимальную производительность и отказоустойчивость на доступном оборудовании наших партнеров.

Журналист: Расскажите, почему было принято решение сосредоточиться на разработке решений scale-out? Можете ли вы назвать примеры продуктов, которые ушли с нашего рынка и могли бы быть заменены SWARM?

Константин: Мы выбрали направление scale-out, потому что традиционные scale-up системы ограничены по производительности своих контроллеров и менее гибки в масштабировании. Учитывая, что объемы данных постоянно растут, рынок нуждается в решениях, которые могут не только хранить большие объемы информации, но и легко масштабироваться. Что касается замены конкретных вендоров, ушедших с рынка, то наша цель не была в замене какого-то одного продукта. Мы хотели создать качественное и конкурентоспособное решение, которое рынок выберет за его надежность и высокое качество.

Технические особенности и инновации

Система хранения данных - SWARM - 1

Журналист: Константин, каждый успешный проект имеет свой «секретный соус». Каков ваш? Что выделяет вашу команду и делает ваш продукт особенным?

Константин: Наш «секретный соус» — это, пожалуй, отсутствие традиционного секрета. Основа нашего успеха — команда. Мы собрали группу высококвалифицированных профессионалов, которые искренне заинтересованы в успехе наших проектов. Они не только обладают глубокими знаниями, но и готовы делиться опытом и вместе преодолевать возникающие трудности. Кроме того, мы активно работаем с молодежью и сотрудничаем с ведущими учебными заведениями страны, помогая студентам найти свой путь в IT. Это не только способствует развитию новых талантов, но и обеспечивает свежие идеи и подходы в нашей работе.

Журналист: В контексте аппаратной поддержки, расскажите, предполагается ли полноценный HCL? Учитывая разнообразие доступного оборудования, пользователи, наверное, ожидают широкую поддержку платформ. Какие сетевые технологии вы используете?

Константин: Да, мы стараемся идти в ногу со временем, обеспечивая поддержку современного оборудования, и в то же время учитываем текущую рыночную ситуацию, поддерживая стандартные и доступные аппаратные решения. Что касается внутренней коммуникации в кластере, мы используем высокоскоростные Ethernet соединения. Для обеспечения отказоустойчивости применяется бондинг. В нашем арсенале есть разнообразие протокольных реализаций, включая TCP, RDMA и NVMeOF. Внешняя коммуникация также осуществляется через Ethernet соединения с различной пропускной способностью. Среди клиентских протоколов — на данный момент, оставили только S3. В архитектуру продукта мы закладываем возможность работы не только на платформах x86-64, но и на перспективных отечественных процессорах и, возможно, ПЛИС (FPGA).

Масштабируемость и перспективы

Система хранения данных - SWARM - 2

Журналист: Искусственный интеллект является одним из приоритетных направлений в BAUM. Как AI используется в вашей системе хранения данных?

Константин: Верно, искусственный интеллект требует обширных данных для обучения, и наша распределенная система хранения данных с объектным доступом идеально подходит для этой задачи. SWARM может хранить огромные массивы данных — миллиарды и триллионы объектов, которые могут быть использованы для эффективного обучения AI. Это позволяет AI анализировать и извлекать значимую информацию из больших объемов данных, улучшая тем самым процессы обработки и принятия решений.

Журналист: Константин, есть ли конкретная отрасль или вертикаль, для которой изначально разрабатывался продукт SWARM, или его предназначение — более общее?

Константин: SWARM разрабатывается как специализированная система хранения данных, сосредоточенная на объектном доступе. В качестве объектного хранилища SWARM может эффективно работать как с маленькими объектами, такими как файлы или изображения для обучения искусственного интеллекта, так и с крупными объектами, например, образами систем или бэкапами. Благодаря эффективным алгоритмам дедупликации мы можем оптимизировать хранение и увеличивать полезный объем данных.В результате чего, SWARM становится идеальным решением для задач, требующих высокой производительности и надежности хранения.

Журналист: Каковы минимальные и максимальные конфигурации SWARM, и какой объем дискового пространства имеет смысл использовать? Какие уровни надежности и доступности встроены в систему?

Константин: В архитектуре SWARM мы используем два типа серверов: модули управления и модули хранения. В минимальной конфигурации достаточно двух серверов — одного модуля управления и одного модуля хранения. Однако такая конфигурация обеспечивает ограниченный уровень отказоустойчивости и не рекомендуется для критически важных приложений. Для обеспечения высокого уровня надежности мы применяем синхронную репликацию кэша записи и синхронную репликацию данных на физических накопителях на уровне модулей хранения. При необходимости масштабирования, наша система способна поддерживать сотни петабайт данных и больше, что делает SWARM идеальным решением для крупномасштабных и требовательных к надежности проектов. Наша система умеет масштабироваться как на уровне доступа — парами модулей управления, так и модулями хранения. Это дает нам возможность создавать самые гибкие конфигурации, максимально приближенные к требованиям заказчика.

Журналист: Ваша команда адаптировала какое-то из уже существующих решений для обработки S3, или вы написали его с нуля? Как вы оцениваете соответствие полным спецификациям S3 от Amazon?

Константин: Всю реализацию S3 мы осуществили самостоятельно, с нуля. Решение не использовать готовые решения было обусловлено несколькими причинами: поддержка чужого кода может быть сложной, часто встречается избыточный функционал, который может снижать производительность, и отсутствие прозрачности в планах развития, что усложняет интеграцию необходимых нам функций. Мы стремимся полностью соответствовать спецификациям S3 от Amazon, так как рынок и клиенты уже привыкли к этому стандарту. Хотя стремление к 100% совместимости важно, на данном этапе это может быть избыточным. Мы фокусируемся на создании удобного и функционального решения, избегая лишней сложности.

Журналист: Какова текущая стадия разработки SWARM? Когда мы можем ожидать MVP и демонстрацию продукта для потенциальных заказчиков?

Константин: На данный момент минимально жизнеспособный продукт (MVP) уже завершен, и мы активно работаем над следующим этапом — инженерным образцом, который планируем представить к концу 2024 года. Наша главная цель сейчас — довести систему до полной готовности и обеспечить максимально удобную техническую поддержку для наших пользователей.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *
Author
Посетитель сайта

Добавить комментарий

Комментариев пока нет

Другие статьи, которые могут быть полезными

Для гарантированного создания консистентных снапшотов (snapshot) разработан специальный плагин, автоматизирующий процесс остановки рабочей нагрузки из приложения, после чего создающий. В данный момент плагин работает с БД Postgres, но может быть...
2082
1
Скотт Тейлор, широко известный как «Data Whisperer», уверяет: корпоративные дата-инициативы гибнут не из-за несовершенного стека, а из-за того, что у данных нет убедительного голоса. Пока аналитики говорят на языке таблиц...
285
3
Кластер BAUMSTORAGE состоит из двух контроллеров (узлов кластера) и общих для них, одной или нескольких, дисковых полок. Для обмена данными контроллеры кластера соединены между собой прямым сетевым подключением – интерконнектом....
2119
3