Все статьи

Scality Autonomous Data Infrastructure: архитектура, агентное распределение по уровням хранения и роль объектного хранилища в ИИ-инфраструктуре

Андрей Гантимуров

CTO BAUM

14 минут

2 месяца назад

228

Компания описывает операционную модель корпоративной инфраструктуры данных: единое объектное пространство, политики жизненного цикла и набор уровней хранения, где данные получают нужные характеристики по производительности, защите, стоимости, энергопотреблению и требованиям к суверенности. В этой модели важны четыре класса хранения, S3 over RDMA, GPU-Direct и Guardian — слой операционного интеллекта с агентной поддержкой.

Scality Autonomous Data Infrastructure: архитектура, агентное распределение по уровням хранения и роль объектного хранилища в ИИ-инфраструктуре - 1

Рисунок 1. Логическая архитектура Scality ADI: плоскость управления поверх распределенной объектной основы и нескольких классов хранения.

Почему Scality говорит о новой модели эксплуатации хранилища

Классическая корпоративная инфраструктура хранения часто собиралась из отдельных систем: быстрый файловый массив для продуктивной среды, объектное хранилище для озера данных, целевая система резервного копирования, архивный слой и иногда отдельная платформа для соответствия требованиям и неизменяемости данных. Это работало, пока нагрузки были предсказуемыми, а жизненный цикл данных оставался почти линейным: создать, использовать, защитить, архивировать.

ИИ ломает эту схему. Один набор данных может пройти загрузку, очистку, подготовку признаков, обучение, дообучение, RAG, мультимодальный поиск, инференс, переиндексацию, аудит и долгосрочное хранение. Scality формулирует это так: ИИ ломает старую модель хранения данных. В материалах ADI компания пишет, что универсальной ИИ-нагрузки не существует: этапы конвейера требуют разной пропускной способности, задержки и профиля защиты. [2]

Поэтому ADI решает не только задачу емкости. Главная ставка на управление сложностью: как обслуживать данные на уровнях масштабирования в несколько петабайт и даже экзабайт без нового отдельного СХД под каждый класс нагрузки.

Что такое Scality ADI

Scality ADI (Autonomous Data Infrastructure) здесь означает модель инфраструктуры данных поверх распределенного объектного хранилища. Она объединяет объектную основу, автоматизацию операций, программно определяемый выбор уровня хранения, встроенную киберустойчивость и высокопроизводительный доступ к объектам, включая GPU-Direct. Scality описывает ADI как систему, которая сопоставляет тип хранения, производительность и уровень защиты с этапом жизненного цикла данных на масштабе от нескольких петабайт до экзабайт. [2]

Scality Autonomous Data Infrastructure: архитектура, агентное распределение по уровням хранения и роль объектного хранилища в ИИ-инфраструктуре - 2

ADI можно разложить на четыре слоя:

Объектная основа хранения. Распределенная объектная платформа Scality, связанная с RING, RING XP и ARTESCA. Она дает масштабирование, S3-совместимость, надежность хранения и базу для киберустойчивого хранения.
Жизненный цикл на основе политик. Правила размещения и перемещения данных по типам нагрузок: задержка, пропускная способность, состояние защиты, сроки хранения, стоимость, энергопотребление и суверенность.
Операционный интеллект Guardian. Слой с агентной поддержкой, который следит за состоянием системы, готовит рекомендации и помогает с расширением, восстановлением, перебалансировкой, обновлением и операциями жизненного цикла.
Многоуровневая модель носителей. Единое пространство данных поверх нескольких классов хранения: от TLC-флеш с GPU-Direct и S3 over RDMA до ленточных носителей и архива в публичном облаке.

ADI не стоит читать как обещание, что хранилище само все решит без человека. Речь идет об ограниченной автономности: агенты выводят наблюдения и рекомендации, человек или клиентские ИИ-инструменты подтверждают действия, а платформа выполняет их в проверяемых границах политик. [1]

Четыре уровня хранения в ADI

В статье ss & Files главная конкретика — четыре уровня хранения. Эта модель сразу снимает лишнее ожидание: ADI не является полностью флеш-хранилищем для ИИ. Scality предлагает смешанную схему, где размещение зависит от температуры данных, задержки, стоимости, защиты и энергопотребления. [1]

Scality Autonomous Data Infrastructure: архитектура, агентное распределение по уровням хранения и роль объектного хранилища в ИИ-инфраструктуре - 3

Рисунок 2. Четыре уровня хранения ADI: экстремальная производительность, горячий, теплый и холодный уровни.

Уровень экстремальной производительности

Первый уровень рассчитан на нагрузки, где задержка и пропускная способность стоят на первом месте. Он строится на TLC-флеш, использует GPU-Direct и S3 over RDMA, а заявленная задержка ниже 50 микросекунд. [1]

Этот уровень подходит для активных рабочих наборов данных, высокопараллельного доступа к данным, нагрузок рядом с обучением и инференсом, а также сценариев, где простой GPU из-за ожидания хранилища быстро превращается в деньги. Но ускорение на уровне хранения не равно поддержке любой инференс-схемы.

Горячий уровень

Второй уровень рассчитан на нагрузки, которым нужна высокая пропускная способность. Он использует QLC и будущие nearline SSD, доступ идет через S3 over RDMA, а целевой показатель описан как совокупная пропускная способность в несколько ТБ/с. [1]

Практически это уровень для массового чтения наборов данных, подготовки данных, параллельной предварительной обработки, сценариев с интенсивным извлечением данных, конвейеров векторизации и похожих задач. Задержка важна, но она уже не такая жесткая, как на уровне 1.

Теплый уровень

Теплый уровень построен вокруг будущих nearline SSD и nearline HDD, тоже с доступом через S3 over RDMA. [1] Для Scality это способ вынести ускоренный объектный доступ за пределы флеш-носителей и применить его к более емким классам носителей.

На практике теплый уровень может стать основой для корпоративного озера данных, корпуса RAG, исторических наборов данных, хранилищ признаков, сохраняемых артефактов обучения и данных, которым не нужно постоянное размещение во флеш-хранилище, но нужен доступ быстрее глубокого архива.

Холодный уровень

Холодный уровень включает ленточные носители и целевые хранилища в публичном облаке. [1] Его задача — долгосрочное хранение, соответствие требованиям, управляемый архив и недорогое хранение редко используемых данных. Сюда логично уводить данные, которые вышли из активного ИИ-конвейера, но остаются юридически, бизнесово или научно значимыми.

Один из сильных архитектурных тезисов ADI — отказ от одноуровневого флеш-хранилища. В ИИ-инфраструктуре легко захотеть положить все на быстрый флеш. На масштабе это почти сразу бьет по бюджету, питанию и охлаждению.

Модель, которую Scality использует для эффективной энергетической устойчивости: 5% данных на уровнях 1 и 2, 30% на теплом уровне и 65% на холодном уровне. [1] Это не универсальная формула, но принцип понятен: быстрое хранилище нужно активной рабочей области, а не всему историческому массиву данных.

Scality Autonomous Data Infrastructure: архитектура, агентное распределение по уровням хранения и роль объектного хранилища в ИИ-инфраструктуре - 4

Рисунок 3. Иллюстративная модель распределения данных по температуре: 5% на самых быстрых уровнях, 30% на теплом уровне, 65% на холодном уровне.

ADI связывает размещение данных с ограничениями дата-центра: питанием, охлаждением, стоимостью носителей и операционной сложностью.

Guardian: операции с агентной поддержкой, а не бесконтрольный автопилот

Guardian это центральный элемент автономных операций в ADI. Scality называет его собственным ИИ-агентом: он снижает ручную нагрузку, находит операционные выводы, предлагает действия и помогает с расширением, восстановлением, перебалансировкой, обновлением и проверкой. [2]

Guardian наблюдает за состоянием системы и поднимает рекомендации по предиктивному обслуживанию, состоянию, энергопотреблению и обнаружению киберугроз. Агенты работают с расширением, восстановлением, перебалансировкой, обновлением и процессами жизненного цикла. [1]

Scality Autonomous Data Infrastructure: архитектура, агентное распределение по уровням хранения и роль объектного хранилища в ИИ-инфраструктуре - 5

Рисунок 4. Guardian как модель ограниченной автономности: наблюдение, вывод, подтверждение, выполнение.

ADI не является полностью автономной системой. Агенты дают выводы, но действия подтверждает человек или клиентские ИИ-инструменты. После этого платформа выполняет их в проверяемых границах политик. [1] Для корпоративного хранилища такая граница обязательна. Хранилище хранит критичные данные, поэтому миграции, изменения политик, перебалансировка, обновления и состояние защиты должны быть объяснимыми и проверяемыми.

S3 over RDMA и GPU-Direct: зачем ускорять объектное хранилище

Объектное хранилище долго воспринималось как емкостной слой: дешевая емкость, высокая надежность хранения, S3 API, резервное копирование, архив и озеро данных. ИИ-нагрузки двигают его ближе к активному конвейеру данных. Данные читают уже не одиночные приложения, а тысячи параллельных обработчиков, задачи предварительной обработки, процессы обучения, сервисы извлечения данных и агентные конвейеры.

Scality в материалах ADI говорит об объектном доступе нового класса: высококонкурентном S3 и путях данных S3 over RDMA для шаблонов доступа ИИ — от подготовки данных до конвейеров с интенсивным извлечением данных и высокопроизводительных объектных сценариев. [2] S3 over RDMA используется на экстремальном, горячем и теплом уровнях, а уровень экстремальной производительности включает GPU-Direct. [1]

Сдвиг заметный. Объектный API остается абстракцией управления и доступа, но путь данных должен приближаться к низкой задержке и высокопроизводительной сети. Это важно, когда объектное хранилище работает не архивным бакетом, а активной зоной для подготовки данных, извлечения признаков, векторизации, RAG и повторного использования ИИ-данных.

В PoC здесь мало проверить пиковую пропускную способность. Для ИИ важны поведение на малых объектах, производительность параллельных GET-запросов, листинг и задержка метаданных, семантика согласованности, производительность при восстановлении и перебалансировке, интеграция с PyTorch/WebDataset/Ray/Spark и поведение пути данных на смешанных нагрузках.

MCP-интеграция

Клиенты могут подключать собственные ИИ-инструменты к операционным процессам ADI через MCP. Тогда платформой управляет клиентский ИИ-стек, а не только встроенные средства Scality. [1]

Для архитектуры это важнее, чем может показаться. MCP превращает ADI из закрытой консоли управления хранилищем в элемент корпоративной автоматизации. В зрелой организации его можно связать с ITSM, внутренними SRE-инструментами, системами наблюдаемости, операциями информационной безопасности, порталами самообслуживания и управлением изменениями.

Такой подход может закрывать несколько рабочих сценариев:

создание бакета или учетной записи под новый ИИ-проект с заранее заданными политиками защиты и сроками хранения;
изменение квоты и класса размещения после подтверждения в ITSM;
запуск перемещения по жизненному циклу для набора данных после окончания цикла обучения;
проверка состояния, риска перестроения и энергопотребления перед расширением кластера;
автоматическое формирование плана изменений для поэтапного обновления или расширения узла.

Но MCP повышает требования к модели безопасности. Нужны строгие RBAC, минимальные привилегии, журналирование аудита, режим пробного запуска, разделение обязанностей и четкие границы подтверждения. Иначе агентная автоматизация в хранилище становится новой привилегированной поверхностью атаки.

Киберустойчивость и CORE5: хранилище как последняя линия обороны

Для Scality киберустойчивость встроена в архитектуру ADI. В материалах компании CORE5 Cyber Resilience включает неизменяемость, надежность хранения, защиту метаданных, репликацию между площадками и принудительное применение политик непосредственно в архитектуре. Цель — доказуемая восстанавливаемость для аудиторов, страховщиков, команд информационной безопасности и регуляторов. [2]

CORE5 должен давать неизменяемые, восстанавливаемые и проверяемые данные на каждом уровне. [1]

Для резервного копирования и повторного использования данных в ИИ это важно. Многие компании уже держат резервные копии в объектном хранилище, но после атаки шифровальщика одной копии мало. Целевая система резервного копирования должна сама выдерживать атаку: поддерживать неизменяемость на уровне объектов, версионирование, защиту от удаления, проверяемость и процессы восстановления. Если привилегированная учетная запись может удалить данные или изменить сроки хранения, хранилище перестает быть последней линией обороны.

В ADI киберустойчивость связана с жизненным циклом и уровневым размещением. Данные могут переезжать между горячими, теплыми и холодными носителями, но состояние защиты и проверяемость должны оставаться неизменными относительно политик.

Суверенный контроль и доверие к открытому коду

Scality отдельно выводит ADI в сценарии суверенного облака. Компания говорит об облачной модели S3 и крупных совместно используемых многопользовательских средах без потери контроля развертывания, локализации данных и операционного суверенитета. В заявленных возможностях: локальное, изолированное и суверенное облачное развертывание, локализация данных и управление на масштабе с принудительным применением политик, а также возможность проверки открытого кода для регулируемых закупочных процедур. [2]

Исходный код ADI доступен для проверки и управляемых вкладов. Там же упоминаются SLA, основанные на результате: доступность, производительность, состояние защиты, энергопотребление и операционная эффективность. [1]

Для банков, здравоохранения, государственного сектора, смежных с оборонной отраслью индустрий и крупных промышленных компаний это иногда важнее пропускной способности. В регулируемой среде хранилище выбирают не только по IOPS или TB/$. Проверяют доверие к жизненному циклу, аудит, локальность данных, контроль обновлений и поддержку на длинном горизонте.

Сценарии применения

Корпоративное озеро данных для ИИ

ADI ложится на частную ИИ-платформу, где исходные данные, подготовленные наборы данных, эмбеддинги, векторизованные артефакты, данные для обучения моделей и аудитные копии должны жить в одной модели управления данными. Экстремальный и горячий уровни обслуживают активные наборы данных, теплый уровень держит основное озеро данных, холодный уровень закрывает сроки хранения и соответствие требованиям.

RAG и мультимодальные агентные сценарии

RAG и мультимодальный поиск порождают не один набор данных, а набор связанных объектов: исходные документы, фрагменты, эмбеддинги, индексы, производные артефакты, сигналы обратной связи и аудитные следы. ADI полезна там, где эти данные нужны ИИ-сервисам, но должны оставаться под политиками сроков хранения, доступа и суверенности.

Резервное копирование, восстановление после атаки шифровальщика и повторное использование данных

Объектное хранилище давно используют как целевую систему резервного копирования. ADI расширяет эту роль: защищенные данные могут быть не мертвым архивом, а управляемым активом для аналитики, повторного использования в ИИ и контролируемого извлечения без потери неизменяемости и проверяемости.

Суверенное или частное облачное объектное хранилище

Для организаций, которые не могут полностью уйти в публичное облако, ADI может быть объектной основой хранения для частного или суверенного облака: модель S3, многопользовательские среды, управление данными, локальность, киберустойчивость и управляемый жизненный цикл.

Итоги

Scality ADI выглядит как заметный шаг для объектного хранилища не из-за брендинга вокруг ИИ и S3. Смысл в другой операционной модели: единое объектное пространство, размещение между производительным, горячим, теплым и холодным уровнями на основе политик, а операции поддерживает плоскость управления с ИИ-агентами и подтверждением человеком.

Самые интересные инженерные элементы: S3 over RDMA, возможности GPU-Direct, четырехуровневый жизненный цикл, Guardian, телеметрия энергопотребления в реальном времени, MCP-интеграция и связка киберустойчивости с жизненным циклом данных. Вместе они отвечают на четыре давления сразу: ИИ, восстановление после атак шифровальщиков, суверенный контроль и ограничения дата-центра по энергопотреблению.

Главная инженерная интрига: сможет ли Scality сделать эту модель предсказуемой в продуктивной среде, с прозрачными политиками, устойчивой производительностью, объяснимыми рекомендациями Guardian и нормальной интеграцией в корпоративные процессы изменений, безопасности и управления данными. Если да, ADI может стать плоскостью управления для инфраструктуры данных эпохи ИИ.

Источники

[1] Blocks & Files, Chris Mellor, «Scality’s Autonomous Data Infrastructure does agent-driven tiering and more», 12 May 2026. https://www.blocksandfiles.com/object/2026/05/12/scalitys-autonomous-data-infrastructure-does-agent-driven-tiering-and-more/5238809

[2] Scality, «Scality ADI: Autonomous Data Infrastructure». https://www.scality.com/adi/

[3] Scality, «Scality ADI: Autonomous Data Infrastructure for Enterprise AI». https://www.scality.com/press-releases/scality-adi-launch/

< вернуться назад

Андрей Гантимуров

CTO BAUM

Об авторе

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Посетитель сайта

Добавить комментарий Отменить ответ

Комментариев пока нет

Присоединяйтесь к нам

Здесь можно обсудить статьи и новости. Заходи, будет интересно!

Другие статьи, которые могут быть полезными

Система хранения данных — SWARM

2 года назад

Олег Ларин

2082

Система хранения данных — SWARM

Разработка и философия SWARM Журналист: Константин, привет! Расскажи, пожалуйста, кратко о себе и о продукте, над которым ты работаешь. Константин: Привет. Я занимаюсь руководством отдела разработки распределенной системы хранения данных...

2082

2 года назад

Дисковая подсистема

3 года назад

Олег Ларин

3065

Дисковая подсистема

№ Вопрос Ответ 1. Каким образом система резервирует объемы данных для восстановления? Место под восстановление данных в пуле не резервируется, вместо этого используются hot-spare диски для каждого пула. Так...

3065

3 года назад

Протокол FTP

3 года назад

Admin Admin

3082

Протокол FTP

FTP (File Transfer Protocol) – протокол передачи файлов по сети, является одним из старейших прикладных протоколов. BAUMSTORAGE поддерживает данный протокол, однако не рекомендует использовать его на постоянной основе из-за проблем...

3082

3 года назад