
Эволюция Data Office: от стартапа до корпорации
7 октября 2025 г.

Рост бизнеса измеряется не только в выручке, но и в терабайтах. Каждый новый клиент, транзакция или IoT-датчик добавляют данные, которые рано или поздно могут перерасти возможности существующей Data-инфраструктуры. Таким образом, по мере развития компании важно своевременно совершенствовать data-ландшафт.
Рассказываем, через какие фазы развития обычно проходит Data-ландшафт каждой компании по мере масштабирования и какие инструменты могут понадобиться для его реализации.
Startup: выживание и быстрое развитие
На этапе зарождения бизнеса, когда штат небольшой, инструментов мало, а все процессы довольно простые, для большинства компаний характерно несколько особенностей в контексте работы с данными.
- Фокус на скорость и рост, а не на процессы. Цель большинства стартапов — быстро выйти на рынок и начать зарабатывать. Поэтому на этом этапе мало кто задумывается об оптимизации процессов или внедрении внутренних стандартов. Соответственно, может возникать небольшой хаос, который на этом этапе еще не критичен.
- Мало данных и нет выделенной Data-команды. С данными работают специалисты на местах в зоне своей ответственности. Из-за этого могут возникать проблемы стандартизации — отделы и даже специалисты в одном отделе могут использовать разный стек, разные форматы и разные подходы к работе с данными.
- Аналитика минимальна и слабо автоматизирована. При этом задачи аналитики, как правило, решаются разработчиками.
- Проблемы с единым источником правды (SSOT). Идентичные данные могут дублироваться в разных системах. В результате это может привести к рассинхронизации: например, если в CRM данные о клиенте будут актуализироваться, а в excel-таблице для отчетов — нет.
- Отсутствуют выделенные аналитические хранилища. Нужные данные для отчетов и графиков запрашиваются напрямую из источников.
Как правило, стартапы ограничены минимумом инструментов для работы с данными — часто хватает простого BI или даже Excel.

Средний бизнес: фаза масштабирования
Рост бизнеса в большинстве случаев сопровождается повышением сложности процессов, ростом объема данных, которыми нужно оперировать, и увеличением значимости аналитики для принятия бизнес-решений. Соответственно, для среднего бизнеса характерно:
- появление команд аналитиков и data-инженеров;
- разделение операционного и аналитического слоя данных, что важно для накопления исторической информации без влияния аналитики на основные системы;
- увеличение количества источников и объема данных;
- появление потребности в витринах данных с целью повышения контролируемости процессов.
При этом, с ростом объема и потоков данных, компании могут сталкиваться с необходимостью ускорения критичных систем и улучшения пользовательского опыта. То есть, помимо классических СУБД компании среднего размера нередко начинают использовать инструменты для построения кэша.

Расширяется и ранее используемый стек. Так:
- Поскольку появляется аналитический и операционный слой, возникает необходимость в передаче данных. Соответственно, становятся необходимыми ETL/ELT-решения и оркестратор для управления процессами работы с данными.
- Наряду с OLTP СУБД появляются MPP СУБД (массивно-параллельные реляционные СУБД), например, Greenplum или ClickHouse, для аналитического слоя. В качестве альтернативы простым хранилищам могут внедряться первые реализации гибко масштабируемых универсальных хранилищ Data Lake/Lakehouse. Также операционный слой может быть расширен in-memory базой данных, которая используется для хранения кэшей.
- Появляются витрины данных (Data Marts).
Как правило, прокачиваются и процессы.
- С появлением дата-команд и команд аналитиков, а также внедрением новых инструментов появляется возможность автоматизировать рутинные процессы, например, формирование отчетности и наполнение аналитического слоя.
- Внедряются практики Data Modeling и Data Quality. То есть, начинается выработка внутренних стандартов в части принципов работы с данными, используемых форматов, требований к качеству и целостности, а также других аспектов.
- Появляется разделение ролей и прав доступа к данным на основе выстроенных бизнес-процессов.
- Возможно внедряются процессы работы с ML-моделями и строятся MLOps-процессы.
Крупный бизнес: фаза зрелости
Переход компании от бизнеса среднего размера к масштабам корпорации в очередной раз неизбежно сопровождается и изменением формата работы с данными. Здесь можно выделить несколько наиболее типовых особенностей:
- Количество источников данных становится еще больше и постоянно увеличивается.
- Требования к безопасности, качеству и комплаенсу данных значительно повышаются.
- Внедряется каталогизация данных и Data Governance.
- Приоритетом становится следование практикам Data-driven подхода для повышения точности и скорости принятия бизнес-решений.
- Платформа данных разрастается до уровня предприятия. Начинается постепенный переход на принципы концепции Data Mesh, которая подразумевает использование единого стека внутри компании, но децентрализацию управления данными.
- Становится приоритетом управление мастер-данными. То есть, независимо от количества используемых систем, появляется единая точка истины, которая позволяет понять источники данных, их состояние, сценарии использования и другие детали.

При этом схема работы с данными у среднего и крупного бизнеса практически не отличается: добавляется лишь больше управляемости и, как правило, появляется потребность в HTAP-решениях, то есть системах, которые позволяют одновременно выполнять высокопроизводительную обработку транзакций (OLTP) и сложную аналитику (OLAP) на одних и тех же актуальных данных без необходимости дополнительного копирования и синхронизации между слоями хранения.
Одновременно расширяется стек используемых сервисов. Например, зачастую у корпораций дополнительно возникает потребность в нескольких инструментах.
- CDC — инструмент для real-time-репликаций данных между БД.
- Data Catalog — централизованное хранилище метаданных, которое помогает искать, понимать и управлять данными.
- MDM (Master Data Management) — система управления мастер-данными.
Решения VK Tech Data Services для бизнеса любого размера
Сегодня всё больше компаний, от стартапов до крупных корпораций, выбирают облачные платформы для работы с данными. Это обусловлено тем, что облако позволяет не только значительно сократить капитальные затраты на собственную инфраструктуру и упростить её обслуживание, но и обеспечивает гибкость и масштабируемость, давая возможность мгновенно адаптировать вычислительные мощности под меняющиеся бизнес-задачи и быстро внедрять передовые решения.
Например, для этих задач можно эффективно задействовать целый стек сервисов VK Cloud, предназначенных для работы с данными. Рассмотрим некоторые из них.
VK Data Platform
VK Data Platform — платформа полного цикла работы с данными (от сбора и хранения до предиктивной аналитики), которая в единой среде управления предоставляет интегрированные между собой инструменты для работы с данными и решения для организации полного цикла работы с ML. Так, в рамках VK Data Platform можно использовать множество компонентов, в том числе:
- объектное хранилище S3;
- Airflow;
- Trino;
- DataHub;
- Spark;
- продукты экосистемы Tarantool для построения высоконагруженных Real Time систем;
- ML Platform и другие.

Что важно, VK Data Platform можно развернуть на инфраструктуре любого типа: в публичном облаке, приватном облаке или на собственном железе компании (on-prem). Это делает платформу универсальным решением для компаний любого масштаба, вне зависимости от их корпоративных требований к ИБ.
VK Data Platform Lakehouse
VDP Lakehouse — платформа больших данных на базе движка виртуализации Trino, собственного каталога объектов S3-хранилища и прочих облачных сервисов VK Cloud. Решение реализует современный подход к хранению и обработке данных, который объединяет лучшие черты Data Lakes и Data Warehouses — позволяет хранить большие объемы структурированных и неструктурированных данных в одном месте и получать доступ к ним для последующего анализа.
VDP Lakehouse — один из примеров построения Data-архитектуры на базе VK Data Platform.

VDP Lakehouse можно применять в разных сценариях, среди которых:
- построение дополнительного КХД нового поколения для real-time аналитики, ML и AI-агентов;
- переезд с Greenplum, тяжелого Hadoop, Exadata, SAP (BW) и Teradata;
- построение полноценного Data Office.
Tarantool DB
Tarantool DB — надежная и высокоскоростная мультипротокольная NoSQL СУБД, которая позволяет создавать высокоскоростные отказоустойчивые хранилища данных OLTP.

В Tarantool DB реализована поддержка схем, гарантий ACID, репликации, шардирования, а также предусмотрены коннекторы для разработки хранилищ данных на языках бизнес-приложений. Благодаря этому, инструмент подходит для построения оперативных хранилищ, MDM (master data management), кэшей и витрин данных.
Tarantool Column Store
Tarantool Column Store — реляционная in-memory-колоночная СУБД на базе Tarantool Enterprise Edition для транзакционно-аналитической обработки данных в реальном времени. Инструмент обеспечивает:
- минимальную задержку от получения новых данных до их участия в анализе;
- отсутствие затрат (как времени, так и ресурсов) на перемещение данных из OLPT в OLAP БД;
- быструю обработку данных, свойственную in-memory БД;
- сохранность данных.
Масштабирование Tarantool Column Store обеспечивается с помощью реплицирования и шардирования, которые в классическом Tarantool доступны «из коробки».
Что в итоге
Эволюция работы с данными — фундаментальная часть роста любой компании. Поэтому Data-ландшафт практически любого бизнеса нередко постепенно трансформируется из набора инструментов в стратегический актив, который определяет скорость принятия решений и глубину аналитики. При этом лучшая практика для эффективной работы с данными — построение Data-ландшафта в облаке, например, в VK Cloud, что позволяет получать быстрый доступ ко всем необходимым инструментам и технологиям, а также прокачивать инфраструктуру для работы с данными без капитальных инвестиций, долгих настроек и других издержек.
Оставьте заявку, чтобы получить консультацию
Наши специалисты свяжутся с вами в ближайшее время и ответят на все вопросы.

Почитать по теме

29 июля
Цифровые двойники, big data и аналитика: как облако ускоряет разведку нефти

27 августа
Как мигрировать серверы так, чтобы все было предсказуемо и контролируемо

13 октября