Продукты
VK Cloud

Эволюция Data Office: от стартапа до корпорации

7 октября 2025 г.
_blog_head_188.png

Рост бизнеса измеряется не только в выручке, но и в терабайтах. Каждый новый клиент, транзакция или IoT-датчик добавляют данные, которые рано или поздно могут перерасти возможности существующей Data-инфраструктуры. Таким образом, по мере развития компании важно своевременно совершенствовать data-ландшафт.

Рассказываем, через какие фазы развития обычно проходит Data-ландшафт каждой компании по мере масштабирования и какие инструменты могут понадобиться для его реализации.

Startup: выживание и быстрое развитие

На этапе зарождения бизнеса, когда штат небольшой, инструментов мало, а все процессы довольно простые, для большинства компаний характерно несколько особенностей в контексте работы с данными.

  • Фокус на скорость и рост, а не на процессы. Цель большинства стартапов — быстро выйти на рынок и начать зарабатывать. Поэтому на этом этапе мало кто задумывается об оптимизации процессов или внедрении внутренних стандартов. Соответственно, может возникать небольшой хаос, который на этом этапе еще не критичен.
  • Мало данных и нет выделенной Data-команды. С данными работают специалисты на местах в зоне своей ответственности. Из-за этого могут возникать проблемы стандартизации — отделы и даже специалисты в одном отделе могут использовать разный стек, разные форматы и разные подходы к работе с данными.
  • Аналитика минимальна и слабо автоматизирована. При этом задачи аналитики, как правило, решаются разработчиками.
  • Проблемы с единым источником правды (SSOT). Идентичные данные могут дублироваться в разных системах. В результате это может привести к рассинхронизации: например, если в CRM данные о клиенте будут актуализироваться, а в excel-таблице для отчетов — нет.
  • Отсутствуют выделенные аналитические хранилища. Нужные данные для отчетов и графиков запрашиваются напрямую из источников.

Как правило, стартапы ограничены минимумом инструментов для работы с данными — часто хватает простого BI или даже Excel.

Средний бизнес: фаза масштабирования

Рост бизнеса в большинстве случаев сопровождается повышением сложности процессов, ростом объема данных, которыми нужно оперировать, и увеличением значимости аналитики для принятия бизнес-решений. Соответственно, для среднего бизнеса характерно:

  • появление команд аналитиков и data-инженеров;
  • разделение операционного и аналитического слоя данных, что важно для накопления исторической информации без влияния аналитики на основные системы;
  • увеличение количества источников и объема данных;
  • появление потребности в витринах данных с целью повышения контролируемости процессов.

При этом, с ростом объема и потоков данных, компании могут сталкиваться с необходимостью ускорения критичных систем и улучшения пользовательского опыта. То есть, помимо классических СУБД компании среднего размера нередко начинают использовать инструменты для построения кэша.

Расширяется и ранее используемый стек. Так:

  • Поскольку появляется аналитический и операционный слой, возникает необходимость в передаче данных. Соответственно, становятся необходимыми ETL/ELT-решения и оркестратор для управления процессами работы с данными.
  • Наряду с OLTP СУБД появляются MPP СУБД (массивно-параллельные реляционные СУБД), например, Greenplum или ClickHouse, для аналитического слоя. В качестве альтернативы простым хранилищам могут внедряться первые реализации гибко масштабируемых универсальных хранилищ Data Lake/Lakehouse. Также операционный слой может быть расширен in-memory базой данных, которая используется для хранения кэшей.
  • Появляются витрины данных (Data Marts).

Как правило, прокачиваются и процессы.

  • С появлением дата-команд и команд аналитиков, а также внедрением новых инструментов появляется возможность автоматизировать рутинные процессы, например, формирование отчетности и наполнение аналитического слоя.
  • Внедряются практики Data Modeling и Data Quality. То есть, начинается выработка внутренних стандартов в части принципов работы с данными, используемых форматов, требований к качеству и целостности, а также других аспектов.
  • Появляется разделение ролей и прав доступа к данным на основе выстроенных бизнес-процессов.
  • Возможно внедряются процессы работы с ML-моделями и строятся MLOps-процессы.

Крупный бизнес: фаза зрелости

Переход компании от бизнеса среднего размера к масштабам корпорации в очередной раз неизбежно сопровождается и изменением формата работы с данными. Здесь можно выделить несколько наиболее типовых особенностей:

  • Количество источников данных становится еще больше и постоянно увеличивается.
  • Требования к безопасности, качеству и комплаенсу данных значительно повышаются.
  • Внедряется каталогизация данных и Data Governance.
  • Приоритетом становится следование практикам Data-driven подхода для повышения точности и скорости принятия бизнес-решений.
  • Платформа данных разрастается до уровня предприятия. Начинается постепенный переход на принципы концепции Data Mesh, которая подразумевает использование единого стека внутри компании, но децентрализацию управления данными.
  • Становится приоритетом управление мастер-данными. То есть, независимо от количества используемых систем, появляется единая точка истины, которая позволяет понять источники данных, их состояние, сценарии использования и другие детали.

При этом схема работы с данными у среднего и крупного бизнеса практически не отличается: добавляется лишь больше управляемости и, как правило, появляется потребность в HTAP-решениях, то есть системах, которые позволяют одновременно выполнять высокопроизводительную обработку транзакций (OLTP) и сложную аналитику (OLAP) на одних и тех же актуальных данных без необходимости дополнительного копирования и синхронизации между слоями хранения.

Одновременно расширяется стек используемых сервисов. Например, зачастую у корпораций дополнительно возникает потребность в нескольких инструментах.

  • CDC — инструмент для real-time-репликаций данных между БД.
  • Data Catalog — централизованное хранилище метаданных, которое помогает искать, понимать и управлять данными.
  • MDM (Master Data Management) — система управления мастер-данными.

Решения VK Tech Data Services для бизнеса любого размера

Сегодня всё больше компаний, от стартапов до крупных корпораций, выбирают облачные платформы для работы с данными. Это обусловлено тем, что облако позволяет не только значительно сократить капитальные затраты на собственную инфраструктуру и упростить её обслуживание, но и обеспечивает гибкость и масштабируемость, давая возможность мгновенно адаптировать вычислительные мощности под меняющиеся бизнес-задачи и быстро внедрять передовые решения.

Например, для этих задач можно эффективно задействовать целый стек сервисов VK Cloud, предназначенных для работы с данными. Рассмотрим некоторые из них.

VK Data Platform

VK Data Platform — платформа полного цикла работы с данными (от сбора и хранения до предиктивной аналитики), которая в единой среде управления предоставляет интегрированные между собой инструменты для работы с данными и решения для организации полного цикла работы с ML. Так, в рамках VK Data Platform можно использовать множество компонентов, в том числе:

  • объектное хранилище S3;
  • Airflow;
  • Trino;
  • DataHub;
  • Spark;
  • продукты экосистемы Tarantool для построения высоконагруженных Real Time систем;
  • ML Platform и другие.

Что важно, VK Data Platform можно развернуть на инфраструктуре любого типа: в публичном облаке, приватном облаке или на собственном железе компании (on-prem). Это делает платформу универсальным решением для компаний любого масштаба, вне зависимости от их корпоративных требований к ИБ.

VK Data Platform Lakehouse

VDP Lakehouse — платформа больших данных на базе движка виртуализации Trino, собственного каталога объектов S3-хранилища и прочих облачных сервисов VK Cloud. Решение реализует современный подход к хранению и обработке данных, который объединяет лучшие черты Data Lakes и Data Warehouses — позволяет хранить большие объемы структурированных и неструктурированных данных в одном месте и получать доступ к ним для последующего анализа.

VDP Lakehouse — один из примеров построения Data-архитектуры на базе VK Data Platform.

VDP Lakehouse можно применять в разных сценариях, среди которых:

  • построение дополнительного КХД нового поколения для real-time аналитики, ML и AI-агентов;
  • переезд с Greenplum, тяжелого Hadoop, Exadata, SAP (BW) и Teradata;
  • построение полноценного Data Office.

Tarantool DB

Tarantool DB — надежная и высокоскоростная мультипротокольная NoSQL СУБД, которая позволяет создавать высокоскоростные отказоустойчивые хранилища данных OLTP.

В Tarantool DB реализована поддержка схем, гарантий ACID, репликации, шардирования, а также предусмотрены коннекторы для разработки хранилищ данных на языках бизнес-приложений. Благодаря этому, инструмент подходит для построения оперативных хранилищ, MDM (master data management), кэшей и витрин данных.

Tarantool Column Store

Tarantool Column Store — реляционная in-memory-колоночная СУБД на базе Tarantool Enterprise Edition для транзакционно-аналитической обработки данных в реальном времени. Инструмент обеспечивает:

  • минимальную задержку от получения новых данных до их участия в анализе;
  • отсутствие затрат (как времени, так и ресурсов) на перемещение данных из OLPT в OLAP БД;
  • быструю обработку данных, свойственную in-memory БД;
  • сохранность данных.

Масштабирование Tarantool Column Store обеспечивается с помощью реплицирования и шардирования, которые в классическом Tarantool доступны «из коробки».

Что в итоге

Эволюция работы с данными — фундаментальная часть роста любой компании. Поэтому Data-ландшафт практически любого бизнеса нередко постепенно трансформируется из набора инструментов в стратегический актив, который определяет скорость принятия решений и глубину аналитики. При этом лучшая практика для эффективной работы с данными — построение Data-ландшафта в облаке, например, в VK Cloud, что позволяет получать быстрый доступ ко всем необходимым инструментам и технологиям, а также прокачивать инфраструктуру для работы с данными без капитальных инвестиций, долгих настроек и других издержек.

Оставьте заявку, чтобы получить консультацию

Наши специалисты свяжутся с вами в ближайшее время и ответят на все вопросы.

section-subscribe_2x.png
            Теги: VK Data Platform
            Ссылка скопирована
            Поделиться

            Почитать по теме

            _blog_head_48.png
            29 июля

            Цифровые двойники, big data и аналитика: как облако ускоряет разведку нефти

            _blog_head_10.png
            27 августа

            Как мигрировать серверы так, чтобы все было предсказуемо и контролируемо

            _blog_head_48.png
            13 октября

            Цифровые двойники: как интернет вещей предотвращает аварии на производстве

            40+ готовых сервисов