РБК Компании
Главная Data Sapience 11 апреля 2025

Евгений Вилков: Lakehouse меняет рынок больших данных

Как Lakehouse влияет на рынок больших данных, чем отличается платформенное решение от самостоятельной разработки и почему это важно — в материале Data Sapience
Евгений Вилков: Lakehouse меняет рынок больших данных
Источник изображения: Личный архив Data Sapience
Евгений Вилков
Евгений Вилков
Технический руководитель Lakehouse-платформы данных Data Ocean Nova и решения для репликации данных Data Ocean Flex Loader

Эксперт в области больших данных и систем массивных параллельных вычислений. 50+ проектов за 18 лет в области интеграции данных и хранилищ данных в банковской сфере, телекоме, ретейле и страховании

Подробнее про эксперта

Lakehouse-подход к работе с большими данными, появившийся недавно, но успевший занять прочные позиции на российском рынке, привлекает все больше внимания клиентов. В интервью технический руководитель Lakehouse-платформы данных Data Ocean Nova Евгений Вилков поможет разобраться в истории вопроса, причинах появления и популярности Lakehouse в России, а также расскажет, какими функциональным и техническим требованиям должно удовлетворять решение, чтобы считаться полноценной Lakehouse-платформой, и чем оно отличается от ПО самостоятельной разработки.

Каковы были предпосылки для появления решения класса Lakehouse на российском рынке? Когда и как вы начали работу над Data Ocean Nova?

Сдвиг парадигмы в подходе к архитектуре аналитических систем данных произошел далеко не вчера. Я занимаюсь проектной работой по построению систем интеграции и обработки данных с 2006 года. Долгое время я был частью команды крупнейшего интегратора, специализирующегося на этой области. Реализуя проекты по всему миру на различных вендорских и открытых решениях, мы с коллегами уже на рубеже 2017-2018 гг. поняли, в каком направлении развиваются технологии хранения и обработки больших данных: время традиционных систем вроде Teradata, Vertica, GreenPlum подходило к концу.

Многие наверняка помнят знаменитую в data мире статью «Hadoop is dead», вышедшую в 2019 году. Тогда каждый вендор и игрок на рынке трактовал ее в свою пользу, не уловив по сути декларацию начала нового витка эволюции обработки больших данных, а не смерти hadoop-технологий как таковых. Вектор развития направился в сторону разделяемых вычислений, гибкого по своей сути облачного подхода к инфраструктуре и предоставлению всех сервисов работы с данными в единой системе.

Видя востребованность таких решений на российском рынке и изучив все текущие предложения вендоров и облачных операторов с их планами развития, мы приняли решение начать разработку такой платформы самостоятельно. Еще в 2021 году во время моей работы у интегратора мы построили первые рабочие прототипы для ряда клиентов, так как технология уже тогда вызвала горячий интерес со стороны крупных data-площадок. Так зародилась идея создания семейства продуктов Data Ocean и в частности Lakehouse-платформы данных Data Ocean Nova.

Некоторые считают Lakehouse-подход временным трендом, интерес к которому скоро спадет, и все вернуться к традиционным системам. Что ты можешь сказать об этом?

В XIX веке в Англии во время промышленной революции широкое распространение получило движение луддитов. Это были люди, которые протестовали против внедрения машин в производство. На мой взгляд, участников рынка, которые продолжают в 2025 году держаться за традиционные системы массивной параллельной обработки shared-nothing архитектуры, вроде GreenPlum, можно назвать луддитами нашего времени, отрицающими прогресс.

Почему Lakehouse-платформа данных — лучшее решение для бизнеса?

Lakehouse-платформа может эффективно решать большинство задач работы с данными «в одной коробке». На практике это означает, что клиент значительно экономит на расходах на лицензии, поддержку, оборудование, численность персонала. Больше не нужно приобретать 3 или даже 4 отдельные системы под каждую конкретную задачу, дублировать в них данные, снижая эффективность и доступность data-сервисов для конечных пользователей, иметь большую команду сопровождения из-за разросшегося зоопарка решений. При использовании Lakehouse-платформ, в том числе Data Ocean Nova, все данные будут в одной системе без дублирования, а производительность и доступность сервисов будет выше, что делает подобный подход выгодным с точки зрения совокупной стоимости владения.

В каких отраслях бизнеса Lakehouse-подход будет актуален?

У нас есть клиенты во многих отраслях: финансовый сектор, электронная коммерция, ретейл, страхование, сетевой ресторанный бизнес. Широкая применимость и эффективность Data Ocean Nova доказаны клиентскими кейсами. В реализованных проектах Lakehouse-платформа используется как классическое хранилище данных, real-time и streaming data hub, вычислительная платформа для ML-системы или CRM-решения, озеро данных с разделяемым доменным подходом Data Mesh и так далее.

В настоящее время мы совместно с заказчиками из индустрий, ранее не представленных, проводим ряд пилотных проектов и понимаем, что повышенный интерес к Lakehouse-подходу и нашей платформе оправдан, так как подобные решения закрывают потребности клиентов из любой сферы в хранении и обработке данных.

Как отличить платформенное продуктовое решение от самостоятельной или опытной разработки?

Во-первых, необходимо разделять два понятия: Lakehouse как продукт и как некое архитектурное решение, разработанное самостоятельно. На мой взгляд, чтобы называть собственную разработку продуктом и тем более выходить с ней на рынок, нужно, чтобы она соответствовала всем техническим и функциональным требованиям конечных пользователей и не имела серых областей в архитектуре для DIY-доработок (do-it-yourself). Именно такая Lakehouse-платформа может позиционироваться как продукт с высокой добавленной стоимостью относительно конструктора «сделай сам» из готовых open source образов или кода.

Как показывает практика, во время внедрения Lakehouse и в процессе созревания ландшафта данных у всех пользователей возникают типовые вызовы и проблемы. Вот лишь некоторые из них:

  • Несогласованность работы различных применяемых технологий;
  • Потребность решения по disaster recovery (в том числе в конфигурации между различными центрами обработки данных);
  • Отсутствие режимов высокой доступности всех критических компонент; 
  • Неудовлетворение требованиям информационной безопасности по отраслевым стандартам и отраслевым регуляторам; 
  • Деградация производительности из-за отсутствия функционала автоматического обслуживания и оптимизации.

Главное помнить: если платформа «из коробки» избавляет вас от этих проблем, то вы экономите сотни, а возможно и тысячи человеко-дней, месяцы и годы разработки, нацеленные на поиск оптимального решения. Даже если вы пока не столкнулись с указанными вызовами, нужно предусматривать все возможности. При самостоятельной разработке Lakehouse-решения наличие внутренней команды даже в минимальном перечне сервисов (от 4-5 человек) экономически невыгодно по сравнению с приобретением готового решения. При этом всегда остаются большие риски потери персонала из-за смены работы или отсутствия завершенного решения как такового.

Во-вторых, платформа данных — это не только набор ПО с функциональными свойствами, а еще и инфраструктура. Не все клиенты находятся на нужной стадии зрелости, если говорить о необходимых компонентах. В таких случаях мы предлагаем решения партнеров-интеграторов для организации среды настройкой и поддержкой. Либо клиент может обратиться к нашим технологическим партнерам — лидерам российского рынка в области систем контейнеризации, чьи продукты гарантированно работают с Data Ocean Nova, что подтверждено соответствующими сертификатами.

В-третьих, например, Data Ocean Nova разрабатывалась как cloud агностик платформа. Это означает, что в зависимости от сценариев можно эффективно использовать имеющиеся публичные облачные сервисы, либо задействовать минимально достаточный набор: объектное хранилище S3 и managed kubernetes. А все остальные компоненты использовать из дистрибутива платформы. Такая парадигма позволяет клиенту получить оптимальные предложение и уровень сервиса. 

Выбирая полноценные Lakehouse-решения, клиент следует принципу bring your own cloud, при котором только он управляет своими расходами в облаке и разделяет сервисы на две категории: управление и поддержку которых можно доверить оператору и которые поставляются и управляются самой платформой. Использует он публичное или частное облако, устанавливает систему в гибридном режиме или on-premise — не важно. Вендор должен предоставить решение, на котором конечные пользователи смогут выполнять свои бизнес-задачи с момента установки, а не бороться с техническими проблемами.

Какие у Data Sapience есть планы по развитию Lakehouse-платформы Data Ocean Nova? Стоит ли ожидать каких-то изменений?

Мы занимаемся глубокой доработкой технологий, заимствованных из open source, и самое пристальное внимание уделяем производительности и стабильности работы движков, особенно при высокой конкурентной нагрузке. Наша задача — сделать так, чтобы Data Ocean Nova продолжала показывать высокие результаты с точки зрения производительности и сохраняла лидирующие позиции среди платформ больших данных. Мы всегда открыты к любого рода сравнительным тестированиям, в том числе публичным, и готовы показать на практике, что это не пустые слова или маркетинговая уловка.

Вторая большая задача, которую мы ставим на ближайший календарный год, — сделать платформу доступнее с точки зрения пользовательского опыта. Каждая отдельная группа, будь то разработчик, специалист data science или аналитик, должна иметь свое пользовательское представление в едином UX-интерфейсе самой платформы, а не работать с набором сторонних сервисов и клиентских приложений.

Сейчас скорость изменения технологий в ИТ-индустрии растет. То, что вчера еще казалось невероятным, сегодня уже находится в промышленной эксплуатации. К этим вызовам мы должны быть готовы. К таким технологиям я сейчас отношу SQL over GPU, кратный рост скорости передачи локальных сетей, кратное увеличение производительности дисковых подсистем. Если сейчас вы делаете ставку на решения, которые не смогут эффективно воспользоваться этими изменениями, то вы проиграете. Если вы выбираете стратегию: работать с какой-то одной базой данных или движком в своем продукте, то вы проиграете, потому что в конечном счете это не будет соответствовать интересам клиента.

Изначально в архитектурную концепцию платформы Data Ocean Nova мы закладывали возможность функционирования нескольких движков и фреймворков, допуская переключение конечных клиентских приложений с сохранением пользовательского опыта. Такой подход позволяет планировать внедрение без опасения, что в процессе разработки функционала или миграции появится game changer, который обнулит инвестиции. В составе Data Ocean Nova присутствуют все востребованные на рынке технологии: Spark, StarRocks, Impala, Trino. Но среди полутора десятка клиентских инсталляций нет таких, где задачи бизнеса решались бы с помощью какой-то одной из них! Сделанный нами на этапе проектирования выбор доказал свою эффективность и применимость на практике.

С технологическими партнерами мы планируем в текущем году представить программно-аппаратные комплексы, которые будут эффективными с точки зрения современного проектирования решений, использующих подсистему контейнеризации и разделение задач хранения и вычисления данных.

Какие перспективы развития Lakehouse-решений в России?

Мы видим резкое повышение интереса к технологическим решениям с архитектурным подходом Lakehouse, особенно в тех отраслях и предприятиях, которые либо откладывали импортозамещение, либо уже успели разочароваться и столкнуться с проблемами, выполнив миграцию на традиционные системы обработки данных.

Рынок сейчас прошел стадию принятия, и я думаю, что в ближайшее время стоит ожидать анонсов выхода на рынок новых решений, декларирующих концепцию Lakehouse. Это будут позитивные новости, так как у клиента появится конкурентный выбор, который будет стимулировать поставщиков услуг и вендоров улучшать сервис. Data Ocean Nova разрабатывается и развивается уже больше 3 лет, что позволяет сохранять лидирующие позиции на рынке. И задача нашей продуктовой команды — постоянно его наращивать, предлагая лучший продукт и сервис и помогая клиенту эволюционировать вместе с нами.

Интересное:

«Angel Relations Group» Тренды digital-репутации 2025

Новости отрасли:

Все новости:

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия