Top.Mail.Ru
РБК Компании
Главная Data Sapience 20 января 2026

Data Sapience выпустила январское обновление платформы Data Ocean Nova

В платформу Data Ocean Nova было добавлено процедурное расширение для MPP-движков
Фоновое изображение Data Sapience
Источник изображения: Личный архив Data Sapience

Lakehouse-платформа данных Data Ocean Nova получила первое обновление в 2026 году. В релизе 2025.8.0 было реализовано процедурное расширение для MPP-движков. С 2026 года пользователи смогут переносить функционал хранимых процедур и свой прикладной опыт с legacy-систем предыдущего поколения в платформу данных Data Ocean Nova. 

Детальный список изменений релиза 2025.8.0. 
*Указаны изменения и улучшения, являющиеся собственной разработкой Data Sapience и не доступные в open source сообществе.

Lakehouse Procedure SQL (LPSQL) 
Промышленный релиз

  • Реализовано сохранение хранимых процедур в мета-хранилище платформы;
  • Добавлен корректный парсинг выражений LPSQL во frontend с флагом включения функциональности;
  • Доработана поддержка оператора SET;
  • В LPSQL добавлена поддержка создания и управления хранимыми процедурами с функциональностью имперсонализации;
  • Добавлена поддержка запуска LPSQL-запросов в backend с возвратом результатов последней операции SELECT;
  • Реализована функция сохранения состояния словаря данных в сессии процедуры с последующей выборкой метаданных для генерации динамического SQL-кода.

Смотреть ролик «Демонстрация функциональных возможностей процедурного расширения MPP движков платформы данных Data Ocean Nova»

Keycloak

  • Исправлена проблема с lookup ресурсов для сервисов Impala, S3, Trino, StarRocks при включенной Keycloak-аутентификации путем добавления shaded Keycloak для HMS Client.

MetaAggregator

  • В API MetaAggregator доработан запрос с эндпоинтом /tables, внесены следующие изменения:
    • в тело ответа добавлены поля для расчета статистики по файловой структуре Iceberg-таблиц: metadata_files_count, manifest_lists_count, manifest_count;
    • для табличных форматов, отличных от Iceberg, в поле partitions теперь возвращается количественное значение вместо флага;
    • для Iceberg-таблиц в тело ответа добавлено поле last_engine_name , указывающее, каким движком (Flink, Spark, Trino, Impala, KafkaConnect или другим) была создана таблица.

Data Ocean Store

  • Реализовано исключение отдельных по выбору бакетов для site replication;
  • Возвращены страницы Site Replication и Tiering в пользовательский веб-интерфейс;
  • Добавлена русификация для страниц управления репликацией и многоуровневым хранением;
  • Улучшена доступность интерфейса для русскоязычных пользователей.

Nova StarRocks 

  • Оптимизирован механизм получения статистики;
  • Реализовано управление ресурсными группами;
  • Настроено управление ресурсными группами через оператор;
  • Добавлен вывод строки подключения к Cluster Manager.

Nova Trino

  • Внесены исправления TrinoProfileParser при получении информации о работающих запросах;
  • Исправлены отсутствующие параметры в конфигурации Trino LDAP;
  • Доработан состав полей в профиле запроса для TrinoProfileParser;
  • Осуществлен переход на базовую 478 версию;
  • Проведена параметризация использования cache.

IQuery

  • Логика работы Impala Profile parser перенесена в сервис Iquery;
  • В индекс добавлено новое поле — queryPlanText, предназначенное для хранения плана запроса в формате JSON;
  • Из индекса удалено поле queryProfileThrift;
  • В чарт добавлен временный флаг includeThriftPlanSummary, регулирующий запись Thrift-структур в индекс.

Audit

  • Добавлена возможность параметризации схем Postgres в базе данных audit.

Nova Spark

  • Обновлена версия Iceberg до 1.10.0.001 для Spark 4.01;
  • Обновлена версия Iceberg до 1.8.1.004 для Spark 3.5.4;
    Обновлена версия PyIceberg до 0.10.0.001;
  • Интегрирована поддержка каталога Polaris для PyIceberg и калькулятора обслуживания;
  • Интегрирована валидация yaml-файла с конфигурацией;
  • Apache DataFusion Comet изменена версия до 0.9.1.3;
  • Обновлена версия Managed Iceberg Tables до 2.0.6, Managed Iceberg Tables до 2.0.7, обновлены пакеты и скрипты обслуживания;
  • Добавлен логгер процессов обслуживания с поддержкой кастомных обработчиков;
  • Усовершенствован алгоритм расчета ресурсов для охвата большего количества сценариев использования;
  • Добавлен Spark session параметр проверки наличия parquet-файлов после записи в S3. Компактные логгеры запросов к S3;
  • Реализован сервис журналирования состояния запущенных spark-задач и их SQL в opensearch.

Nova Impala

  • Реализован механизм закрепления таблиц в кеше Impala с возможностью исключения определенных каталогов из ротации при исчерпании места;
  • Добавлена возможность отмены запросов в frontend-компоненте Impala;
  • Реализована стандартная авторизация по cookies в OAuth для WebUI в системе Impala с сохранением существующей функциональности;
  • Оптимизированы запросы для подсчета инкрементальной колоночной статистики по Iceberg-таблицам с использованием функций date_trunc вместо from_timestamp для повышения производительности;
  • Добавлена поддержка правил размещения запросов в ресурсных группах Impala и контроля доступа на основе групп пользователей Keycloak;
  • Добавлена JWT-фильтрация по ролям пользователей вместо фильтрации по группам в Impala с разделением ролей на UI- и SQL-роли;
  • Исправлены:
    • проблема с регистрочувствительностью названий колонок в операции MERGE INTO;
    • ошибка, когда в операциях MERGE и UPDATE при партицировании по месяцам используется функция date_trunc_month вместо from_timestamp для повышения производительности;
    • ошибка определения локального IP-адреса, которая приводила к сбоям сетевого соединения при выполнении запросов в Impala;
    • ошибка при создании таблиц Iceberg в Impala 4.5 — добавлена реализация метода isPuffinStatsWritingEnable;
    • ошибка реализации iceberg_cache_in_catalog, которая приводила к большой нагрузке на catalogd и NPE;
    • ошибка в Impala, при которой выдавалось сообщение об ошибке вместо корректного уведомления об отсутствии таблицы;
  • Backport изменений и исправлений из Apache Impala:
    • IMPALA-14391, IMPALA-14383 — исправлена ошибка с завершением процесса при приведении строки с временной меткой, содержащей смещение часового пояса, к типу DATE;
    • IMPALA-14358 — исправлена ошибка, при которой Iceberg-таблица становилась недействительной, если сторонний движок обновлял данные в таблице;
    • IMPALA-14336 — исправлена ошибка, при которой загружались сами таблицы при выводе списка таблиц, что тормозило работу системы;
    • IMPALA-915 — добавлена возможность отмены запросов на уровне фронтенда в Impala;
    • IMPALA-14496 — исправлена ошибка, вызывающая завершение работы Impala при записи нескольких файлов удаления на партицию в рамках одной операции DELETE.

Managed Iceberg Tables

  • Расширены шаблоны для автоматического обслуживания; 
  • Добавлены очереди Yunikorn;
  • Добавлена возможность переопределения конкретного handler;
  • Исправлена ошибка выделения малого количества ресурсов при сильной фрагментации таблицы;
  • Исправлена ошибка в работе скрипта expiring.py, который завершался с ошибкой, если в схеме есть пустая таблица.

HMS

  • Исправлена ошибка, вызывающая долгую работу и задержки в обработке events на Hive и в Catalog.

HUE

  • Добавлена возможность подключения к S3 в режиме pathStyle=false.

Интересное:

Новости отрасли:

Все новости:

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия