Data Sapience выпустила январское обновление платформы Data Ocean Nova
В платформу Data Ocean Nova было добавлено процедурное расширение для MPP-движков
Lakehouse-платформа данных Data Ocean Nova получила первое обновление в 2026 году. В релизе 2025.8.0 было реализовано процедурное расширение для MPP-движков. С 2026 года пользователи смогут переносить функционал хранимых процедур и свой прикладной опыт с legacy-систем предыдущего поколения в платформу данных Data Ocean Nova.
Детальный список изменений релиза 2025.8.0.
*Указаны изменения и улучшения, являющиеся собственной разработкой Data Sapience и не доступные в open source сообществе.
Lakehouse Procedure SQL (LPSQL)
Промышленный релиз
- Реализовано сохранение хранимых процедур в мета-хранилище платформы;
- Добавлен корректный парсинг выражений LPSQL во frontend с флагом включения функциональности;
- Доработана поддержка оператора SET;
- В LPSQL добавлена поддержка создания и управления хранимыми процедурами с функциональностью имперсонализации;
- Добавлена поддержка запуска LPSQL-запросов в backend с возвратом результатов последней операции SELECT;
- Реализована функция сохранения состояния словаря данных в сессии процедуры с последующей выборкой метаданных для генерации динамического SQL-кода.
Keycloak
- Исправлена проблема с lookup ресурсов для сервисов Impala, S3, Trino, StarRocks при включенной Keycloak-аутентификации путем добавления shaded Keycloak для HMS Client.
MetaAggregator
- В API MetaAggregator доработан запрос с эндпоинтом /tables, внесены следующие изменения:
- в тело ответа добавлены поля для расчета статистики по файловой структуре Iceberg-таблиц: metadata_files_count, manifest_lists_count, manifest_count;
- для табличных форматов, отличных от Iceberg, в поле partitions теперь возвращается количественное значение вместо флага;
- для Iceberg-таблиц в тело ответа добавлено поле last_engine_name , указывающее, каким движком (Flink, Spark, Trino, Impala, KafkaConnect или другим) была создана таблица.
Data Ocean Store
- Реализовано исключение отдельных по выбору бакетов для site replication;
- Возвращены страницы Site Replication и Tiering в пользовательский веб-интерфейс;
- Добавлена русификация для страниц управления репликацией и многоуровневым хранением;
- Улучшена доступность интерфейса для русскоязычных пользователей.
Nova StarRocks
- Оптимизирован механизм получения статистики;
- Реализовано управление ресурсными группами;
- Настроено управление ресурсными группами через оператор;
- Добавлен вывод строки подключения к Cluster Manager.
Nova Trino
- Внесены исправления TrinoProfileParser при получении информации о работающих запросах;
- Исправлены отсутствующие параметры в конфигурации Trino LDAP;
- Доработан состав полей в профиле запроса для TrinoProfileParser;
- Осуществлен переход на базовую 478 версию;
- Проведена параметризация использования cache.
IQuery
- Логика работы Impala Profile parser перенесена в сервис Iquery;
- В индекс добавлено новое поле — queryPlanText, предназначенное для хранения плана запроса в формате JSON;
- Из индекса удалено поле queryProfileThrift;
- В чарт добавлен временный флаг includeThriftPlanSummary, регулирующий запись Thrift-структур в индекс.
Audit
- Добавлена возможность параметризации схем Postgres в базе данных audit.
Nova Spark
- Обновлена версия Iceberg до 1.10.0.001 для Spark 4.01;
- Обновлена версия Iceberg до 1.8.1.004 для Spark 3.5.4;
Обновлена версия PyIceberg до 0.10.0.001; - Интегрирована поддержка каталога Polaris для PyIceberg и калькулятора обслуживания;
- Интегрирована валидация yaml-файла с конфигурацией;
- Apache DataFusion Comet изменена версия до 0.9.1.3;
- Обновлена версия Managed Iceberg Tables до 2.0.6, Managed Iceberg Tables до 2.0.7, обновлены пакеты и скрипты обслуживания;
- Добавлен логгер процессов обслуживания с поддержкой кастомных обработчиков;
- Усовершенствован алгоритм расчета ресурсов для охвата большего количества сценариев использования;
- Добавлен Spark session параметр проверки наличия parquet-файлов после записи в S3. Компактные логгеры запросов к S3;
- Реализован сервис журналирования состояния запущенных spark-задач и их SQL в opensearch.
Nova Impala
- Реализован механизм закрепления таблиц в кеше Impala с возможностью исключения определенных каталогов из ротации при исчерпании места;
- Добавлена возможность отмены запросов в frontend-компоненте Impala;
- Реализована стандартная авторизация по cookies в OAuth для WebUI в системе Impala с сохранением существующей функциональности;
- Оптимизированы запросы для подсчета инкрементальной колоночной статистики по Iceberg-таблицам с использованием функций date_trunc вместо from_timestamp для повышения производительности;
- Добавлена поддержка правил размещения запросов в ресурсных группах Impala и контроля доступа на основе групп пользователей Keycloak;
- Добавлена JWT-фильтрация по ролям пользователей вместо фильтрации по группам в Impala с разделением ролей на UI- и SQL-роли;
- Исправлены:
- проблема с регистрочувствительностью названий колонок в операции MERGE INTO;
- ошибка, когда в операциях MERGE и UPDATE при партицировании по месяцам используется функция date_trunc_month вместо from_timestamp для повышения производительности;
- ошибка определения локального IP-адреса, которая приводила к сбоям сетевого соединения при выполнении запросов в Impala;
- ошибка при создании таблиц Iceberg в Impala 4.5 — добавлена реализация метода isPuffinStatsWritingEnable;
- ошибка реализации iceberg_cache_in_catalog, которая приводила к большой нагрузке на catalogd и NPE;
- ошибка в Impala, при которой выдавалось сообщение об ошибке вместо корректного уведомления об отсутствии таблицы;
- Backport изменений и исправлений из Apache Impala:
- IMPALA-14391, IMPALA-14383 — исправлена ошибка с завершением процесса при приведении строки с временной меткой, содержащей смещение часового пояса, к типу DATE;
- IMPALA-14358 — исправлена ошибка, при которой Iceberg-таблица становилась недействительной, если сторонний движок обновлял данные в таблице;
- IMPALA-14336 — исправлена ошибка, при которой загружались сами таблицы при выводе списка таблиц, что тормозило работу системы;
- IMPALA-915 — добавлена возможность отмены запросов на уровне фронтенда в Impala;
- IMPALA-14496 — исправлена ошибка, вызывающая завершение работы Impala при записи нескольких файлов удаления на партицию в рамках одной операции DELETE.
Managed Iceberg Tables
- Расширены шаблоны для автоматического обслуживания;
- Добавлены очереди Yunikorn;
- Добавлена возможность переопределения конкретного handler;
- Исправлена ошибка выделения малого количества ресурсов при сильной фрагментации таблицы;
- Исправлена ошибка в работе скрипта expiring.py, который завершался с ошибкой, если в схеме есть пустая таблица.
HMS
- Исправлена ошибка, вызывающая долгую работу и задержки в обработке events на Hive и в Catalog.
HUE
- Добавлена возможность подключения к S3 в режиме pathStyle=false.
Рубрики
Предыдущая новость
Компания Data Sapience выступила на встрече Клуба цифровизаторов ПСБ
Следующая новость
AML-система для банка: 7 ключевых задач и инструменты для их решения
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Контакты
Рубрики
