Создание единой платформы Data Research Platform (DRP) в РСХБ-Интех
Команда РСХБ-Интех (дочерняя компания РСХБ) реализовала проект по созданию большой песочницы на Greenplum для всех аналитиков банка
Перед командой РСХБ-Интех (дочерней компании РСХБ) стояла задача по созданию большой песочницы на Greenplum для всех аналитиков одного из крупнейших банков в России. У РСХБ было несколько разрозненных систем с большим количеством таблиц в разных песочницах, что создавало сложности в управлении данными. Важно и то, что песочницы еще были на разных СУБД — Oracle, MS SQL. Единую песочницу данных нужно было создать на импортозамещенном ПО. При этом по локальным песочницам отсутствовала какая-либо документация.
Команда приняла решение объединить все системы в единый кластер на базе Greenplum от Arenadata, используя Airflow и PXF для ETL-процессов. Проект включал миграцию порядка 10 000 таблиц из различных источников, таких как АСРМ,Озеро, Хранилище, пользовательских песочниц и других. В ходе работы эксперты столкнулись с множеством технических и организационных вызовов: отсутствием документации, частой сменой команд, желанием перенести все «как есть».
- Команда РСХБ-Интех запустила полностью работоспособную систему. Ровно полгода занял процесс от разработки до внедрения с учетом DevOps. В июне 2024 года решили, что будем переписывать движок. В декабре 2024 года в расписание встали на загрузку первые 200 объектов. По движку основные работы завершены. По загрузке несистемных данных мы сделали отдельное решение на базе платформы ИИ. Первые бизнес-подразделения начали его использовать для небольших объемов. Переносятся песочницы. Архивные прогрузки практически везде уже закончились. 2,5 тысячи объектов из трех систем-источников обновляются в течение 1 часа и 40 минут.
- Один из ключевых моментов успеха проекта — состав команды. В проекте приняли участие product-owner, технический product-owner, руководитель проекта, бизнес-аналитик, системный аналитик и несколько разработчиков.
- В банке появился свой собственный ETL фреймворк, который написан на базе airflow и python. Отдельный кластер Greenplum, на котором выделено 100 ТБ, но планируется выделять больше ресурсов, так как понятен рост данных.
- Команда разделила GreenPlum на отдельные выделенные области (схемы для каждого бизнес-подразделения), в которых бизнес может создавать витрины, загружать данные из локальных файлов, писать процедуры. Выделили схему, область GL, в которой хранится и обновляется информация из систем источников, таких как двух хранилищ данных и Озера. DRP-песочница заняла место рядом с Озером данных и хранилищем.
- В DRP загружается базовый слой и почти весь бизнес-слой хранилища данных, из Озера забираются точечно витрины для определенных задач. В планах интеграция с ODS слоем КХД. Для реализации задач по визуализации данных и построения дашбордов и отчетов создана интеграция с BI-платформой Visiology. Для построения моделей данных и исследования данных создана интеграция с платформой искусственного интеллекта ( RAISA).
Главные итоги — созданы единое место исследования и анализа данных, а также подготовка ad-hoc запросов. Все объекты, загруженные в систему, описаны в бизнес-глоссарии и актуализированы на Confluence.
В результате проекта в РСХБ была создана единая платформа с централизованным управлением данными, едиными стандартами загрузки и доступа. Команда разработала новую ролевую модель, механизмы загрузки данных, интеграции с источниками и ежедневно загружает и обновляет более 2500 объектов. Ключевые достижения проекта — единая система сопровождения, полное описание объектов, централизованное место для анализа данных и управления как с IT, так и с бизнес-перспективы.
Песочницей пользуется более 500 пользователей головного офиса Россельхозбанка. Банк полностью ушел от маленьких песочниц, которые было сложно сопровождать. Сейчас каждое бизнес-подразделение может удобно использовать данные, которые раньше приходилось запрашивать у коллег в виде файлов или загружать из исходных систем. Добавление новых объектов из системных источников происходит практически по письму. Бизнес сам может открывать доступ к этим данным. Это единственная система, которую нужно сопровождать и развивать.
Интересное:
Новости отрасли:
Все новости:
Публикация компании


