РБК Компании

Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Как и чем заменять зарубежные DWH- и BI-решения, как заместить комплексную систему, работа которой полностью устраивала, где взять ресурсы и к кому обратиться
Выбор ИТ-решения
Задача

Поиск максимально соответствующих потребностям бизнеса BI и DWH-решений на российском рынке и/или среди зарубежных решений с доступными лицензиями и их комбинации.

Причина

В 2022 году в связи с февральскими событиями в ИТ-сфере начались изменения, которые продолжаются до сих пор. Изменяются подходы, инструменты, требования к информационным системам. Не обходят они и область DWH- и BI-разработки, где степень импортозамещения была минимальной.

Зачем нужны DWH и BI

DWH (Data Warehouse) и BI (Business Intelligence) — это неотъемлемые компоненты успешной работы многих компаний. DWH представляет собой централизованное хранилище данных, в котором данные из разных источников объединяются, упорядочиваются и хранятся в структурированном и оптимизированном виде. Это формирует единый и надежный источник информации для отчетности, аналитики, принятия управленческих решений. DWH позволяет эффективно хранить и управлять большими объемами данных, а также обеспечивает высокую производительность запросов.

BI, со своей стороны, предоставляет набор инструментов для извлечения, обработки, анализа и визуализации данных из DWH. BI помогает компаниям превратить данные в информацию, которую можно использовать для принятия обоснованных решений. Это позволяет компании лучше понимать свои бизнес-процессы, выявлять тренды и паттерны, принимать решения на основе данных. Вместе DWH и BI представляют собой основу системы управления данными и аналитики и помогают компаниям принимать более точные решения, оптимизировать бизнес-процессы, повышать эффективность и конкурентоспособность. DWH и BI являются необходимыми инструментами для компаний, использующих данные как стержень своего бизнеса.

Опыт команды ICL Soft, как сервисного провайдера

Мы работаем в этой области многие годы, и далее расскажем о том, с чем пришлось столкнуться нам, как сервисному провайдеру, какой путь мы прошли и с какими инструментами работаем сейчас.

Как мы работали раньше

Исторически сложилось так, что в подавляющем большинстве случаев на своих проектах мы внедряли большие и проверенные платформы, предоставляемые крупными зарубежными вендорами (Qlik, Tableau, Power BI). 

Qlik Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Power BIИсследование ICL Soft «Состояние рынка BI глазами интегратора»Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Эти платформы позволяли делать крупные энтерпрайз-решения. Конечно, у команды был опыт работы с отечественными вендорами, например, Форсайт и Visiology, часть команды умела работать и с opensource, и имела небольшие проекты в портфолио. Но было привычнее и удобнее вести разработку с использованием платформ, которые из коробки покрывают более 80-90% потребностей, возникающих при построении DWH- и BI-решений. Это и возможности по построению хранилищ данных, и разработка интеграционных пакетов любой сложности с почти любыми источниками, и витрины данных, и многомерные кубы с гибко настраиваемыми метриками, и построение красивых и функциональных отчетов и дашбордов, и гибкая настройка доступов согласно ролям — RBAC (role based access). Да и у заказчиков решений сложилось понимание о преимуществах такого рода платформ, и они относились к ним с бОльшим доверием. 

В нашей Компании с численностью сотрудников до 5000 человек на внутренних проектах BI мы также использовали зарубежные инструменты, в частности, стек Microsoft, включавший MS SQL Server DB Engine, SSIS, SSAS (Tabular и OLAP), Power BI (см. изображение). Эти технологии хорошо справлялись почти с любыми задачами, были удобными, простыми в поддержке и настройке, привычными и удовлетворяли потребности бизнес-пользователей, а Power BI позволял делать гибкие дашборды с хорошим UX/UI.

Что изменилось сейчас, и как мы отреагировали на изменения

Ситуация на рынке ПО поменялась и в общем, и для нашей команды в частности. Однако мы понимали, что стремление заказчиков становиться data-driven-компаниями хотя и может замедлиться или даже приостановиться на какое-то время, но не пропадет совсем. Поэтому мы решили расширять свой инструментарий и стали искать альтернативы более недоступным продуктам, которые могли бы быть востребованы заказчиками.

Первым делом мы создали группу для поиска решений и возможностей, и начали работать в двух направлениях: часть команды изучала Исследование «BI-круг Громова 2021», а часть сконцентрировалась на поиске информации по opensource в источниках в сети Интернет.

Исследование Громова, являвшееся обзором продуктов в основном отечественного рынка, поспособствовало формированию у нас фундаментального подхода к выбору BI-платформ вообще, т.е. не только российских, но и opensource, а также стало хорошей основой для формирования критериев сравнения рассматриваемых платформ как между собой, так и с ушедшими с нашего рынка проверенными и известными продуктами. В исследовании Громова было 5 основных блоков параметров, по которым сравнивались BI-платформы:

  1. базовые возможности,
  2. затраты на внедрение,
  3. работа с данными,
  4. визуализация,
  5. экспорт и шеринг.

Из этих 5 направлений выделены 16 критериев, по которым в Исследовании Громова были сделаны выводы и сводная таблица по BI-платформам. Основываясь на этих критериях, накладывая свой опыт и приоритеты, мы выделили свои параметры, по которым производили оценку BI-платформ.

Мы видели необходимость рассмотрения и оценки платформ по этим критериям не только между собой, но также сравнения функциональности с эталоном, который бы обладал, на наш взгляд, наиболее широкими возможностями, удобством и гибкостью. В качестве такого эталона мы выбрали Power BI, хотя на то же место могли претендовать Qlik и Tableau. Возможно, такой подход кому-то покажется спорным, ведь в качестве бенчмарка выбран очень зрелый продукт, над которым работает гигантская IT-корпорация с большими возможностями, в то время как отечественные продукты молоды и только наращивают функциональные возможности. Однако нужен был ориентир по желаемому функционалу, который при рассмотрении других платформ позволял бы задаваться вопросом: «можно ли реализовать вот это?», а если нельзя, то какие альтернативные варианты реализации платформа может предложить, и возможны ли обходные пути.

Топ платформ для разработки

Исследование «BI-круг Громова 2021» помогло нам сформировать шортлист из ТОП-10 платформ. Нам действительно хотелось познакомиться поближе со всеми платформами из этого списка и вообще с большинством представленных продуктов на отечественном рынке, однако, ввиду ограниченности временных ресурсов и количества сотрудников в нашей исследовательской команде, нам пришлось отобрать согласно выработанным критериям несколько платформ для более детального изучения на практике. Выбор был сделан в пользу Visiology, Форсайт и Yandex Datalens. 

ФорсайтИсследование ICL Soft «Состояние рынка BI глазами интегратора»

Visiology
Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Yandex Datalens
Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Первые две платформы привлекли нас широким набором функциональных возможностей, наличием мобильных версий, возможностями по расширению и доработке логики и визуала. Кроме того, как говорилось ранее, у нас был опыт работы с этими платформами и вендорами. А Yandex DataLens заинтересовал тем, что имеет достаточный и простой в настройке функционал, открытые источники для изучения, небольшой порог вхождения и доступен в облаке (помним про тренд переезда в облака).

Первый опыт

Связавшись с вендорами, мы приступили к разворачиванию (деплою) тестовых стендов в своей инфраструктуре. Мы получили базовую консультацию и ссылки на имевшиеся материалы, и принялись за разработку с использованием платформ. Кроме вышеупомянутой эталонной платформы Power BI, мы также выбрали часть большого BI-проекта, воспроизведение которого на отечественных платформах и opensource было бы желаемой целью для нас. Под воспроизведением здесь имеется в виду не полное копирование или дублирование, а такая реализация, которая позволяла бы так же эффективно работать с данными и принимать решения, как и при использовании исходной системы. В ходе разработки мы познакомились с особенностями и возможностями каждой из платформ: что-то получилось реализовать, что-то нет, где-то требовалось пересмотреть подходы к реализации. Платформы справились с 80% поставленных задач. Здесь мы не стали выбирать фаворита, а сделали выводы о том, что в различных проектах стоят различные задачи, которые будет удобнее решать с помощью того или иного инструмента.

Часть нашей команды, занимавшаяся исследованием opensource, пришла примерно к таким же выводам, что в отдельных случаях придется использовать разные подходы к реализации проектов и разный набор инструментов. В случае opensource нет платформы, которая решала бы 2-3 задачи одновременно. Каждый инструмент решает отдельную задачу. В целом, так же было и в случае Microsoft, и в случае отечественных платформ, однако там инструменты поставлялись в виде отдельных функций (модулей, фич) платформ, которые были доступны из коробки, либо же были логически и органично связаны между собой. Выбирая opensource, приходится следить за версиями и совместимостью, а это требует чуть более расширенных знаний языков программирования (иногда различных) и больших ресурсов DevOps-специалистов. Бесспорным преимуществом компоновки opensource-инструментов для решения BI-задач является возможность масштабирования каждого отдельного инструмента: будь то база данных, или оркестратор задач, или визуализатор.

Развитие платформ

За то время, пока длилась основная фаза нашего исследовательского проекта, большинство из рассматриваемых платформ обновлялись, некоторые неоднократно, а часть из них сделали инкремент даже в major-версии. Среди таковых есть и отечественные платформы, что нас особенно радует. Хочется отметить, что исследованные инструменты развиваются интенсивно, предлагая новый функционал, двигаясь в лучшую сторону. Например, в Yandex Datalens произошло значительное событие, на наш взгляд: появилась отдельная версия Yandex Datalens, доступная для использования on premises с установкой в docker.

Исследование ICL Soft «Состояние рынка BI глазами интегратора»
Yandex Datalens

Хотя проект находится на самом начальном этапе, хочется отметить, что эта версия Yandex Datalens предоставляет достаточный набор инструментов для визуализации, возможности построения дашбордов и работы с данными и является интуитивно понятным и удобным средством разработки, претендуя быть отличным self-service BI-инструментом. Однако на данный момент функционал Yandex Datalens с открытым исходным кодом удовлетворяет не всем определенным нами критериям. Мы продолжаем держать в фокусе и следить за развитием, поскольку видим большой потенциал за Datalens.

В с писке рассмотренных нами opensource-инструментов: Apache Superset, Metabase, DataHub, Apache Airflow, HDFS, Apache Spark, Clickhouse, Greenplum, Apache Drill, Apache NiFi, Apache Atlas и др. На данный момент мы продолжаем углубленное изучение этих инструментов, а также поиск и рассмотрение новых. Однако в общем случае для стандартных задач мы выбрали HDFS для слоя сырых данных, Apache Airflow для оркестрации, PostgreSQL в качестве базы данных (в некоторых случаях слой Data Mart Tables может быть реализован там же), Clickhouse для слоя витрин данных и Apache Superset для визуализации. Исследование ICL Soft «Состояние рынка BI глазами интегратора»

На последнем инструменте (Apache Superset) хотелось бы остановиться чуть подробнее. Как уже говорилось ранее, в части визуализации данных мы хотели приблизиться к функциональным возможностям и гибкости Power BI. В ходе рассмотрения Apache Superset мы пришли к выводу, что коробочная версия инструмента не позволяет удовлетворить привычные пожелания наших бизнес-пользователей в полном объеме. К имеющимся функциональным возможностям мы бы хотели добавить в общей сложности еще 54 фичи, которые были бы полезны и удобны нам, как разработчикам, а также бизнес-пользователям. Количество выделенных доработок кажется внушительным, но они включают функционал различных масштабов: от добавления новых возможностей в саму платформу до кастомизации существующих настроек. 

Мы приняли решение сделать свой бранч и доработать платформу: во-первых, под общие задачи и пожелания, которые, как мы видим, будут возникать на разных проектах, и, во-вторых, под себя, как разработчиков. Таким образом, нами ведется доработка платформы Apache Superset, которую мы сейчас активно используем для новых внутренних задач BI и в качестве инструмента для замены уже существовавших решений. В дальнейшем мы планируем масштабировать решение и предлагать доработанную платформу заказчикам в качестве одного из возможных вариантов для реализации проектов.

Подводим итоги: выбираем решение не по критериям, а под задачи

Подводя итоги, скажем, что на текущий момент мы не можем остановиться на какой-то одной платформе, которая позволяла бы универсально решать любую задачу, возникающую при разработке DWH- и BI-проектов. Исходить нужно всегда из проектных потребностей и сочетать различные инструменты, комбинируя их в одну информационную систему для решения задач DWH и BI. На текущий момент работаем со следующими инструментами/платформами:Исследование ICL Soft «Состояние рынка BI глазами интегратора»

Одним из успешных примеров использования комплекса различных платформ и инструментов для структуризации данных стал кейс одного из государственных заказчиков. 

ИТ-инфраструктура клиента не позволяла оперативно получать из системы аналитические данные, к тому же формат выгрузки был неудобен для последующей обработки и анализа. Требовалось сократить издержки на получение отчетов из системы, повысить достоверность данных и оптимизировать процесс принятия решений.

Было принято решение разработать и внедрить информационную систему для сбора, агрегации и обработки данных с возможностями масштабирования решения и балансировки нагрузки. Одним из требований к ИС было наличие инструмента визуализации, включающего виджет географическая карта.

Для этих целей были выбраны Arenadata Hadoop, Clickhouse для слоя витрин данных и облачный Yandex Datalens для визуализации. Arenadata Hadoop предоставил широкий набор инструментов для обработки данных (в частности, Airflow, Hadoop, HIVE, Apache Spark), а также собственную систему управления платформой. Clickhouse стал подходящим инструментом для хранения рассчитанных метрик в разрезе всех необходимых измерений. А Yandex Datalens обеспечил хорошие возможности для отображения данных, включая географические карты с выводом метрик и окраской муниципальных районов в рамках региона. 

В результате клиент получил комплексную масштабируемую BI-систему, позволяющую агрегировать и обрабатывать данные, а также визуализировать эти данные в дашбордах. Заказчик отметил сокращение сроков и трудозатрат на получение регламентированной и управленческой отчетности и повышение эффективности принятия решений.

Заключение

Мы не предлагаем единого решения, которое бы удовлетворяло абсолютно всем целям каждой компании, но путем анализа ситуации подбираем оптимальный путь для каждого заказчика:

  1. BI с использованием зарубежных платформ для тех клиентов, которые имеют возможность приобрести лицензии, предпочитают сохранить текущую платформу и не хотят уступать в качестве, при этом не желают идти на компромиссные решения.
  2. BI на отечественных платформах в рамках стратегии импортозамещения (миграции существующих решений).
  3. BI с использованием комбинации различных инструментов open source, дополненных Apache Superset для визуализации, для тех, кто ценит гибкость, функциональность и независимость от вендоров.

Это, на наш взгляд, является квинтэссенцией текущей ситуации на рынке.

Результат

Сформирован реестр наиболее релевантных запросам бизнеса BI и DWH-решений отечественных разработчиков и зарубежных вендоров, продолжающих деятельность на территории РФ. Проанализирован функционал существующих решений, внесены и протестированы возможности доработок согласно индивидуальным требованиям потенциальных заказчиков. Имеется успешный опыт разработки и внедрения ИС для сбора, агрегации и обработки данных с возможностями масштабирования решения. Команда готова к новым проектам.

Интересное:

Новости отрасли:

ZAYMEX Что такое ключевая ставка ЦБ РФ

Все новости:

Профиль

Дата регистрации04.09.2017
Уставной капитал2 000 000,00 ₽
Юридический адрес Республика Татарстан (Татарстан) Р-Н ЛАИШЕВСКИЙ С. УСАДЫ УЛ. ДОРОЖНАЯ Д. 42 КОРПУС 1
ОГРН 1171690091980
ИНН / КПП 1624016042 162401001

Контакты

Адрес 422616, Россия, Лаишевский район РТ, п. Усады, ул. Дорожная, 42 — Особая экономическая зона «Иннополис»
Телефон +78003339870

Социальные сети