Исследование ICL Soft «Состояние рынка BI глазами интегратора»
Как и чем заменять зарубежные DWH- и BI-решения, как заместить комплексную систему, работа которой полностью устраивала, где взять ресурсы и к кому обратитьсяЗадача:
Поиск максимально соответствующих потребностям бизнеса BI и DWH-решений на российском рынке и/или среди зарубежных решений с доступными лицензиями и их комбинации.
Причина:
В 2022 году в связи с февральскими событиями в ИТ-сфере начались изменения, которые продолжаются до сих пор. Изменяются подходы, инструменты, требования к информационным системам. Не обходят они и область DWH- и BI-разработки, где степень импортозамещения была минимальной.
Зачем нужны DWH и BI
DWH (Data Warehouse) и BI (Business Intelligence) — это неотъемлемые компоненты успешной работы многих компаний. DWH представляет собой централизованное хранилище данных, в котором данные из разных источников объединяются, упорядочиваются и хранятся в структурированном и оптимизированном виде. Это формирует единый и надежный источник информации для отчетности, аналитики, принятия управленческих решений. DWH позволяет эффективно хранить и управлять большими объемами данных, а также обеспечивает высокую производительность запросов.
BI, со своей стороны, предоставляет набор инструментов для извлечения, обработки, анализа и визуализации данных из DWH. BI помогает компаниям превратить данные в информацию, которую можно использовать для принятия обоснованных решений. Это позволяет компании лучше понимать свои бизнес-процессы, выявлять тренды и паттерны, принимать решения на основе данных. Вместе DWH и BI представляют собой основу системы управления данными и аналитики и помогают компаниям принимать более точные решения, оптимизировать бизнес-процессы, повышать эффективность и конкурентоспособность. DWH и BI являются необходимыми инструментами для компаний, использующих данные как стержень своего бизнеса.
Опыт команды ICL Soft, как сервисного провайдера
Мы работаем в этой области многие годы, и далее расскажем о том, с чем пришлось столкнуться нам, как сервисному провайдеру, какой путь мы прошли и с какими инструментами работаем сейчас.
Как мы работали раньше
Исторически сложилось так, что в подавляющем большинстве случаев на своих проектах мы внедряли большие и проверенные платформы, предоставляемые крупными зарубежными вендорами (Qlik, Tableau, Power BI).
Qlik
Power BI
Эти платформы позволяли делать крупные энтерпрайз-решения. Конечно, у команды был опыт работы с отечественными вендорами, например, Форсайт и Visiology, часть команды умела работать и с opensource, и имела небольшие проекты в портфолио. Но было привычнее и удобнее вести разработку с использованием платформ, которые из коробки покрывают более 80-90% потребностей, возникающих при построении DWH- и BI-решений. Это и возможности по построению хранилищ данных, и разработка интеграционных пакетов любой сложности с почти любыми источниками, и витрины данных, и многомерные кубы с гибко настраиваемыми метриками, и построение красивых и функциональных отчетов и дашбордов, и гибкая настройка доступов согласно ролям — RBAC (role based access). Да и у заказчиков решений сложилось понимание о преимуществах такого рода платформ, и они относились к ним с бОльшим доверием.
В нашей Компании с численностью сотрудников до 5000 человек на внутренних проектах BI мы также использовали зарубежные инструменты, в частности, стек Microsoft, включавший MS SQL Server DB Engine, SSIS, SSAS (Tabular и OLAP), Power BI (см. изображение). Эти технологии хорошо справлялись почти с любыми задачами, были удобными, простыми в поддержке и настройке, привычными и удовлетворяли потребности бизнес-пользователей, а Power BI позволял делать гибкие дашборды с хорошим UX/UI.
Что изменилось сейчас, и как мы отреагировали на изменения
Ситуация на рынке ПО поменялась и в общем, и для нашей команды в частности. Однако мы понимали, что стремление заказчиков становиться data-driven-компаниями хотя и может замедлиться или даже приостановиться на какое-то время, но не пропадет совсем. Поэтому мы решили расширять свой инструментарий и стали искать альтернативы более недоступным продуктам, которые могли бы быть востребованы заказчиками.
Первым делом мы создали группу для поиска решений и возможностей, и начали работать в двух направлениях: часть команды изучала Исследование «BI-круг Громова 2021», а часть сконцентрировалась на поиске информации по opensource в источниках в сети Интернет.
Исследование Громова, являвшееся обзором продуктов в основном отечественного рынка, поспособствовало формированию у нас фундаментального подхода к выбору BI-платформ вообще, т.е. не только российских, но и opensource, а также стало хорошей основой для формирования критериев сравнения рассматриваемых платформ как между собой, так и с ушедшими с нашего рынка проверенными и известными продуктами. В исследовании Громова было 5 основных блоков параметров, по которым сравнивались BI-платформы:
- базовые возможности,
- затраты на внедрение,
- работа с данными,
- визуализация,
- экспорт и шеринг.
Из этих 5 направлений выделены 16 критериев, по которым в Исследовании Громова были сделаны выводы и сводная таблица по BI-платформам. Основываясь на этих критериях, накладывая свой опыт и приоритеты, мы выделили свои параметры, по которым производили оценку BI-платформ.
Мы видели необходимость рассмотрения и оценки платформ по этим критериям не только между собой, но также сравнения функциональности с эталоном, который бы обладал, на наш взгляд, наиболее широкими возможностями, удобством и гибкостью. В качестве такого эталона мы выбрали Power BI, хотя на то же место могли претендовать Qlik и Tableau. Возможно, такой подход кому-то покажется спорным, ведь в качестве бенчмарка выбран очень зрелый продукт, над которым работает гигантская IT-корпорация с большими возможностями, в то время как отечественные продукты молоды и только наращивают функциональные возможности. Однако нужен был ориентир по желаемому функционалу, который при рассмотрении других платформ позволял бы задаваться вопросом: «можно ли реализовать вот это?», а если нельзя, то какие альтернативные варианты реализации платформа может предложить, и возможны ли обходные пути.
Топ платформ для разработки
Исследование «BI-круг Громова 2021» помогло нам сформировать шортлист из ТОП-10 платформ. Нам действительно хотелось познакомиться поближе со всеми платформами из этого списка и вообще с большинством представленных продуктов на отечественном рынке, однако, ввиду ограниченности временных ресурсов и количества сотрудников в нашей исследовательской команде, нам пришлось отобрать согласно выработанным критериям несколько платформ для более детального изучения на практике. Выбор был сделан в пользу Visiology, Форсайт и Yandex Datalens.
Форсайт
Visiology
Yandex Datalens
Первые две платформы привлекли нас широким набором функциональных возможностей, наличием мобильных версий, возможностями по расширению и доработке логики и визуала. Кроме того, как говорилось ранее, у нас был опыт работы с этими платформами и вендорами. А Yandex DataLens заинтересовал тем, что имеет достаточный и простой в настройке функционал, открытые источники для изучения, небольшой порог вхождения и доступен в облаке (помним про тренд переезда в облака).
Первый опыт
Связавшись с вендорами, мы приступили к разворачиванию (деплою) тестовых стендов в своей инфраструктуре. Мы получили базовую консультацию и ссылки на имевшиеся материалы, и принялись за разработку с использованием платформ. Кроме вышеупомянутой эталонной платформы Power BI, мы также выбрали часть большого BI-проекта, воспроизведение которого на отечественных платформах и opensource было бы желаемой целью для нас. Под воспроизведением здесь имеется в виду не полное копирование или дублирование, а такая реализация, которая позволяла бы так же эффективно работать с данными и принимать решения, как и при использовании исходной системы. В ходе разработки мы познакомились с особенностями и возможностями каждой из платформ: что-то получилось реализовать, что-то нет, где-то требовалось пересмотреть подходы к реализации. Платформы справились с 80% поставленных задач. Здесь мы не стали выбирать фаворита, а сделали выводы о том, что в различных проектах стоят различные задачи, которые будет удобнее решать с помощью того или иного инструмента.
Часть нашей команды, занимавшаяся исследованием opensource, пришла примерно к таким же выводам, что в отдельных случаях придется использовать разные подходы к реализации проектов и разный набор инструментов. В случае opensource нет платформы, которая решала бы 2-3 задачи одновременно. Каждый инструмент решает отдельную задачу. В целом, так же было и в случае Microsoft, и в случае отечественных платформ, однако там инструменты поставлялись в виде отдельных функций (модулей, фич) платформ, которые были доступны из коробки, либо же были логически и органично связаны между собой. Выбирая opensource, приходится следить за версиями и совместимостью, а это требует чуть более расширенных знаний языков программирования (иногда различных) и больших ресурсов DevOps-специалистов. Бесспорным преимуществом компоновки opensource-инструментов для решения BI-задач является возможность масштабирования каждого отдельного инструмента: будь то база данных, или оркестратор задач, или визуализатор.
Развитие платформ
За то время, пока длилась основная фаза нашего исследовательского проекта, большинство из рассматриваемых платформ обновлялись, некоторые неоднократно, а часть из них сделали инкремент даже в major-версии. Среди таковых есть и отечественные платформы, что нас особенно радует. Хочется отметить, что исследованные инструменты развиваются интенсивно, предлагая новый функционал, двигаясь в лучшую сторону. Например, в Yandex Datalens произошло значительное событие, на наш взгляд: появилась отдельная версия Yandex Datalens, доступная для использования on premises с установкой в docker.
Хотя проект находится на самом начальном этапе, хочется отметить, что эта версия Yandex Datalens предоставляет достаточный набор инструментов для визуализации, возможности построения дашбордов и работы с данными и является интуитивно понятным и удобным средством разработки, претендуя быть отличным self-service BI-инструментом. Однако на данный момент функционал Yandex Datalens с открытым исходным кодом удовлетворяет не всем определенным нами критериям. Мы продолжаем держать в фокусе и следить за развитием, поскольку видим большой потенциал за Datalens.
В с писке рассмотренных нами opensource-инструментов: Apache Superset, Metabase, DataHub, Apache Airflow, HDFS, Apache Spark, Clickhouse, Greenplum, Apache Drill, Apache NiFi, Apache Atlas и др. На данный момент мы продолжаем углубленное изучение этих инструментов, а также поиск и рассмотрение новых. Однако в общем случае для стандартных задач мы выбрали HDFS для слоя сырых данных, Apache Airflow для оркестрации, PostgreSQL в качестве базы данных (в некоторых случаях слой Data Mart Tables может быть реализован там же), Clickhouse для слоя витрин данных и Apache Superset для визуализации.
На последнем инструменте (Apache Superset) хотелось бы остановиться чуть подробнее. Как уже говорилось ранее, в части визуализации данных мы хотели приблизиться к функциональным возможностям и гибкости Power BI. В ходе рассмотрения Apache Superset мы пришли к выводу, что коробочная версия инструмента не позволяет удовлетворить привычные пожелания наших бизнес-пользователей в полном объеме. К имеющимся функциональным возможностям мы бы хотели добавить в общей сложности еще 54 фичи, которые были бы полезны и удобны нам, как разработчикам, а также бизнес-пользователям. Количество выделенных доработок кажется внушительным, но они включают функционал различных масштабов: от добавления новых возможностей в саму платформу до кастомизации существующих настроек.
Мы приняли решение сделать свой бранч и доработать платформу: во-первых, под общие задачи и пожелания, которые, как мы видим, будут возникать на разных проектах, и, во-вторых, под себя, как разработчиков. Таким образом, нами ведется доработка платформы Apache Superset, которую мы сейчас активно используем для новых внутренних задач BI и в качестве инструмента для замены уже существовавших решений. В дальнейшем мы планируем масштабировать решение и предлагать доработанную платформу заказчикам в качестве одного из возможных вариантов для реализации проектов.
Подводим итоги: выбираем решение не по критериям, а под задачи
Подводя итоги, скажем, что на текущий момент мы не можем остановиться на какой-то одной платформе, которая позволяла бы универсально решать любую задачу, возникающую при разработке DWH- и BI-проектов. Исходить нужно всегда из проектных потребностей и сочетать различные инструменты, комбинируя их в одну информационную систему для решения задач DWH и BI. На текущий момент работаем со следующими инструментами/платформами:
Одним из успешных примеров использования комплекса различных платформ и инструментов для структуризации данных стал кейс одного из государственных заказчиков.
ИТ-инфраструктура клиента не позволяла оперативно получать из системы аналитические данные, к тому же формат выгрузки был неудобен для последующей обработки и анализа. Требовалось сократить издержки на получение отчетов из системы, повысить достоверность данных и оптимизировать процесс принятия решений.
Было принято решение разработать и внедрить информационную систему для сбора, агрегации и обработки данных с возможностями масштабирования решения и балансировки нагрузки. Одним из требований к ИС было наличие инструмента визуализации, включающего виджет географическая карта.
Для этих целей были выбраны Arenadata Hadoop, Clickhouse для слоя витрин данных и облачный Yandex Datalens для визуализации. Arenadata Hadoop предоставил широкий набор инструментов для обработки данных (в частности, Airflow, Hadoop, HIVE, Apache Spark), а также собственную систему управления платформой. Clickhouse стал подходящим инструментом для хранения рассчитанных метрик в разрезе всех необходимых измерений. А Yandex Datalens обеспечил хорошие возможности для отображения данных, включая географические карты с выводом метрик и окраской муниципальных районов в рамках региона.
В результате клиент получил комплексную масштабируемую BI-систему, позволяющую агрегировать и обрабатывать данные, а также визуализировать эти данные в дашбордах. Заказчик отметил сокращение сроков и трудозатрат на получение регламентированной и управленческой отчетности и повышение эффективности принятия решений.
Заключение
Мы не предлагаем единого решения, которое бы удовлетворяло абсолютно всем целям каждой компании, но путем анализа ситуации подбираем оптимальный путь для каждого заказчика:
- BI с использованием зарубежных платформ для тех клиентов, которые имеют возможность приобрести лицензии, предпочитают сохранить текущую платформу и не хотят уступать в качестве, при этом не желают идти на компромиссные решения.
- BI на отечественных платформах в рамках стратегии импортозамещения (миграции существующих решений).
- BI с использованием комбинации различных инструментов open source, дополненных Apache Superset для визуализации, для тех, кто ценит гибкость, функциональность и независимость от вендоров.
Это, на наш взгляд, является квинтэссенцией текущей ситуации на рынке.
Сформирован реестр наиболее релевантных запросам бизнеса BI и DWH-решений отечественных разработчиков и зарубежных вендоров, продолжающих деятельность на территории РФ. Проанализирован функционал существующих решений, внесены и протестированы возможности доработок согласно индивидуальным требованиям потенциальных заказчиков. Имеется успешный опыт разработки и внедрения ИС для сбора, агрегации и обработки данных с возможностями масштабирования решения. Команда готова к новым проектам.
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Профиль
Контакты
Социальные сети