В ИТМО разработали цифровой полигон для тестирования новых систем ИИ
«Полиокс» анализирует потенциал системы ИИ, прогнозирует ресурсную стоимость ее дообучения и объективно оценивает качество работы в экстремальных условиях
«Полиокс» также сравнивает ИИ-продукты с аналогичными решениями, которые доступны в открытых репозиториях и собственной библиотеке полигона. В сравнении с классическими способами тестирования, разработка ученых ИТМО сокращает время на подготовку испытания модели от нескольких дней и недель до пары минут.
Больше половины российских компаний используют ИИ в своей деятельности. Чтобы соответствовать требованиям рынка, эти системы нужно постоянно совершенствовать и регулярно дообучать на новых данных. Понять, когда модель перестала демонстрировать желаемые показатели точности и нуждается в обновлении, не всегда просто. К тому же, оценка качества новых моделей ИИ требует значительных ресурсов: сотен мегабайт данных, десятков часов работы и привлечения высококвалифицированных специалистов. Часто заказчик ИИ-продукта не обладает достаточной экспертизой для объективной оценки качества приобретаемой технологии, из-за чего многие изначально кажущиеся перспективными решения не проходят проверку на практике.
Упростить и ускорить процесс проверки ИИ-разработки помогает специализированное программное обеспечение — виртуальный полигон оценки качества систем ИИ. Такое ПО проводит виртуальные испытания модели ИИ, имитируя разные условия эксплуатации. Система анализирует точность, избирательность, устойчивость и другие важные характеристики технологии, обеспечивая комплексный подход к оценке. За последние несколько лет на рынке цифровых технологий были представлены более десятка подобных полигонов, в том числе отечественных. Однако проблема сертификации подобных ПО и доступа к ним малого и среднего бизнеса до сих пор остается открытой.
В ИТМО разработали «Полиокс» — цифровой полигон для систем ИИ со значительно более широким функционалом, по сравнению с существующими. ПО позволяет оценивать эффективность системы ИИ по нескольким критериям одновременно и сравнивать с аналогичными решениями. Еще одно преимущество — простота использования. Даже неподготовленный пользователь может самостоятельно запустить программу и проанализировать отчет с результатами тестирования.
Сначала на платформе вручную или автоматически собирают сценарии испытаний модели ИИ с учетом конкретных прикладных задач, условий эксплуатации и ожидаемой точности. Затем встроенный в систему ИИ генерирует синтетические данные для проверки моделей, после чего в автоматическом режиме проводятся испытания по заданным схемам. Финальный этап — анализ данных тестирования с помощью ML-моделей и классических методов статистики, что позволяет получить объективные выводы об эффективности работы новой ИИ-технологии.
«Мы создали удобный и интуитивно понятный инструмент — пользователю не нужно что-то программировать или устанавливать, достаточно загрузить в систему данные и файл с моделью. Кроме того, мы собрали в одном решении наиболее эффективные практики для оценки качества моделей ИИ, принцип действия которых в основном заключаются в «порче» данных и расчете в этих условиях показателей качества системы. ПО также позволяет тестировать модели ИИ в экстремальных условиях. Мы увеличиваем искажение или уменьшаем объем входных данных до того уровня, когда система перестает показывать приемлемые по метрикам качества результаты. По сути, это автоматически дает оценку границ применимости моделей. И наконец, преимущество нашего ПО в том, что оно позволяет сравнивать загруженные на полигон модели с другими подобными. Модели для сравнения «подбираются» либо из открытых библиотек, либо создаются на самом полигоне с помощью автоматического машинного обучения, например, фреймворка Fedot — также разработки ИТМО. Это является критически важным критерием при оценке системы», — отмечает руководитель исследовательской группы, старший научный сотрудник исследовательского центра «Сильный искусственный интеллект в промышленности» ИТМО Сергей Иванов.
Классическое тестирование систем ИИ редко включает больше двух-трех метрик точности. «Полиокс» предоставляет детализированный результат — текстовый отчет со схемами, графиками и другими визуальными данными с оценкой качества системы ИИ. В нем содержатся десятки показателей точности, рассчитанные в разных условиях, разъясняются принципы работы модели и указаны численные показатели характеристик, необходимые для аттестации систем ИИ и установленные ГОСТом. Эти данные могут использоваться не только для оценки эффективности новых моделей, но и оптимизации дообучения уже существующих. Цифровой полигон поможет пользователям регулярно проводить виртуальные испытания для подтверждения заявленных характеристик ИИ-системы и при необходимости обращаться к разработчикам за обновлением.
Сейчас полигон ориентирован на работу с табличными данными и временными рядами. Также в «Полиокс» внедрен ряд специализированных методов для оценки ИИ-моделей компьютерного зрения — это позволяет учитывать такие сложные факторы, как тонкость настроек и неопределенность условий их практического применения. Таким образом, с помощью «Полиокса» тестирование систем ИИ проходит в максимально короткие сроки при сохранении необходимого уровня доверия к метрикам точности.
«В перспективе мы планируем дополнить цифровой полигон методиками оценки качества языковых моделей, которые выступают сейчас основным драйвером развития ИИ-систем. В настоящий момент такие системы оценивают по набору стандартных тестов, что не всегда свидетельствует об их эффективности в реальных условиях эксплуатации. Значительный интерес представляет и оценка качества больших языковых моделей для генерации программного кода — этот вопрос также решается нашей командой. Однако на сегодня главная цель нашей исследовательской группы — получить сертификат качества на сам полигон как средство объективной оценки ИИ-систем, что позволит интегрировать его в промышленность и бизнес», — дополнил Сергей Иванов.
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Профиль
Социальные сети