Самые необычные задачи, которые решает искусственный интеллект

Сергей Федоров рассказывает о самых удивительных и необычных проектах на создание решений на базе искусственного интеллекта, которые приходили за последние годы

Самые необычные задачи, которые решает искусственный интеллект — Источник изображения: Alamy.com

Руководитель компании Statanly Technologies, а также исследовательского подразделения Statanly Research. За последние годы компанией были реализованы сотни проектов в области внедрения ИИ

Подробнее про эксперта

В течение последних восьми лет наша компания занимается разработкой решений на базе технологий искусственного интеллекта. Про многие из них мы рассказывали в прошлых статьях, посвященных системам компьютерного зрения, а также системам на базе больших языковых моделей и обработки естественных языков. Несмотря на то, что большинство наших решений направлено на решение довольно стандартных задач по оптимизации бизнес-процессов, мы всегда открыты к задачам, которые нередко имеют исследовательскую и научную составляющую.

В настоящей статье мы расскажем про самые удивительные, необычные проекты и запросы, которые поступали нам за последние годы. Некоторые из этих проектов не удалось реализовать, какие-то остановились на ранних стадиях разработки, а другие стали очень успешными.

1. Профилирование пользователей социальных сетей

Одним из первых таких проектов в далеком 2016 году стала задача предсказания характеристик пользователей: пол, возраст, уровень дохода и образования, психологические черты. Еще одной задачей стало прогнозирование поведения: рекомендации мест, людей, групп на основании данных аккаунтов из социальных сетей с различной модальностью контента (Twitter — тексты, Instagram (принадлежит корпорации Meta, деятельность которой признана в России экстремистской и запрещена) — изображения, Foursquare — геолокации), а также носимых устройств. Результаты таких предсказаний крайне полезны — например, для банков в рамках задачи пополнения данных о клиентах в целях более точного скоринга. В то время социальные сети были более открыты для возможности сбора и анализа данных, поэтому у нас были внушительные «датасеты». Проект показал крайне успешные результаты, но, к сожалению, на тот момент российские компании не были заинтересованы данным направлением, поэтому оно стало развиваться за пределами России, а позже в Сингапуре была создана отдельная компания, которая успешно развивается и в настоящее время.

2. Генерация изображений

Сегодня уже никого не удивить по-настоящему качественными изображениями, сгенерированными нейронными сетями. За последние пару лет разные компании опубликовали свои версии генеративных нейронных сетей на базе моделей DALL-E от OpenAI и Stable Diffusion. Многие слышали про компанию Midjourney, а также российские версии от Яндекса — Шедеврум и Сбербанка — Kandinsky. Мы начали исследования в этом направлении в далекие 2016-2017 годы, за шесть лет до появления первой версии DALL-E (первая версия появилась в 2021 году) и за семь лет до появления Stable Diffusion (выпущена в 2022 году). На тот момент основным инструментом создания таких моделей были генеративно-состязательные сети (GAN). Первым же коммерческим предложением наших моделей был проект 2018 года от одного российско-европейского издательства по созданию системы генерации обложек для книг на основании краткого содержания.

Такие разработки требуют колоссальных вычислительных мощностей и ресурсов (нейронная сеть DALL-E начала разрабатываться в 2018 году, в 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft). Наши же разработки велись на базе собственных ресурсов, а также благодаря небольшой поддержке одного фонда в Нидерландах. В конце 2019 года началась пандемия Covid-19, и инвестиционный интерес со стороны фондов угас. Конкурировать с компаниями, имеющими практически неограниченные ресурсы, было сложно, поэтому мы постепенно заморозили это направление, хотя наши обложки продавались по всему миру. Спустя два года руководительница нашего отдела компьютерного зрения защитила диссертацию на тему генеративного ИИ в условиях ограниченных вычислительных ресурсов.

3. Горно-металлургические комбинаты

У нас довольно много стандартных решений для горно-металлургической отрасли. Как правило, это решения по детекции дефектов, анализу гранулометрического состава руды, распознавания СИЗ (средств индивидуальной защиты), анализ эффективности производства и многое другое. Но, кроме того, были и нестандартные проекты.

Флотация. Одним из первых таких проектов была система анализа процесса флотации — одного из методов обогащения полезных ископаемых.

Этот процесс напоминает кипение жидкости со множеством пузырьков разных размеров, которые появляются и исчезают. Основной задачей было определение размеров, формы, скорости движения и времени жизни пузырьковых образований посредством методов компьютерного зрения, а также поиск закономерностей этих параметров и выхода полезного вещества. Этот проект оказался довольно успешным, а точность определения параметров флотации высокой. В дальнейшем, наши наработки перешли в промышленное использование.

Содержание FeO. Другой исследовательский проект поступил также от крупной металлургической компании и заключался в прогнозировании содержания FeO (оксида железа) в технологическом агломерате по видеопотоку. Задача заключалась в определении взаимосвязи между различными характеристиками агломерата, такими как яркость, цвет, интенсивность свечения и т.д., с итоговым содержанием FeO. В результате исследований мы определили, что при данной конфигурации оборудования предсказать содержание FeO в технологическом агломерате по видеопотоку с камер невозможно. Однако можно рассмотреть варианты с использованием других камер машинного зрения, тепловизионного модуля, дополнительного освещения и других моделей, что, по нашим предположениям, может повлиять на возможность прогнозирования.

Детекции заколов в добывающих шахтах
Один из последних нестандартных запросов был связан с исследованием возможностей компьютерного зрения для детекции заколов на поверхности породного контура горной выработки.
Закол (закольная трещина) — открытая (зияющая) глубокая трещина на поверхности породного контура горной выработки, которая может быть источником опасного вывалообразования. Закол возникает в результате движения горных пород, вызванного ведением горных работ (главным образом взрывных). Чаще всего закол образуется в окрестности забоя после взрывания шпуров из-за откольных явлений, вызванных отражением взрывной волны от открытой поверхности. Также образование заколов является одним из проявлений горного давления.
При образовании закола часть массива горной породы отслаивается и зависает; может возникнуть внезапное обрушение пород кровли выработки или целиков (в очистных забоях шахт). В открытых горных выработках закол может привести к оползанию породы из верхней части уступа в карьерах. Такие обрушения происходят очень часто во всем мире и порой приводят к очень печальным последствиям. Опытные горняки, проводя визуальный осмотр таких заколов, могут с уверенность заключить, насколько опасным является такое образование. Идея создания интеллектуальной системы, которая по изображениям с видеокамер, установленных на вагонетках в шахтах, сможет предсказывать вероятность обрушения, очень важна и, в случае успешности проекта, сможет спасти множество жизней.

4. Прогнозирование курса криптовалют
Иногда нам приходят запросы на решение совсем нереалистичных задач. Например, прогнозирование курсов популярных валют наподобие евро, доллара, фунта. Конечно, создание такой прогнозной системы невозможно — слишком много экономических, геополитических и других факторов влияют на курс.
В то же время в нашей истории уже были довольно успешные финансовые проекты, в частности создание системы оптимизации инвестиционного портфеля на основе алгоритмов машинного обучения (40 ценных бумаг / целевая волатильность 30% / ежедневная частота оптимизации баланса) и применение AI/ML к структуре сетевой корреляции для улучшения результатов оптимизации.
Но криптовалюта, главным образом биткоин, — довольно спекулятивный актив. На его цену влияет и новостная повестка. В 2021 году стоимость биткоина выросла почти на 10% после того, как Илон Маск пообещал возобновить продажу машин Tesla за криптовалюту. Идея создания системы прогнозирования стоимости биткойна основана на анализе сотен крупнейших новостных агрегаторов, а также сообщений в Twitter (X) и других популярных социальных сетях на наличие событий и высказываний, которые потенциально могут влиять на курс. Современные подходы к решению этой задачи на базе больших языковых моделей позволяют довольно точно «отлавливать» такой новостной фон и делать успешные прогнозы.

5. Обработка и анализ визуального контента

Рекламные вставки. В нашей компании есть практика, когда молодые специалисты предлагают свои идеи и проекты, а мы стараемся их поддерживать независимо от того, выйдет ли из этого коммерчески успешный проект, хотя предварительно оцениваем целесообразность разработки. Одной из таких идей была система, которая позволяет органически заменять рекламные баннеры в видеороликах. Идея показалась нам довольно интересной. В начале 2024 года, спустя некоторое время после того, как система была готова, мы получили первый запрос на замену рекламных баннеров на бортах хоккейного стадиона в трансляциях серии хоккейных матчей. Дело в том, что создание, печать и монтаж реальных рекламных материалов — довольно дорогостоящая процедура, тогда как использование нашей системы заключалось лишь в загрузке полуторачасового матча и применения алгоритмов замены. И хотя алгоритмы оказались не очень пригодны для хоккея, перспективы дальнейшего развития этого решения довольно оптимистичны с точки зрения коммерческого использования.

Дипфейки. Другое интересное направление в области анализа и обработки видеоконтента связано с выявлением дипфейков. В ходе этих разработок было выявлено большое количество факторов, влияющих на вероятность выявления дипфейков, в частности использование технологии хромакей (технология совмещения двух и более изображений или кадров в одной композиции) приводит к неестественному освещению вокруг объектов в движении. Также в процессе разработки алгоритмов было принято решение оценивать разностные кадры в течение проигрывания видео. Созданная система показывает очень неплохие результаты по выявлению смонтированных роликов.

Заключение

В настоящей статье мы рассказали лишь про некоторые необычные кейсы, проекты и запросы последних лет. За рамками статьи оказались такие неординарные проекты, как:

прогнозирование параметров новостных публикаций («лайки», «репосты», «кликбейт») на основе содержания публикации для крупного новостного издания;
определение размера обуви по фотографиям, снятым на телефон;
выявление пьяных работников на проходной металлургического завода;
создание робота-дантиста, который управлялся бы на основе видео, получаемого с установленных камер в реальном времени;
умный декантер для вина, который распознает марку напитка и подбирает специальную программу декантации;
и даже распознавание экскрементов домашних животных для роботов-пылесосов для автоматического выбора правильной программы уборки.

Несмотря на то, что многие из этих проектов не стали успешными, нам всегда нравилось заниматься не только созданием прикладных решений, но и совершенно новыми, нестандартными проектами на стыке самых современных технологий и научных достижений. Мы всегда открыты к таким вызовам.

Источники изображений:

Личный архив компании

Предыдущая новость

Когда компаниям стоит внедрять технологии искусственного интеллекта

Следующая новость

Statanly Technologies — лидер по количеству лауреатов Yandex ML Prize

Интересное: