Top.Mail.Ru
РБК Компании
Заморозили скидки: делитесь новостями бизнеса и читайте эксклюзивы на РБК
Успеть до 14.12
Заморозили скидки:
делитесь новостями бизнеса
и читайте эксклюзивы на РБК
Успеть до 14.12
Главная ООО «ЭЦР» 27 ноября 2025

Как нейросети научились рисовать: техника искусства

Генеративный ИИ уже создает визуально неотличимые от человеческих произведения. Но что такое творчество, когда машина способна переживать статистику
Как нейросети научились рисовать: техника искусства
Источник изображения: Сгенерировано нейросетью «Google Gemini»
Катерина Тихомирова
Катерина Тихомирова
Главный аналитик

Доктор философских наук, профессор Центра искусственного интеллекта, ведущий эксперт лаборатории цифровых технологий в гуманитарных науках Центра изучения культурного наследия НИЯУ «МИФИ»

Подробнее про эксперта

Генеративный ИИ  создает изображения, способные конкурировать с произведениями человеческого искусства. Эти возможности моделей обращают нас к фундаментальным вопросам эстетики — о природе творчества, воображения и эстетического сознания. Авторское право — о котором все спорят в медиа — случайный попутчик на пути к прекрасному.

DALL-E 3, Stable Diffusion, Midjourney доступны миллионам пользователей. Но означает ли это, что машина творит? Или мы имеем дело с новой формой перебора паттернов «красоты»/«уродства»? Ответ на этот вопрос требует понимания: как технически работают эти модели и что это значит для философии искусства.

От состязания к диффузии: архитектуры творчества без субъекта

В 2014 году Иэн Гудфеллоу опубликовал концепцию генеративно-состязательных сетей, изменившей представление о возможностях машинного обучения. За десять лет нейросети эволюционировали от создания размытых примитивов к генерации реалистичных образов, неотличимых от работы человека.

Первые системы для генерации изображений использовали принцип состязательности — GAN (Generative Adversarial Networks). Две нейронные сети конкурируют: одна (генератор) создает изображения из случайного шума, другая (дискриминатор) пытается отличить синтетику от реальности. Процесс обучения напоминает игру с нулевой суммой: генератор становится все изобретательнее, чтобы обмануть дискриминатор, а дискриминатор — все проницательнее.

Наиболее продвинутыми сегодня являются уже не  GAN, а диффузионные модели. Они восстанавливают изображение из шума: берут реальное изображение, к нему добавляют случайный шум, пока картинка не превратится в белый «хаос». Модель учится обращать этот процесс — удалять помехи шаг за шагом, восстанавливая исходное изображение.

Все это происходит не в пространстве полноразмерных пикселей, а в латентном пространстве — сжатом векторном представлении, в котором огромное изображение кодируется в компактный числовой вектор, абстрактное представление смыслов и форм. Stable Diffusion сжимает изображение 1024×1024 в вектор размером 64×64 — уменьшение в 64 раза. В этом сжатом пространстве протекают процессы деградации и восстановления.

Что изучает модель в ходе обучения

Статистические корреляции между визуальными признаками. Модель не «видит» мир — она видит распределения: небо — обычно в верхней части и обычно голубое; лицо симметрично и содержит определенные пропорции; кот — пушистый. Все формализовано в виде функции вероятности. Художественное творчество, которое у человека выражает экзистенциальное переживание, превращается в математику.

Трансформеры и текст: когда слова управляют образами

Революция в 2022-2023 годах произошла благодаря интеграции трансформеров — архитектуры ИИ, первоначально разработанной для обработки языка. Трансформеры используют принцип, позволяющий обработать все элементы входных данных одновременно, выявляя сложные связи между ними.

Для работы с изображениями трансформеры адаптировали: картинку разбивают на квадраты (патчи по 16×16 пикселей), каждый кодируют в вектор, и затем модель обрабатывает последовательность векторов — как если бы это были слова в предложении. Этот подход назвали Vision Transformer (ViT).

Но главным прорывом для трансформеров стала модель CLIP (Contrastive Language-Image Pretraining). CLIP обучена на 400 миллионах пар «изображение-текст». Она умеет связывать текстовые описания с визуальными образами в едином пространстве. Модель генерирует изображения, которые максимально вероятны при заданном текстовом условии. И чем точнее промпт, тем точнее активируются нужные области латентного пространства. Неточный запрос приводит к артефактам. Уточним для искусствоведов, артефакт — не предмет искусства, а искаженная деталь.

Данные как материал: что значит формализовать искусство

Все современные генеративные модели обучены на огромнейших датасетах — данных, собранных везде и всюду (интернет, музеи, библиотеки). DALLE-3 видела миллиарды изображений, Stable Diffusion обучена на LAION-5B — пяти миллиардах пар изображение-текст.

При такой масштабной обработке неизбежно происходит редукция: красота, выразительность, смысл произведений искусства редуцируются до набора числовых характеристик. Цвет становится RGB-вектором, композиция — набором пространственных признаков, стиль — паттернами пикселей. Качественное (переживание красоты) конвертируется в количественное (метрики машинного обучения).

Когда вы используете нейросеть, вы соглашаетесь, что искусство можно формализовать достаточно для того, чтобы машина его смогла воспроизвести. Вопрос в том, что теряется в этой формализации. Экзистенциальное измерение, личное переживание, уникальность авторского видения — все это вне машинного обучения.

Эстетическая деятельность vs статистическая экстраполяция

Возможности таких ИИ-технологий вызывают множество вопросов. Например, кто творец, кто актор деятельности? И что это вообще за деятельность?

В науке, эстетическая деятельность — специфическая форма освоения мира через чувственно-выразительные образы. То есть, чтобы создать искусство, надо что-то пережить и суметь передать смысл пережитого.

Художник, скульптор, композитор не копируют реальность механически. Они пропускают любовь, надежду, боль и отчаяние через себя. И затем выбирают, как построить композицию так, чтобы выразить именно то пережитое, те смыслы. Этот выбор — и есть результат искусства, опыт пережитого в рифмах, красках, мелодиях.

Алгоритм же оперирует совершенно иначе. Он не переживает — он вычисляет. Нейросеть работает в пространстве статистической вероятности, максимизирует функцию правдоподобия на основе обучающих данных. Генеративная модель создает новые комбинации из известного в истории человеческого искусства. И в том самом высоком эстетическом смысле — не творит сама по себе. Не может наполнять это переживанием без человека.

Однако генерируемые изображения эстетически интересны, порой поражают воображение, вызывают эмоциональный отклик. Но источник этого эффекта — в глазах смотрящего или «сердце» человека, пишущего промпт. Модель же создает артефакты, которые максимально вероятны в пространстве данных — ничего больше.

Техника vs творчество: переосмысление авторства

Генеративные модели ставят острый вопрос авторского права. Кто автор изображения, созданного нейросетью? Человек, написавший промпт? Компания, обучившая модель? Те, чьи работы были в обучающем датасете? Никто?

На юридическом уровне это остается нерешенным. На философском уровне ответ яснее: автор — субъект, выбирающий средства выражения, несущий ответственность за смысл, то есть, автор промпта. Генеративные модели — новый инструмент, новое средство выразительности, как, например, фотография, которую критиковали за «воровство души», а потом и она заняла свое место среди видов искусства.

Что дальше: сосуществование технологий и переживания

Что такое искусство в эпоху, когда эстетические объекты выходят из «машинных недр»? Подсказку можно найти во «мгле древности» — у древних греков. Они придумали понятие τέχνη — «техне» — которым обозначали одновременно искусство и мастерство как технологии. Эллины уже тогда поняли, что человек с помощью разума и умений может преобразовывать и творить, воображать и материализовывать. Поэтому современное τέχνη — технологии искусственного интеллекта — инструмент искусства, расширение возможностей, поле экспериментов, открывающее новые горизонты форм, содержаний и смыслов. На стыке техники и творчества может родиться настоящее эстетическое новаторство.

Практические выводы для творческих профессионалов:

Генеративные модели — это расширение горизонта для творцов. Те, кто научится работать с этими инструментами осознанно, получат конкурентное преимущество.

Авторство теперь — выбор направления, интерпретация, ноша человеческой ответственности за смыслы. Переживание — то, что отличает творца. Машина может помочь с техникой, но смысл останется людям.

Юридическое и философское определения авторства начинают расходиться. Важно следить за развитием законодательства.

Техника развивается быстрее, чем наша способность осмысливать ее значение. Но именно это осмысление остается нашей исключительной привилегией. И в этом суть того, что определяет человека-творца в эпоху искусства с ИИ в руке.

Интересное:

Новости отрасли:

Все новости:

Публикация компании

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия