Как нейросети научились рисовать: техника искусства
Генеративный ИИ уже создает визуально неотличимые от человеческих произведения. Но что такое творчество, когда машина способна переживать статистику

Доктор философских наук, профессор Центра искусственного интеллекта, ведущий эксперт лаборатории цифровых технологий в гуманитарных науках Центра изучения культурного наследия НИЯУ «МИФИ»
Генеративный ИИ создает изображения, способные конкурировать с произведениями человеческого искусства. Эти возможности моделей обращают нас к фундаментальным вопросам эстетики — о природе творчества, воображения и эстетического сознания. Авторское право — о котором все спорят в медиа — случайный попутчик на пути к прекрасному.
DALL-E 3, Stable Diffusion, Midjourney доступны миллионам пользователей. Но означает ли это, что машина творит? Или мы имеем дело с новой формой перебора паттернов «красоты»/«уродства»? Ответ на этот вопрос требует понимания: как технически работают эти модели и что это значит для философии искусства.
От состязания к диффузии: архитектуры творчества без субъекта
В 2014 году Иэн Гудфеллоу опубликовал концепцию генеративно-состязательных сетей, изменившей представление о возможностях машинного обучения. За десять лет нейросети эволюционировали от создания размытых примитивов к генерации реалистичных образов, неотличимых от работы человека.
Первые системы для генерации изображений использовали принцип состязательности — GAN (Generative Adversarial Networks). Две нейронные сети конкурируют: одна (генератор) создает изображения из случайного шума, другая (дискриминатор) пытается отличить синтетику от реальности. Процесс обучения напоминает игру с нулевой суммой: генератор становится все изобретательнее, чтобы обмануть дискриминатор, а дискриминатор — все проницательнее.
Наиболее продвинутыми сегодня являются уже не GAN, а диффузионные модели. Они восстанавливают изображение из шума: берут реальное изображение, к нему добавляют случайный шум, пока картинка не превратится в белый «хаос». Модель учится обращать этот процесс — удалять помехи шаг за шагом, восстанавливая исходное изображение.
Все это происходит не в пространстве полноразмерных пикселей, а в латентном пространстве — сжатом векторном представлении, в котором огромное изображение кодируется в компактный числовой вектор, абстрактное представление смыслов и форм. Stable Diffusion сжимает изображение 1024×1024 в вектор размером 64×64 — уменьшение в 64 раза. В этом сжатом пространстве протекают процессы деградации и восстановления.
Что изучает модель в ходе обучения
Статистические корреляции между визуальными признаками. Модель не «видит» мир — она видит распределения: небо — обычно в верхней части и обычно голубое; лицо симметрично и содержит определенные пропорции; кот — пушистый. Все формализовано в виде функции вероятности. Художественное творчество, которое у человека выражает экзистенциальное переживание, превращается в математику.
Трансформеры и текст: когда слова управляют образами
Революция в 2022-2023 годах произошла благодаря интеграции трансформеров — архитектуры ИИ, первоначально разработанной для обработки языка. Трансформеры используют принцип, позволяющий обработать все элементы входных данных одновременно, выявляя сложные связи между ними.
Для работы с изображениями трансформеры адаптировали: картинку разбивают на квадраты (патчи по 16×16 пикселей), каждый кодируют в вектор, и затем модель обрабатывает последовательность векторов — как если бы это были слова в предложении. Этот подход назвали Vision Transformer (ViT).
Но главным прорывом для трансформеров стала модель CLIP (Contrastive Language-Image Pretraining). CLIP обучена на 400 миллионах пар «изображение-текст». Она умеет связывать текстовые описания с визуальными образами в едином пространстве. Модель генерирует изображения, которые максимально вероятны при заданном текстовом условии. И чем точнее промпт, тем точнее активируются нужные области латентного пространства. Неточный запрос приводит к артефактам. Уточним для искусствоведов, артефакт — не предмет искусства, а искаженная деталь.
Данные как материал: что значит формализовать искусство
Все современные генеративные модели обучены на огромнейших датасетах — данных, собранных везде и всюду (интернет, музеи, библиотеки). DALLE-3 видела миллиарды изображений, Stable Diffusion обучена на LAION-5B — пяти миллиардах пар изображение-текст.
При такой масштабной обработке неизбежно происходит редукция: красота, выразительность, смысл произведений искусства редуцируются до набора числовых характеристик. Цвет становится RGB-вектором, композиция — набором пространственных признаков, стиль — паттернами пикселей. Качественное (переживание красоты) конвертируется в количественное (метрики машинного обучения).
Когда вы используете нейросеть, вы соглашаетесь, что искусство можно формализовать достаточно для того, чтобы машина его смогла воспроизвести. Вопрос в том, что теряется в этой формализации. Экзистенциальное измерение, личное переживание, уникальность авторского видения — все это вне машинного обучения.
Эстетическая деятельность vs статистическая экстраполяция
Возможности таких ИИ-технологий вызывают множество вопросов. Например, кто творец, кто актор деятельности? И что это вообще за деятельность?
В науке, эстетическая деятельность — специфическая форма освоения мира через чувственно-выразительные образы. То есть, чтобы создать искусство, надо что-то пережить и суметь передать смысл пережитого.
Художник, скульптор, композитор не копируют реальность механически. Они пропускают любовь, надежду, боль и отчаяние через себя. И затем выбирают, как построить композицию так, чтобы выразить именно то пережитое, те смыслы. Этот выбор — и есть результат искусства, опыт пережитого в рифмах, красках, мелодиях.
Алгоритм же оперирует совершенно иначе. Он не переживает — он вычисляет. Нейросеть работает в пространстве статистической вероятности, максимизирует функцию правдоподобия на основе обучающих данных. Генеративная модель создает новые комбинации из известного в истории человеческого искусства. И в том самом высоком эстетическом смысле — не творит сама по себе. Не может наполнять это переживанием без человека.
Однако генерируемые изображения эстетически интересны, порой поражают воображение, вызывают эмоциональный отклик. Но источник этого эффекта — в глазах смотрящего или «сердце» человека, пишущего промпт. Модель же создает артефакты, которые максимально вероятны в пространстве данных — ничего больше.
Техника vs творчество: переосмысление авторства
Генеративные модели ставят острый вопрос авторского права. Кто автор изображения, созданного нейросетью? Человек, написавший промпт? Компания, обучившая модель? Те, чьи работы были в обучающем датасете? Никто?
На юридическом уровне это остается нерешенным. На философском уровне ответ яснее: автор — субъект, выбирающий средства выражения, несущий ответственность за смысл, то есть, автор промпта. Генеративные модели — новый инструмент, новое средство выразительности, как, например, фотография, которую критиковали за «воровство души», а потом и она заняла свое место среди видов искусства.
Что дальше: сосуществование технологий и переживания
Что такое искусство в эпоху, когда эстетические объекты выходят из «машинных недр»? Подсказку можно найти во «мгле древности» — у древних греков. Они придумали понятие τέχνη — «техне» — которым обозначали одновременно искусство и мастерство как технологии. Эллины уже тогда поняли, что человек с помощью разума и умений может преобразовывать и творить, воображать и материализовывать. Поэтому современное τέχνη — технологии искусственного интеллекта — инструмент искусства, расширение возможностей, поле экспериментов, открывающее новые горизонты форм, содержаний и смыслов. На стыке техники и творчества может родиться настоящее эстетическое новаторство.
Практические выводы для творческих профессионалов:
Генеративные модели — это расширение горизонта для творцов. Те, кто научится работать с этими инструментами осознанно, получат конкурентное преимущество.
Авторство теперь — выбор направления, интерпретация, ноша человеческой ответственности за смыслы. Переживание — то, что отличает творца. Машина может помочь с техникой, но смысл останется людям.
Юридическое и философское определения авторства начинают расходиться. Важно следить за развитием законодательства.
Техника развивается быстрее, чем наша способность осмысливать ее значение. Но именно это осмысление остается нашей исключительной привилегией. И в этом суть того, что определяет человека-творца в эпоху искусства с ИИ в руке.
Рубрики
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Рубрики


