Как DeepSeek R1 снизил стоимость обучения ИИ-моделей до 6 млн долларов

DeepSeek R1 — языковая модель, снизившая стоимость обучения ИИ с сотен миллионов до 6 млн долларов. Как им это удалось? Разбираем ключевые технологии

Как DeepSeek R1 снизил стоимость обучения ИИ-моделей до 6 млн долларов — Источник изображения: Сгенерировано нейросетью FLUX

Кандидат технических наук по специальности Искусственный Интеллект и Машинное Обучение. Лауреат Yandex ML Prize, со-основатель компании Statanly Technologies и двух других AI-стартапов.

Подробнее про эксперта

Основные технологические решения DeepSeek R1

1. Квантизация модели на этапе обучения
Обычно языковые модели обучаются с 32-битной точностью, а затем подвергаются квантизации (уменьшению разрядности) для оптимизации работы на конечных устройствах. Однако DeepSeek удалось внедрить квантизацию на ранних стадиях обучения, применяя 8-битные вычисления. Это позволило сократить потребление памяти на 75%, снизив нагрузку на оборудование без значительных потерь в точности. Чтобы преодолеть традиционные сложности квантизации (потерю точности, нестабильность градиента), команда разработала алгоритмы стабилизации градиентов и динамического масштабирования числовых диапазонов.

2. Обработка нескольких токенов одновременно
Обычные трансформеры (основа больших языковых моделей) прогнозируют последовательность токенов по одному, используя механизм внимания (attention). В DeepSeek R1 реализована возможность предсказывать сразу несколько (2-5) токенов одновременно, что значительно увеличивает скорость генерации текста. Это стало возможным благодаря модификации attention-механизмов и внедрению новых слоев, позволяющих работать с группами токенов. В результате скорость работы модели выросла примерно в два раза при сохранении точности свыше 90%.

3. Архитектура Mixture-of-Experts (MoE)
Вместо использования монолитной сети, DeepSeek применяет архитектуру «экспертов» (подсетей), каждая из которых активируется только при необходимости. Базовая модель содержит 671 млрд параметров, но в среднем на один запрос задействуется лишь 37 млрд (около 5,5% от общего числа). Такой подход позволяет существенно снизить вычислительные затраты, а также делает модель более адаптивной и эффективной.

4. Дополнительные оптимизации
DeepSeek также применяет:

Метод «учитель-ученик» (distillation) для сжатия модели;
Исключение (pruning) неактивных нейронов;
Адаптивное кэширование вычислений для ускорения работы.

Особенности работы DeepSeek R1

Когда пользователь отправляет запрос, DeepSeek R1 сначала полностью перерабатывает и реструктурирует его по внутренней логике, анализируя намерение и формулировку, чтобы уточнить, какой ответ будет наиболее релевантным. Этот процесс включает несколько важных шагов:

Нормализация входных данных — устранение двусмысленности, исправление грамматических ошибок, уточнение формулировок.
Предварительный разбор — определение контекста, чтобы выбрать наиболее подходящую «экспертную» подсеть из Mixture-of-Experts.
Выбор стратегии генерации — в зависимости от сложности запроса и требуемой глубины ответа система может использовать разные подходы, включая пошаговую логику, многослойные предсказания или уточняющие вопросы.

После этого начинается этап генерации. DeepSeek R1 генерирует по несколько токенов (слов) сразу, ускоряя вывод. Модель может сформировать несколько возможных ответов и выбрать наиболее логичный, если оказалось несколько подходящих экспертов под запрос. Далее финальная версия ответа приводится в удобный для пользователя вид.

Сравнение DeepSeek R1 и OpenAI GPT-4

Стоимость обучения:
OpenAI: $100M+
DeepSeek R1: $6M

GPU:
OpenAI: 100 000 A100 (20к$/шт)
DeepSeek R1: 2 000 RTX 4090 (2к$/шт)

Стоимость API:
OpenAI: $20/1M токенов
DeepSeek R1: $1/1M токенов

Энергопотребление:
OpenAI: 50 МВт
DeepSeek R1: 1.2 МВт

Влияние на индустрию

1. Доступность ИИ-моделей
Снижение стоимости обучения делает возможным создание мощных моделей в университетах и небольших лабораториях, а не только в крупных корпорациях.

2. Использование массового оборудования
Игровые видеокарты, применяемые в DeepSeek R1, доступны широкой аудитории. Это уменьшает зависимость от специализированного оборудования и санкций, снижает барьеры для разработчиков.

3. Открытый код
Проект распространяется в открытом доступе, что может ускорить развитие индустрии и создать новые возможности для исследователей и стартапов.