Как ИИ сократил расходы на проверку ЕГЭ на 70%: кейс AI Exam Grader
Студия Искусственного Интеллекта FOKINA.AI разработала ИИ-продукт, с которым проверка ЕГЭ стала на 85% быстрее и на 70% дешевле
Задача
Ускорить проверку заданий ЕГЭ с открытым ответом, повысить точность оценки по сравнению с ручным процессом, перераспределить кадровые ресурсы и сократить расходы. Сконструировать и запустить в работу принципиально новый ИИ-инструмент.
Причина
В крупной онлайн-школе по подготовке к экзаменам проверка второй части ЕГЭ (открытые ответы, не тесты) занимала сотни часов у 1500+ экспертов. Один человек способен проверить 50–100 работ в день, а в сезон пиковой нагрузки компании требовалось от 50 до 100 проверяющих. Значительные средства из ФОТ уходили на заработную плату сотрудников, занятых анализом работ
Ограничения ручной проверки
Проверка открытых ответов — уязвимое место для онлайн-школ, поскольку чаще всего они сталкиваются со следующими трудностями:
1. Набор учеников может вырасти за за месяц, а штат квалифицированных экспертов по всем предметам расширить за короткий срок невозможно.
2. Даже опытные педагоги сталкиваются с выгоранием в пиковые периоды, особенно при необходимости проверить огромное количество анкет в ограниченное время.
3. Качество ручной проверки закономерно падает по мере того, как увеличивается нагрузка на преподавателей.
4. В открытых частях экзаменов есть место субъективной оценке: каждый человек может по-разному трактовать критерии, оценивать правильность ответов на широкие темы. Руководству сложно проконтролировать, чтобы все сотрудники выставляли баллы одинаково.
5. Экзаменационные работы могут случайно «затеряться» в большом потоке, что создаст проблемы и для школы, и для ее учеников.

Что было сделано?
Разработали ИИ-сервис AI Exam Grader для автоматической проверки по критериям второй части ЕГЭ.
Уже во время подготовки проекта стало понятно, что аналогичных готовых решений такого уровня еще не существует, и потребуется шаг за шагом создавать высокоэффективную систему, которая сможет работать на уровне эксперта и выше без его поддержки.
Этапы создания ИИ-сервиса
С самого начала команда собрала большой объем датасетов уже проверенных работ по каждому предмету — более 10 000 работ. Получили методические материалы. Провели детальные интервью с экспертами и узнали, как проходит последовательная ручная проверка по каждому заданию. Детально проанализировали логику, чтобы заложить ее в будущий ИИ-сервис.
Затем мы разработали первые версии алгоритмов и провели тесты для оценки точности ИИ по сравнению с экспертами: сначала на выборке из 50 работ, затем на 150 и позже на 400 работ по каждому заданию.
«На протяжении всего проекта мы дорабатывали алгоритмы в соответствии с обратной связью заказчика и проверяющих. Вопрос субъективности решался тем, что основной ориентацией было мнение главного эксперта по каждому предмету. Мы обсуждали спорные моменты и дообучали модель. Именно такой итеративный процесс позволил нам в результате добиться максимальной прикладной эффективности».
— Дарья Фокина, СЕО Студии Искусственного Интеллекта FOKINA.AI.
Сложность обучения ИИ заключалась в работе с датасетами: не все из них были качественными, некоторые противоречили друг другу. В таких случаях при тренировке модели было решено давать меньший вес датасету и больший вес обратной связи.
Вся разработка от MVP к продакшену заняла от двух до четырех месяцев в зависимости от специфики предмета.

Технологии проверки
Анализ одного задания по определенному предмету проводилась около 10-12 ИИ-агентами, которые базировались на разных моделях. Например, ChatGPT распознавал текст, Claude сравнивал задание с ответом ученика, DeepSeek проводил первые рассуждения и выставлял балл, Claude снова проверял правильность оценки и баллов, затем ChatGPT писал комментарии внутри работы, потом Claude форматировал итоговый ответ — и так далее.
Большие данные обрабатывались через распределение нагрузку на несколько серверов — их было 10. Точность модели в контексте больших данных (более 1000 проверок) обеспечивалась с помощью сложных шагов перепроверки ИИ-агентами. При обнаружении ошибки одной модели проверяющий ИИ-агент отправлял задачу обратно на доработку момента.
- По результатам тестирования точность оценивания ИИ-сервиса AI Exam Grader, разработанного Студией Искусственного Интеллекта FOKINA.AI, превысила 80%, а по нескольким типам заданий достигла 91%, что значительно выше среднего уровня человека. Для сравнения, в исследовании 2024 года Hybrid Approach to Automated Essay Scoring система на базе алгоритма XGBoost показала лишь около 67% точности, что подчеркивает технологическое преимущество решения AI Exam Garder по отношению к существующим на рынке моделям

- Раньше сотруднику платили в среднем от 120 до 180 рублей за проверку всей работы из нескольких заданий, а ИИ делает то же самое с затратами 40 рублей за работу — порядка 70% разницы. А стоимость оценки одного задания снизилась до 10 рублей и меньше.
- ИИ заменил большую часть проверяющих: персонал людей по этому направлению сократился на 90%. На данный момент ИИ-система проверила уже более 5000 реальных работ учеников школы. Потребность нанимать новых людей заметно снизилась.
- ИИ стабильно проверяет все задания в среднем за 3–5 минут, и алгоритмы работают параллельно. За сутки инструмент может оценить тысячи работ, в то время как людям на это требовалась неделя. Процесс ускорился на 85%.
- Точность OCR-распознавания AI Exam Grader — 90-95% в комбинированном формате (текст, цифры, специфические графики и т. д.). В то время как отдельные «классические» инструменты вроде Chat GPT 5, согласно среднему общемировому бенчмарку IDP Leaderboard, уступают по точности (около 70%).
Потенциал решения
Сегодня рынок тестирования и подготовки к экзаменам растет быстрыми темпами: по прогнозам Market Research, рынок Test Preparation в мире вырастет с $126 млрд в 2024 до ~$178 млрд к 2030 г.
Такой динамичный рост говорит о высокой потребности в масштабируемых и точных решениях автоматического оценивания. С точностью выше 90% AI Exam Grader способен занять сильные позиции не только на рынке EdTech в России, но и при проверке международных экзаменов вроде TOEFL и IELTS, предлагая более быстрый, дешевый и точный формат оценивания.
Прогнозирует Дарья Фокина, СЕО Студии Искусственного Интеллекта FOKINA.AI
Источники изображений:
Скриншоты внутренних программ проекта Студии Искусственного Интеллекта FOKINA.AI
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Профиль
Социальные сети


