Top.Mail.Ru
РБК Компании
Заморозили скидки: делитесь новостями бизнеса и читайте эксклюзивы на РБК
Успеть до 14.12
Заморозили скидки:
делитесь новостями бизнеса
и читайте эксклюзивы на РБК
Успеть до 14.12

Как ИИ сократил расходы на проверку ЕГЭ на 70%: кейс AI Exam Grader

Студия Искусственного Интеллекта FOKINA.AI разработала ИИ-продукт, с которым проверка ЕГЭ стала на 85% быстрее и на 70% дешевле
Как ИИ сократил расходы на проверку ЕГЭ на 70%: кейс AI Exam Grader
Источник изображения: Сгенерировано нейросетью ChatGPT
Задача и причина

Задача

Ускорить проверку заданий ЕГЭ с открытым ответом, повысить точность оценки по сравнению с ручным процессом, перераспределить кадровые ресурсы и сократить расходы. Сконструировать и запустить в работу принципиально новый ИИ-инструмент. 

Причина

В крупной онлайн-школе по подготовке к экзаменам проверка второй части ЕГЭ (открытые ответы, не тесты) занимала сотни часов у 1500+ экспертов. Один человек способен проверить 50–100 работ в день, а в сезон пиковой нагрузки компании требовалось от 50 до 100 проверяющих. Значительные средства из ФОТ уходили на заработную плату сотрудников, занятых анализом работ

Ограничения ручной проверки

Проверка открытых ответов — уязвимое место для онлайн-школ, поскольку чаще всего они сталкиваются со следующими трудностями:

1. Набор учеников может вырасти за за месяц, а штат квалифицированных экспертов по всем предметам расширить за короткий срок невозможно. 

2. Даже опытные педагоги сталкиваются с выгоранием в пиковые периоды, особенно при необходимости проверить огромное количество анкет в ограниченное время.

3. Качество ручной проверки закономерно падает по мере того, как увеличивается нагрузка на преподавателей.

4. В открытых частях экзаменов есть место субъективной оценке: каждый человек может по-разному трактовать критерии, оценивать правильность ответов на широкие темы. Руководству сложно проконтролировать, чтобы все сотрудники выставляли баллы одинаково.

5. Экзаменационные работы могут случайно «затеряться» в большом потоке, что создаст проблемы и для школы, и для ее учеников.

Как ИИ сократил расходы на проверку ЕГЭ на 70%: кейс AI Exam Grader
Риски и способы их минимизации при разработке решения. Источник: внутренняя презентация

Что было сделано?

Разработали ИИ-сервис AI Exam Grader для автоматической проверки по критериям второй части ЕГЭ.

Уже во время подготовки проекта стало понятно, что аналогичных готовых решений такого уровня еще не существует, и потребуется шаг за шагом создавать высокоэффективную систему, которая сможет работать на уровне эксперта и выше без его поддержки.

Этапы создания ИИ-сервиса

С самого начала команда собрала большой объем датасетов уже проверенных работ по каждому предмету — более 10 000 работ. Получили методические материалы. Провели детальные интервью с экспертами и узнали, как проходит последовательная ручная проверка по каждому заданию. Детально проанализировали логику, чтобы заложить ее в будущий ИИ-сервис.

Затем мы разработали первые версии алгоритмов и провели тесты для оценки точности ИИ по сравнению с экспертами: сначала на выборке из 50 работ, затем на 150 и позже на 400 работ по каждому заданию.

«На протяжении всего проекта мы дорабатывали алгоритмы в соответствии с обратной связью заказчика и проверяющих. Вопрос субъективности решался тем, что основной ориентацией было мнение главного эксперта по каждому предмету. Мы обсуждали спорные моменты и дообучали модель. Именно такой итеративный процесс позволил нам в результате добиться максимальной прикладной эффективности».

— Дарья Фокина, СЕО Студии Искусственного Интеллекта FOKINA.AI.

Сложность обучения ИИ заключалась в работе с датасетами: не все из них были качественными, некоторые противоречили друг другу. В таких случаях при тренировке модели было решено давать меньший вес датасету и больший вес обратной связи.

Вся разработка от MVP к продакшену заняла от двух до четырех месяцев в зависимости от специфики предмета.

Как ИИ сократил расходы на проверку ЕГЭ на 70%: кейс AI Exam Grader
Архитектура решения по проверке ЕГЭ. Источник: внутренние материалы

Технологии проверки

Анализ одного задания по определенному предмету проводилась около 10-12 ИИ-агентами, которые базировались на разных моделях. Например, ChatGPT распознавал текст, Claude сравнивал задание с ответом ученика, DeepSeek проводил первые рассуждения и выставлял балл, Claude снова проверял правильность оценки и баллов, затем ChatGPT писал комментарии внутри работы, потом Claude форматировал итоговый ответ — и так далее.

Большие данные обрабатывались через распределение нагрузку на несколько серверов — их было 10. Точность модели в контексте больших данных (более 1000 проверок) обеспечивалась с помощью сложных шагов перепроверки ИИ-агентами. При обнаружении ошибки одной модели проверяющий ИИ-агент отправлял задачу обратно на доработку момента.

Результат
  • По результатам тестирования точность оценивания ИИ-сервиса AI Exam Grader, разработанного Студией Искусственного Интеллекта FOKINA.AI, превысила 80%, а по нескольким типам заданий достигла 91%, что значительно выше среднего уровня человека. Для сравнения, в исследовании 2024 года Hybrid Approach to Automated Essay Scoring система на базе алгоритма XGBoost показала лишь около 67% точности, что подчеркивает технологическое преимущество решения AI Exam Garder по отношению к существующим на рынке моделям
  • Раньше сотруднику платили в среднем от 120 до 180 рублей за проверку всей работы из нескольких заданий, а ИИ делает то же самое с затратами 40 рублей за работу — порядка 70% разницы. А стоимость оценки одного задания снизилась до 10 рублей и меньше.
  • ИИ заменил большую часть проверяющих: персонал людей по этому направлению сократился на 90%. На данный момент ИИ-система проверила уже более 5000 реальных работ учеников школы. Потребность нанимать новых людей заметно снизилась. 
  • ИИ стабильно проверяет все задания в среднем за 3–5 минут, и алгоритмы работают параллельно. За сутки инструмент может оценить тысячи работ, в то время как людям на это требовалась неделя. Процесс ускорился на 85%.
  • Точность OCR-распознавания AI Exam Grader — 90-95% в комбинированном формате (текст, цифры, специфические графики и т. д.). В то время как отдельные «классические» инструменты вроде Chat GPT 5, согласно среднему общемировому бенчмарку IDP Leaderboard, уступают по точности (около 70%). 

Потенциал решения

Сегодня рынок тестирования и подготовки к экзаменам растет быстрыми темпами: по прогнозам Market Research, рынок Test Preparation в мире вырастет с $126 млрд в 2024 до ~$178 млрд к 2030 г.

Такой динамичный рост говорит о высокой потребности в масштабируемых и точных решениях автоматического оценивания. С точностью выше 90% AI Exam Grader способен занять сильные позиции не только на рынке EdTech в России, но и при проверке международных экзаменов вроде TOEFL и IELTS, предлагая более быстрый, дешевый и точный формат оценивания.

Прогнозирует Дарья Фокина, СЕО Студии Искусственного Интеллекта FOKINA.AI

Источники изображений:

Скриншоты внутренних программ проекта Студии Искусственного Интеллекта FOKINA.AI

Интересное:

Новости отрасли:

Все новости:

Профиль

Дата регистрации
26 октября 2023
Регион
г. Москва
ОГРНИП
323774600705867
ИНН
771548729081

Контакты

Социальные сети

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия