Исследователи Антиплагиата выступили на научной конференции в Финляндии
Спикеры компании Антиплагиат рассказали о методе обнаружения заимствованных изображений и про влияние мультиязычности на статистический машинный перевод
25 апреля 2024 года исследователи компании Антиплагиат представили два доклада на 35-ой конференции Ассоциации открытых инноваций FRUCT, которая состоялась в Финляндии, в университете Тампере.
Конференция FRUCT (Finnish-Russian University Cooperation in Telecommunication) — это научное мероприятие для встречи академического сообщества с крупным бизнесом и разработчиками проектов. Конференция привлекла талантливых участников, которые выступили с презентациями своих научно-исследовательских работ.
Организаторы конференции: Открытая Иновационная Ассоциация FRUCT и Университет Тампере.
Исследователи компании Антиплагиат представили два доклада.
Первый доклад на тему «Метод обнаружения заимствованных изображений для больших баз данных/коллекций» представляла Мариам Каприелова, руководитель команды Computer Vision.
В докладе была рассмотрена проблема обнаружения заимствований в академических работах, описан разработанный функционал системы, такой как переводные заимствования, парафраз, машинная генерация и обнаружение заимствованных изображений. Именно работа с изображениями легла в основу исследования и была центральной темой доклада, был представлен подход, разработанный для поиска повторного использования изображений.
Метод состоит из трех этапов: преобразование изображения в векторное представление, поиск кандидатов и оценка сходства между изображением-запросом и каждым из кандидатов, полученных на предыдущем этапе.
Авторы поделились результатами экспериментов по оценке качества и производительности разработанной системы: для коллекции изображений, созданных без систем автоматической отрисовки полученное качество = 98%, а для изображений рукописных эссе качество = 59%. Время обработки таких запросов для коллекции из 59 миллионов объектов составляет примерно полминуты.
Данная разработка может быть масштабирована и использована для промышленных задач, требующих быстрой проверки тысяч изображений по миллионным коллекциям потенциальных источников.
Второй доклад на тему: «Влияние мультиязычности и токенизации на статистический машинный перевод» представил Алидар Асваров, NLP разработчик-исследователь компании Антиплагиат.
Отмечалось, что многоязычные системы нейронного машинного перевода достигли высокого качества, особенно для языков с ограниченными ресурсами, однако статистические системы машинного перевода не обучались и не проверялись в аналогичных многоязычных условиях.
Многоязычная статистическая система машинного перевода определяется как система «многие к одному» и способна осуществлять перевод с любого из заранее определенных языков на один целевой язык.
В основу исследования легло влияние многоязычного формата обучения на качество перевода по сравнению с обычной системой машинного перевода «один-к-одному» и его воздействие на родственные языки с разным объемом обучающих данных.
Исследование проводилось на нескольких языках разных языковых семей. Отмечено влияние различных токенизаторов и методов предварительной обработки текста. В частности, сравнивался стандартный токенизатор Moses с токенизатором SentencePiece, а также специальными сегментаторами слов для китайского и японского языков.