Блог

Упрощаем оценку качества машинного перевода: История ИИ

Машинный перевод (MT) развивается невероятными темпами. Ведущую роль играет нейронный машинный перевод — он достигает новых высот с точки зрения качества и гладкости текста. Однако организациям требуется больше времени, чем ожидалось, чтобы начать использовать MT. Одна из основных причин этого в том, что, несмотря на инновации в сфере MT, качество MT все еще непредсказуемо. Способность оценивать качество МT, по-видимому, является недостающим звеном в его широкомасштабном внедрении.

В прошлом году команда ИИ Memsource приступила к решению этой проблемы.

Идея

Штатная команда ИИ Memsource была создана с целью использовать машинное обучение для решения проблем, с которыми ежедневно сталкиваются специалисты по локализации.

— С самого начала мы искали области, где машинное обучение могло бы помочь нашим пользователям работать более эффективно, и, учитывая сложности, с которыми сталкиваются наши пользователи в области машинного перевода, показалось, что это прекрасная отправная точка, — сказал Алеш Тамчина, руководитель команды ИИ Memsource.

При использовании MT вы не знаете, получите ли результат высокого качества или ровно наоборот. Без этой информации может быть трудно быстро определить, подходит ли для проекта машинный перевод и как долго придется его редактировать.

— Думаю, принятие решения о реализации проекта по оценке качества машинного перевода подтолкнуло то, что высококачественный машинный перевод действительно помогает ускорить профессиональный перевод, — сказал Тамчина.

Данные, приведенные на графике ниже, показывают, что чем лучше MT, тем быстрее лингвист подготавливает окончательный перевод. «Это устойчивый, почти линейный тренд», — добавил Тамчина. «Положительный эффект наблюдается уже при качестве МТ около 60. Мы поняли, что, если предоставлять информацию о качестве с самого начала перевода, то мы не только поможем ускорить постредактирование MT, но и сделаем более точным расчет цен по проекту».

В распоряжении команды ИИ были данные прежних переводов, где применялось постредактирование MT. Следующим шагом было на их основе создать что-то значимое для пользователей.

Разработка шла с переменным успехом и включала множество испытаний и предварительных экспериментов, но основных этапов было три:

  1. Создание архитектуры неточной нейронной сети (rough neural network) и процесса обучения, включая процессы обработки данных.
  2. Экспериментирование с различными настройками категорий оценки качества машинного перевода (MTQE) и настройка сетей различными способами. Команда ИИ была заинтересована не только в наилучшей производительности, но и в вычислительной эффективности. В итоге удалось построить довольно эффективную модель, не жертвуя прогнозирующей способностью.
  3. Превращение прототипа в рабочую систему и обучение окончательной версии моделей для всех поддерживаемых языковых пар.

Решение: оценка качества машинного перевода

Результатом разработок и обучения стала бета-версия функции оценки качества машинного перевода Memsource.

Ввиду уникальности функции в первой версии широко применялся метод проб и ошибок. «Версия 1 MTQE была ориентирована на идеальный и почти идеальный машинный перевод. Машинный перевод обеспечивает наилучшие результаты в коротких сегментах, и по отзывам первых пользователей MTQE, функция в основном работала только для коротких сегментов», — сказал Тамчина.

Хотя наш вебинар обратной связи по MTQE собрал много положительных отзывов, из отзывов тех, кто опробовал MTQE, стало ясно, что охват результатов был слишком ограниченным. Поэтому команда ИИ решила найти способ охватить больше контента.

— Вторая версия MTQE основана на переработанных моделях ИИ и новой архитектуре нейронной сети, — сказал Тамчина. — Мы оценили множество подходов и провели, наверное, сотни экспериментов. В конечном счете мы хотели сделать оценку качества машинного перевода MTQE более полноценной.

Первоначальное тестирование второй версии MTQE показывает, что в определенных языковых парах показатели качества доступны для 60% сегментов, что в четыре раза больше, чем в версии 1, и может быть приравнено к экономию до 10% средств на постредактирование.

Последняя версия функции MTQE может использоваться с любой из более чем 30 систем MT, поддерживаемых в Memsource, и с 92 различными языковыми парами. В настоящее время все еще проводится бета-тестирование версии 2 MTQE, так как мы продолжаем проверять работу этой функции и собирать отзывы пользователей.

Категории оценки таковы:

100% MT
Идеальные результаты машинного перевода (MT), вероятно, постредактирование не требуется

99% MT
Почти идеальные результаты МТ, возможно, потребуется незначительное постредактирование, главным образом для исправления формата или пунктуации

75% MT
Высокое качество результатов МТ, необходимо постредактирование

Без оценки
Когда оценка отсутствует, очень вероятно, что результат МТ — низкого качества. В целом, такие результаты не рекомендованы к постредактированию, но могут быть использованы только для справки.

Узнайте, как настроить и использовать MTQE.

На приведенном ниже графике показан охват оценок MTQE для восьми основных языковых пар, используемых в Memsource.

— Теперь с помощью данных MTQE, доступных с самого начала, пользователи могут решить, имеет ли смысл использовать MT, какова потенциальная экономия на постредактировании и быстрее ли выполнить постредактирование MT или переводить с нуля, — добавил Тамчина.

Будущее

Для команды разработчиков Memsource MTQE — это лишь начало того, что можно осуществить, когда дело доходит до сочетания машинного перевода и искусственного интеллекта, и у них в разработке еще очень много идей.

— В целом, мы ожидаем, что использование систем MT будет налажено намного лучше, — сказал Тамчина. — Платформа перевода должна автоматически выбирать наиболее подходящую(-ие) систему(-ы) для данного типа содержимого, и после завершения машинного перевода должна оценить его качество. Я считаю, мы также увидим более широкую интеграцию машинного перевода с пользовательскими ресурсами, такими как память переводов или базы терминов. Есть много интересных функций, которых ждут с нетерпением, — некоторые из них появятся очень скоро».