riga
Литва
Эстония
Латвия

ЛАТВИЯ

Триумфальный въезд Иисуса в Иерусалим
©

Новый завет поможет сохранению грамматики исчезающих языков

Лингвисты из Мюнхенского университета имени Людвига-Максимилиана опубликовали параллельный корпус переводов Нового Завета на 1169 языков.

По мнению  авторов, этот корпус позволит сократить объем текстов, необходимый для обучения систем машинного перевода, пишет научный портал N+1. Поскольку Новый завет переведен на самые разные языки мира, включая множество исчезающих, предполагается, что таким образом исчезающие языки можно будет сохранить для дальнейшего изучения. Статья опубликована на сайте Cornell University Library.

Всего в мире существует около семи тысяч живых языков. Однако более половины населения планеты используют для общения лишь несколько из них — китайский, английский, хинди, испанский и русский, а 95 процентов людей во всем мире говорят всего на 100 языках. Остальные языки востребованы гораздо меньше.

По последним подсчетам, примерно на каждом из трети ныне живых языков говорят менее 1000 человек. Этим языкам грозит исчезновение в ближайшие сто лет. Когда они перестанут существовать, с ними уйдет уникальное культурное наследие: шутки, идиомы, уникальные абстрактные понятия.

Лингвисты предполагают, что системы машинного перевода позволят сохранить эти языки в наиболее полном виде. Проблема заключается в том, что машине для обучения языку необходимы значительные объемы аннотированных текстов на этом языке. Такие тексты работают как розетские камни для алгоритмов машинного обучения, и чем больше данных, тем лучше учится программа. Но достаточные по размеру размеченные корпуса существуют только для малой части языков мира. Так, самый крупный веб-сервис, предназначенный для перевода текста, — Google Translate — работает всего с 90 языками. Поэтому важной задачей современных лингвистов является найти способ обучения систем машинного перевода текстов на недостаточно подробно описанных языках.

Эхсанеддин Асгари (Ehsaneddin Asgari) и Хенрих Шютце (Hinrich Schutze) из Мюнхенского университета имени Людвига-Максимилиана разработали способ автоматического анализа языков с маленьким аннотированным корпусом. Для его реализации они создали параллельный корпус из 1196 переводов самого распространенного в мире текста — Нового Завета. Хотя текст такого размера недостаточно объемный для известных методик обучения автоматических переводчиков, у него есть важное преимущество: будучи текстом религиозного содержания, он достаточно точно переведен почти на все языки мира. Зная, что практически ни один перевод новозаветного текста не освещает все особенности того или иного языка, Асгари и Шютце предположили, что каждый перевод все равно дает возможность реализовать основные грамматические категории своего языка, и предложили новый подход к обучению, основанный на сопоставлении маркеров лингвистических функций в разных языках мира.

Метод заключается в том, что лингвист должен вручную выделить и разметить в тексте нескольких переводов интересующие языковые маркеры и связанные с ними слова, а потом с помощью автоматического анализа порядка слов программа составляет кластеры наиболее близких соответствий в текстах остального корпуса. Правда, авторы признают, что существует много словоформ, которые пока невозможно найти с помощью этого метода, и планируют его дорабатывать.

Авторы уже опробовали свою методику, выделив маркеры прошлого, настоящего и будущего времени в ста случайно отобранных переводах из нового корпуса.

Карта близости механизма образования прошедшего времени в 100 исследованных языках. В легенде сверху вниз разными цветами отмечены семьи, к которым принадлежат языки на карте: аравакская, ото-мангская, маяская, нигер-конголезская, не подлежащая определению, индо-европейская, центрально-койсанская, манде, тупи, алгская, австронезийская, гуайкуру, мисумальпская, восточно-судаснская, эско-алеутская. Ehsaneddin Asgari, Hinrich Schutze, 2017/ Cornell University Library.

Этот метод пока требует проверки вручную, но уже сейчас получившаяся карта показывает, какие из языков используют аналогичные грамматические инструменты для образования времен. Помимо подготовки материала для обучения систем машинного перевода, эта техника может быть использована для лучшего понимания происхождения и истории контактов языков.    

Загрузка...

Вадим Авва. Ни слова о любвиРусские портреты в Латвии
Читаем стихи на русском Дипломатический клуб

ЛАТВИЯ