Автоматический перевод: будущее за гибридными системами

Интеллектуальный партнер проекта

Продолжение разговора о современной компьютерной лингвистике с директором по лингвистическим исследованиям компании ABBYY, заведующим кафедрами компьютерной лингвистики МФТИ и РГГУ Владимиром Павловичем Селегеем.

Сейчас популярны системы автоматического перевода, основанные на статистической обработке большого объема уже существующих параллельных текстов на двух языках. Например, такую программу предоставляет пользователям Google. Но не приводит ли массовое использование этих программ к появлению большого количества грубо переведенных текстов, которые, попадая в интернет, вызовут обратную связь и качество работы этих программ-переводчиков снизится?

Это действительно очень серьезная проблема, и мне не раз уже приходилось отвечать на подобные вопросы. Да, такая опасность есть, в интернете появляется всё больше и больше текстов, которые являются результатом машинного перевода. Мои китайские коллеги рассказывают, какой проблемой это стало сейчас для китайского языка. Большое количество машинных переводов с английского на китайский язык приводит к тому, что в современный китайский язык вторгаются нетипичные для него модели словообразования, грамматические модели, источником которых служат эти тексты. И это влияет на язык, так как обычно это тексты очень актуальны, это «тематические хиты», которые интересуют молодых людей. Это похоже на то, что иногда делает с русским языком реклама.

Такая отрицательная обратная связь может стать проблемой и для систем статистического машинного перевода, и не только для них, поскольку интернет-статистику так или иначе используют сегодня все системы. Чтобы бороться с этой бедой, системы машинного перевода пытаются научиться автоматически идентифицировать тексты, которые получены «ненатурально».

Нет сомнений, что системы МП так или иначе научатся это делать. Но проблема касается и людей. Они привыкли безоглядно доверять интернету. Переводчики уже не ищут значение переводимого слова в словаре, а переводят, основываясь на статистике, которую им выдают интернет-поисковики. И тут мы сталкиваемся с тем, о чем уже говорили – и с ненадежностью этой статистики, особенно в случае фраз, а не отдельных слов, и с тем, что статистика не различает тексты с точки зрения их языковых особенностей. В результате неопытный переводчик, особенно тот, кто осмеливается переводить на неродной язык, берет тот вариант перевода, который лишь выглядит самым употребительным, не видя и учитывая важнейших условий, в которых такое употребление действительно возможно.

Особенно часто игнорируются диалектные различия: британского, американского, канадского, австралийского вариантов английского и так далее. Не принимаются в расчет и явления типа раглиша (так в шутку называют английский языка, на котором часто пишут те, для кого родной – русский). Так что не только машинный перевод может испортить статистику языка, представленного в сети. Носители русского, испанского, японского и так далее, пишут по-английски и наводняют интернет своими текстами, которые влияют на статистику. Поэтому-то одна из актуальных задач при создании языковых корпусов сделать так, чтобы пользователь не просто получал оценку, сколько раз данная конструкция встречается в корпусе, а видел возможные неоднородности в ее распределении по текстам разного типа и по авторам с различными социолингвистическими характеристиками. Тогда у того, кто пользуется корпусом как словарем, как справочником, будет возможность объективной оценки результата.

Так что программы машинного перевода это не единственный источник проблемы нестандартных языковых употреблений. Сегодня огромное количество текстов в интернете генерируется так называемыми ботами, есть множество рекламных сайтов, которые генерируют тексты, обманывающие системы поиска для расширения круга людей, которые попадут на этот сайт через эти поисковые программы. Создатели таких сайтов всячески пытаются скрыть искусственность происхождения этих текстов.

Таким образом, задача идентификации «неестественных» текстов оказывается очень актуальной. Нужно уметь отличать натуральное от ненатурального. Если вы спросите лингвиста, чем отличается натуральный текст от ненатурального, вам ни один лингвист не ответит. Что делает текст натуральным? Это целый комплекс характеристик и лексических, и стилистических, и грамматических. И вот эту проблему уже сегодня помогает решать компьютерная лингвистика. Создаются специальные корпуса искусственно сгенерированных текстов, сравниваются с корпусами естественных текстов, методами машинного обучения ищутся те различительные признаки, которые хорошо отличают одни тексты от других.

А всё-таки за какими программами автоматического перевода будущее? Это будут статистические системы или программы, в которых есть морфологический и синтаксический анализаторы, семантический язык-посредник и так далее?

На этот вопрос ответить достаточно просто. Уже сегодня лучшие результаты в тестах машинного перевода показывают гибридные системы. Чисто статистические системы перевода, конечно, существуют, но даже Google сейчас старается применять какие-то лингвистические модели. Что касается чистых статистических методов, тут уместно вспомнить удачный образ, который использовал в одном из своих недавних интервью нобелевский лауреат Андрей Гейм. Говоря об ожидаемом им замедлении темпов получения новых технологических результатов, он сравнил ситуацию с невероятным технологическим взлетом в последние пару десятилетий со срыванием плодов с низкорасположенных ветвей дерева.

Так, стремительный рост интернета с его миллиардами ставшими доступными для компьютерного анализа текстов позволило статистической компьютерной лингвистике быстро получить замечательные результаты. Сейчас статистические модели, основанные на сопоставлении текстов в параллельных корпусах, могут создавать даже студенты. Вы можете скачать код в интернете, обучить программу на каком-то параллельном корпусе текстов и худо-бедно переводить. На самом деле это хорошо, так как позволяет быстро получать грубый перевод с небольшой затратой усилий. Но теперь с нижних ветвей все уже сорвано, а до высоко висящих плодов не добраться без специальных инструментов. Тут чистой статистики будет недостаточно, нужны лестницы в виде сложных моделей языка.

Но верно и обратное: если система перевода основана на моделях и правилах, она работает лучше, когда использует еще и статистику. Одних лингвистических моделей недостаточно, потому что наши знания о языке не всегда достаточно полны и формализуемы, язык сложно устроен, зависит от множества факторов. Поэтому нужно использовать и лингвистические модели, и статистику, чтобы эти модели обучать и верифицировать. Можно строить модели, а потом их обучать на статистике, можно начинать со статистики, а потом добавлять к ней лингвистическую модель, но в любом случае, если мы хотим получить машинный перевод, приближающийся по качеству к человеческому, без сочетания методов не обойтись.

Поэтому будущее – за гибридными моделями и технологиями.

А как будут развиваться лингвистические модели?

Для получения хороших результатов лингвистические модели должны охватывать уже не только морфологию, синтаксис, семантику. Теперь не обойтись без знаний о мире. Потому что часто выбор между вариантами анализа текста может быть сделан не на основании лингвистических признаков, а на основании знаний о мире. Вот простой пример – фраза моляр нуждается в лечении. Если с нею столкнется программа распознавания устной речи, то она окажется в затруднении при определении первого слова: какая буква соответствует безударой гласной? Идет ли речь о слове моляр или маляр? Ответ на этот вопрос возможен только при учете ситуации, в которой фраза звучит. Если стоматолог рассказывает о результатах осмотра ротовой полости, то в лечении нуждается моляр, коренной зуб. Если речь идет о диспансеризации работников строительной фирмы, то в лечении может нуждаться маляр. Ну в самой неоднозначной ситуации, когда, допустим, нашего маляра осматривает стоматолог, тут программа должна анализировать контекст фразы.

И когда-нибудь система машинного перевода сможет принимать такие решения сама?

Я думаю, что да. Только не нужно называть ее системой машинного перевода. Это должна быть система семантического анализа, моделирующая понимание. Она должна действовать так же, как действует человек. Человек не просто переводит, человек понимает, о чем идет речь в тексте. Самое главное – научиться понимать. Конечно, это процесс очень сложный, быстро это сделать нельзя, но надо двигаться к этой цели, будущее именно на этом пути.

Не только машинный перевод, но и другие задачи компьютерной лингвистики: распознавание речи, информационный поиск – только этим путем можно выполнить достаточно качественно. Но полезными системы машинного перевода или информационного поиска могут быть гораздо раньше, прежде чем начнут понимать так, как понимает человек. Если у вас есть текст на незнакомом языке и стоит задача извлечь из него информацию, автоматический переводчик может вам помочь. Речь не идет о художественном переводе, для него достаточно людей-переводчиков. Речь идет в бизнес-переводе, об обработке различной документации. Например, документы Евросоюза должны переводиться на все языки входящих в него стран. Это огромные объемы. Количество текстов растет такими темпами, что без автоматических переводчиков уже не обойтись. Поэтому люди будут стараться развивать системы автоматического перевода, вкладывать деньги в работы по их улучшению. А главный путь к этому улучшению – моделирование человеческого понимания текстов.

Означает ли это, что система понимания текстов, включающая систему знаний о мире, будет овладевать языком так же, как им овладевает человек. Ведь ребенок узнает значения слов не изолированно, а одновременно знакомясь со свойствами предметов, которые обозначаются этими словами?

Тут сложно сказать. В данном случае речь идет об эволюции языковой способности, в представлениях о ней очень много спекулятивного. Лингвисты строят модели, опираясь на предположение об устройстве языковой способности человека. Компьютерная лингвистика не может исходить из таких предположений, она должна работать с объективными языковыми данными. Вопрос о том, как обучать языку, конечно же, связан с устройством языковой способности человека, но в этой области мы пока мало знаем. Хотя сейчас нейролингвистика активно развивается в тесном контакте с компьютерной лингвистикой. Здесь есть возможность соотносить результаты статистической обработки текстов с результатами нейролингвистических исследований. Мы можем, например, пытаться выяснить, соотносятся ли выявленные в ходе статистической обработки огромных массивов текстов кластеры сочетаемости слова, которые можно называть его значениями, с какими-то участками в голвном мозге. Эти исследования продвигают нас к пониманию того, как устроена языковая способность. Но сейчас я говорю о другом. Пока, не понимая еще устройства языковой способности, мы не пытаемся имитировать ее. Глобальная задача компьютерной лингвистики – научиться извлекать информацию из текстов и организовывать ее в растущую базу знаний о мире, которые системы компьютерного анализа смогут использовать в своей работе. Должна получиться такая эволюционирующая система.

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Автоматический перевод: будущее за гибридными системами

Редакция

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Автоматический перевод: будущее за гибридными системами

Компьютерная лингвистика в начале XXI века

19-я Международная конференция по компьютерной лингвистике «Диалог 2013»

Автоматический перевод берет статистикой, а не содержательностью

Почему современная лингвистика должна быть лингвистикой корпусов

Редакция