Грегори Грефенштетт: Компьютерная лингвистика в начале XXI века

В начале июня под Москвой состоялась конфренция «Диалог» - главная российская конференция по компьютерной лингвистике. Генеральным организатором «Диалога» уже более 10 лет является компания ABBYY. Одной из основных тем «Диалога» в 2013 году был машинный перевод. С приглашенным докладом выступил Луис Маркес (Lluís Màrquez), профессор Политехнического Университета Каталонии, крупнейший специалист в области машинного обучения и оценки систем машинного перевода. Кроме того, на конференции обсуждалась проблема лингвистического анализа социальных медиа. Это новый объект для лингвистов, и об их особенностях рассказал в своем выступлении Грегори Грефенштетт (Gregory Grefenstette), ведущий научный сотрудник департамента R&D компании Exalead (Франция) и специалист в области информационного поиска и анализа Social Media. Накануне конференции с Луисом Маркесом и Грегори Грефенштеттом беседовала Анна Сакоян.

Грегори, ваш доклад на предстоящей конференции посвящен лингвистическому анализу социальных медиа. Почему вы выбрали эту тему?

Грегори Грефенштетт: Я взял эту тему по просьбе организаторов конференции, потому что такова была тема конференции в этом году. А я в свое время исследовал обработку естественного языка, что, в свою очередь, затрагивает ряд разных областей, в том числе социальные медиа. Так что я решил представить на конференции те результаты в этой области, которые я получил в прошлом.

Луис, а вы о чем будете рассказывать?

Луис Маркес

Луис Маркес: Я буду рассказывать о машинном переводе. Это тоже одна из тем конференции в этом году. Я собираюсь говорить не столько о переводе как таковом, сколько об оценивании качества перевода, а также о средствах автоматизированной оценки этого качества. Это очень важно для системных разработок, для сравнивания. Невозможно во всех случаях полагаться на человеческую оценку качества перевода, здесь нужна также и некоторая автоматизация. Тут тоже есть свои риски. Вот об этом я и буду рассказывать.

В чем смысл анализа социальных медиа?

Грегори Грефенштетт: Тут специфика Веб 2.0. Веб 2.0 подразумевает, что вместо организации, которая создает веб-страницу и на этой странице публикует какое-то свое сообщение, адресованное аудитории, в Сети пишут сами люди. Социальные медиа — это сайты, где люди пишут о своей жизни. Это интересно потому, что благодаря этому можно узнать, что людей занимает. В прошлом это было невозможно: раньше приходилось проводить специальные опросы. А если анализировать социальные медиа с использованием методов компьютерной лингвистики, можно напрямую узнавать, что беспокоит людей. Это может быть связано с болезнями — например, с гриппом, — это могут быть какие-то вопросы, связанные с покупкой чего-то. Это может показаться тривиальным, но это очень важно. Социальные медиа — это голос людей, который понятен компьютеру. И это может быть применено в самых разных областях. Например, производитель машин может таким образом узнать о проблемах, связанных с выпущенной им машиной. Если с автомобилем что-то не то, люди, купившие его, начинают жаловаться в соцсетях. Такие жалобы позволяют производителю исправить проблему или даже избежать такой ошибки. То же касается правительственных решений. Например, если правительство решает построить где-нибудь дорогу, то дальнейший анализ соцсетей может указать, что дорогу надо строить не в том месте, где запланировано, а в другом месте. Раньше, даже если людям предлагали высказываться по таким поводам, всё равно это ограничивало категорию высказывающихся. Соцсети отражают более полную картину.

Сейчас много говорят о дата-науке, которая, в частности, занимается обработкой данных из соцсетей. Как вам кажется, это действительно особая наука?

Грегори Грефенштетт

Грегори Грефенштетт: Я никогда не слышал такого выражения. Могу догадаться, что оно означает нечто связанное с обработкой больших объемов информации, и это действительно серьезный предмет. Но я не слышал именно такого термина, я в основном слышу выражение «большие данные» (Big Data). И, собственно, с нашей областью это отчасти соприкасается. Существует очень много данных, генерируемых пользователями Сети, и их пытаются упорядочивать методами компьютерной лингвистики, чтобы извлекать полезную информацию из этой массы разнообразных данных. И да, это наука, и именно этим, в частности, занималась компьютерная лингвистика на протяжении последних 15 лет. Это настоящая наука.

Луис Маркес: Да, я тоже обычно слышу выражение “Big Data”. Это связано с извлечением больших объемов информации из различных источников, которые теперь стали более доступными, чем прежде. Так что эта тема тоже сейчас находится в мейнстримном русле обработки естественных языков, которая основывается на данных, на обучении посредством данных. Вместо более интроспективного подхода к моделированию мы обращаемся к данным и берем информацию оттуда.

Как вы представляете себе предельную цель вашей научной работы? К чему бы должны были привести ваши исследования, если бы у вас было неограниченное количество времени?

Грегори Грефенштетт: Хороший вопрос. Ну, допустим, возьмем направление компьютерной лингвистики. Я бы создал полные модели всех оставшихся языков. Говоря в терминах Интернета, языков осталось не так много. Там всего представлено около двух или трех сотен языков, тогда как в мире, как часто говорят, насчитывается приблизительно 6 000 языков. В настоящий момент многие исследования посвящаются английскому языку и языкам Западной Европы. Я бы хотел, чтобы ту же самую работу проделали и в отношении остальных существующих двухсот языков. Это бы позволило поддержать и сохранить эти языки. Так что моя идеальная цель – это сохранение редких языков и снабжение их теми же компьютерными инструментами, которыми уже наделены некоторые языки.

Что имеется в виду под сохранением языка? Что значит «модель языка»?

Грегори Грефенштетт: Существует некоторое количество базовых языковых моделей. Нам нужны словари лексики языка, нам нужна грамматическая информация о том, как какое слово используется; мы должны знать, как слова между собой соединяются, образуя более сложные понятия. Например, в английском языке прилагательное и существительное часто образуют в сочетании новое понятие, смысл которого уже иной, нежели у исходных компонентов. Таким образом, нужно, чтобы всеми понятиями языка можно было оперировать автоматически, с помощью компьютера, и понимать, что они означают. Пока что эта работа была проделана только для английского, французского, испанского и итальянского языков — в разном объеме, но она хотя бы начата. Для более редких языков, вроде армянского, вообще ничего не сделано.

Луис, а какова предельная цель вашей работы?

Луис Маркес: Да, это своеобразный вопрос, потому что ученые обычно им не задаются. Я обычно предпочитаю найти какую-нибудь интересную задачу и ее решать. Ну, я думаю, моей целью было бы разработать такие модели, которые способны автоматически понимать язык – ну или хотя бы более углубленно воспринимать – человеческий язык, и создать на основе этих технологий приложения, которые бы могли анализировать, делать выводы, помогать решать задачи. Чтобы можно было сформулировать обычный вопрос, и машина стала бы искать на него ответ, подбирать источники и предлагать ответы, которые могут быть вам полезны. Продвигаясь к этой цели, мы сталкиваемся с очень интересными вычислительными проблемами, с проблемами языкового моделирования и пытаемся смоделировать семантическую информацию из запроса, проанализировать язык. И еще машинный перевод – это тоже одна из форм применения таких технологий. Эта тема меня интересует, в частности, потому что это позволяет людям преодолевать языковые барьеры. Таковы мои наиболее общие цели.

Возможно ли, что в перспективе в итоге всего этого можно будет напрямую использовать человеческий язык для программирования?

Грегори Грефенштетт: Надеюсь, этого не произойдет. Для языков программирования важно, в первую очередь, то, что они недвусмысленны. А человеческим языкам свойственна двусмысленность. Мы бы вряд ли хотели, чтобы язык программирования уподобился человеческому языку и стал менее точным. Это было бы плохо. «Питон», например, читать проще, чем, скажем, «Си», но дело только в простоте. Он не стал от этого ни более двусмысленным, ни более человеческим. Но говоря в целом, мы упрощаем взаимодействие с компьютером.

Вы говорите, что анализом социальных сетей вы занимались в прошлом. А чем вы сейчас занимаетесь?

Грегори Грефенштетт: Сейчас я занимаюсь работой в компании, разрабатывающей поисковую систему. Мы, в первую очередь, заинтересованы в том, чтобы брать результаты исследований и применять их к полномасштабной промышленной поисковой системе. Так что тут акцент делается скорее на промышленную сторону, нежели на исследование.

Если мы сравним этот проект с Google, то в чем сходство и различия?

Грегори Грефенштетт: Это та же семья, эта система - двоюродная сестра Google. Google – это успешный родственник, он разбогател, потому что нашел золотую жилу, выражаясь метафорически. Google получает огромные доходы от рекламы, потому что они нашли хороший способ привлекать людей к своей рекламной системе, чтобы они там размещали свои объявления. Это рекламная составляющая, и мы этим не занимаемся. Но если это вычесть и оставить только поисковую систему, то она такая же. В ней есть общий поиск (мы индексируем 16 млрд. страниц), есть предпринимательский поиск (это когда вы даете поисковую систему какой-нибудь компании, и она индексирует свою собственную информацию). Есть также предпринимательский поиск, который представляет собой совмещение баз данных, у которых есть структура, и текста, у которого нет структуры, то есть совмещение структурированной и неструктурированной информации. Google занимается только неструктурированным текстом, а предпринимательский поиск (Exalead – это один из лидеров предпринимательского поиска) занимается как раз этим.

Луис, а вы чем сейчас занимаетесь?

Луис Маркес: Я работаю в академической среде. Я долгое время занимался фундаментальными синтаксическими и семантическими проблемами в обработке естественного языка, применяя технологии машинного обучения для предсказания структуры. Сейчас я в большей степени занимаюсь прикладной частью, хотя по-прежнему остаюсь в исследовательском русле. Я работаю над машинным переводом. Тут тоже можно задаться вопросом о том, каково наше соотношение с Google, потому что Google тоже этим занимается, он вышел на рынок общего машинного перевода. У них очень много ресурсов, и они в основном применяют статистические технологии к данным. У нас ресурсов меньше, и мы в основном сосредоточены на более прицельном подходе. Конечно, некоторые статистические данные автоматически берутся из билингвического корпуса, но также из систем, которые могут быть организованы вокруг грамматик, синтаксического анализа. Такой подход не требует такого большого количества данных, но тем не менее способен выдавать высококачественный перевод.

Грегори Грефенштетт: Я немного поясню для широкой общественности, чем он занимается. Одна из проблем, связанных с языками, как я уже говорил, - это то, что они двусмысленны. То есть мы можем сказать одно, а обозначать это будет другое. А для компьютера язык в десять раз более двусмысленный. Некоторые вещи, которые нам кажутся простыми, могут оказаться очень сложными для компьютера, потому что у них может быть сотня разных интерпретаций. Луис пытается разработать технологии, которые позволяют уменьшить эту двусмысленность, чтобы язык не приводил компьютер в замешательство. И, в конечном счете, человеку станет проще использовать компьютер, потому что компьютер будет лучше его понимать.

То есть Google использует сравнение всех имеющихся у него текстов, а вы создаете модели, а потом применяете их к разным текстам?

Луис Маркес: У Google много материалов на разных языках и, соответственно много возможностей для билингвического обучения своей статистической системы. У нас гораздо меньше таких билингвических текстов. Машинный перевод на основе правил использует некие обобщения. Чистая статистическая модель идет от текста к тексту. Билингвические своды нужны, чтобы брать оттуда материал, обучающий машину переводить куски текста, написанного на одном языке, на другой язык. Затем статистическая система, когда она получает предложение для перевода, разбивает его на фрагменты, переводит эти фрагменты, комбинирует их между собой и выдает наиболее вероятный результат. Так устроена статистическая модель. В модели, основанной на правилах, есть грамматика. Система анализирует исходное предложение, то есть обобщает некоторые синтаксические структуры, присутствующие в нем. Потом там есть правила для преобразования этой синтаксической информации в синтаксическое дерево другого языка. И затем есть модель, которая генерирует результат. То есть это обобщение, а не анализ источников. Эти синтаксические грамматики могут быть написаны вручную или произведены путем обучения на данных. Кроме того, тут применимо большинство статистических технологий, чтобы сделать систему более точной и чтобы она охватывала больше вариантов. Это уже смешанных подход, и когда мы к нему обращаемся, мы говорим о гибридизации, о гибридных моделях перевода.

Грегори Грефенштетт: А теперь у меня вопрос к Луису. Если Google применяет свой статистический метод, то разве этого недостаточно? Зачем вы до сих пор занимаетесь моделями?

Луис Маркес: Если довести до логического предела, это будет означать, что у нас есть полный корпус всех возможных предложений в английском и всех соответствующих предложений в другом языке. Тогда никакой сложной системы для перевода вообще не нужно, потому что всё уже есть в этом своде. И собственно к этому статистическая модель и стремится. Но если у вас корпус неполный, то проблема перевода еще не решена. Многое еще нужно исправлять. В принципе, чтобы понять, о чем текст, можно прибегнуть к переводчику Google, и для многих языков вы получите приличный перевод. Но проблему высококачественного перевода это не решает. Во-первых, есть языки, для которых пока нет достаточно большого корпуса. Во-вторых, бывают случаи, когда важен не столько охват возможных вариантов, сколько точность перевода.

Грегори Грефенштетт: То есть, согласно этой версии, Google со своим статистическим переводом в какой-то момент упрется в стену и больше не сможет повышать качество?

Луис Маркес: Я не могу тут предсказывать. Но я думаю, что чистая статистическая модель на каком-то этапе достигнет своего предела, хотя наверняка не знаю. Опять же, то, чем они занимаются, - тоже не совсем понятно, они, естественно, всех своих карт не раскрывают. Конечно, когда они выступают на конференциях, они кое о чем рассказывают, но всего не объясняют. Так что я не знаю, насколько много они используют именно лингвистические методы. Чистой статистики для качественного перевода, пожалуй, было бы недостаточно. Но в любом случае это не их главная цель. Их главная цель — это охватить как можно больше аудитории. Все используют их переводчик практически для любой пары языков. Для бытовых нужд этого вполне достаточно. Для профессионального переводчика этого мало. Ну и, плюс ко всему, проблемы, с которыми мы сталкиваемся во время нашей работы, интересны с научной точки зрения. Вероятно, для бизнес-модели они и не нужны, но их интересно анализировать.

Грегори Грефенштетт: Возвращаясь теме конечной цели научных исследований, здесь важно просто открывать информацию о том, как что-то делать лучше. И в настоящий момент, если вся эта информация находится в руках частной компании, она не будет раскрывать эту информацию. А научное исследование позволяет нам узнавать о новых способах действия и также учить других, как что-то делать.

Возможно ли создать идеальный компьютерный переводчик?

Грегори Грефенштетт: Обычно люди говорят о переводе, с точки зрения качества. Переводы могут быть адекватными, хорошими и великими. Переводить можно сегодня, переводить можно будет завтра. Но качество будет повышаться. Всё сводится к тому, насколько хорош перевод, и многое зависит от того, что именно переводят. Например, сейчас можно переводить инструкции по использованию продукта, и это делается автоматически и вполне качественно. Но если мы захотим перевести стихотворение Пушкина, это сделать невозможно и, вероятно, мы никогда этого не достигнем. Но между этими двумя полюсами, простыми инструкциями и поэзией, много вещей, которые можно перевести более или менее корректно.

Луис Маркес: Кроме того, уже сегодня машинный перевод — это большое подспорье для людей-переводчиков. Не чтобы производить идеальный перевод, а чтобы создавать массив текста, редактирование которого требует меньше усилий и времени, чем перевод с нуля. Этот момент, в частности, делает машинный перевод интересным, с точки зрения индустриального сектора.

Что вы думаете о предстоящей конференции?

Луис Маркес: Мне сказали, что на этой конференции будет смешанная аудитория: компьютерные лингвисты и лингвисты-теоретики. Очень интересно, когда встречаются оба сообщества: у нас общая тема исследований, но иногда мы говорим на разных языках.

Грегори Грефенштетт: Да, это очень важно, что на этой конференции встретятся два сообщества — сообщество теоретиков и сообщество практиков (компьютерных лингвистов), — которые смогут чему-то друг у друга научиться. Когда эти сообщества пересекаются, компьютерные лингвисты получают новую пищу к размышлениям и новые задачи для решения. С другой стороны, компьютерные лингвисты могут предложить лингвистам теоретическим вопросы, о которых они прежде не задумывались. Но, опять же, так как у них другая точка зрения, у них могут возникнуть совершенно новые соображения о том, как решить задачу.

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Компьютерная лингвистика в начале XXI века

Редакция

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Компьютерная лингвистика в начале XXI века

Конференция «Диалог»: новые лингвистические проекты

Компьютерный анализ языка: успехи, разочарования, перспективы

Автоматический перевод берет статистикой, а не содержательностью

Украинская компьютерная лингвистика сегодня

Редакция