20 мая 2024, понедельник, 21:05
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

26 ноября 2012, 13:43

Борис Орехов - о «ключевых словах прошедшего десятилетия»

Главные слова двухтысячных
Главные слова двухтысячных

Что объединяет нанотехнологии, супермена, оборотня и нацпроект? Все эти слова лингвист Борис Орехов включил в список «ключевых слов прошедшего десятилетия». Он рассказал корреспонденту Pro Science, что самым упоминаемым на lenta.ru (этот сайт был использован для анализа) стало слово «авиакомпания», а также «айпад» и «айфон», в двадцатку вошли «кризис», «распил» и «откат».

Борис Валерьевич, что именно вы называете ключевыми словами, и каким критериям они должны отвечать, чтобы попасть в этот список?

В своё время лингвист Харальд Вайнрих заметил, что если из текста «Красной Шапочки» взять только существительные, которые употреблены в тексте с неопределенными артиклями, то окажется, что перед нами своего рода конспект всей сказки, по которой можно восстановить целое. Нечто такое представляет собой и мой список - это перечень, по которому можно восстановить главные лингвистически значимые события 2000-х годов. То есть меня интересовало много разных аспектов в том, что происходило со словами в языке в последние десять лет, и когда пришло время их объединить и представить в виде единого аналитико-лексикографического очерка, нашлось это немного «рекламное» название — «ключевые слова».

Прежде всего, нужно оговориться, что название «ключевые слова» — нестрогое и условное. По сути, таким образом я определяю не какое-то однородное явление, а целый ряд разноплановых процессов в русском словаре последнего времени, объединяемых, с одной стороны, применённым к ним единым подходом (лексикостатистика), с другой, тем, что все они так или иначе отражают изменения в нашем языке и нашей жизни, подчас изменения радикальные.

Какие-то из этих слов появились только в 2000-е («спецоперация»), какие-то были и раньше, но за последние годы поменяли основное значение и взлетели в частотных списках на самый верх («откат», «распил»), а какие-то очень ненадолго оказались в центре языкового сознания и уже успели оттуда выпасть и забыться («рында», «бесогон»). Состав каждого из этих, скажем так, лексических классов определяется своим алгоритмом, единого рецепта для них нет.

Какими инструментами вы пользовались для обработки больших массивов текстов? Сколько всего статей было проанализировано?

 Раз нет одного алгоритма, то и нет какой-то одной программы, которая выявляет эти самые «ключевые слова». Я работал сразу с несколькими небольшими программами, объединёнными в технологическую цепочку (так называемая идеология UNIX). Какие-то из них писал сам, а кое-что пришлось брать из открытых источников. Так, например, лемматизировал (то есть приводил слова к своей исходной форме) формы автомат, который лежит и в основе поисковой системы Яндекса — Mystem. Создавать такую программу для решения частной задачи исследования было бы слишком затратно по времени и нерационально. Я недавно сделал такую систему для башкирского языка и понимаю, насколько это тяжёлая задача. Так что какой-то вывешенной в открытый доступ программы, которая бы выявляла ключевые слова произвольного текста, я предложить не могу. Проанализировано 634 496 страниц, словоупотреблений 108 779 948 за 4714 дней. Для сравнения - в газетном корпусе Национального корпуса русского языка 113 292 003 словоупотреблений.

Почему вы использовали именно lenta.ru, а не печатные издания?

 На данный момент в интернете скопилось достаточно много текстовой информации, она находится в общем доступе, открыта и бесплатна. Мне нужно было что-то среднее между общим “узусом» и языком интернета - отобрать материал, сочетающий интернет-ориентированность и консервативность подачи материала, то есть не блоги и не «Российская газета». Сам же ресурс лента.ру - устроен очень удобным для исследователя образом. Практически каждая публикация на нём привязана к определённой дате, это и стало отправной точкой для подсчётов: считалась не абсолютная частотность слов (сколько раз они упомянуты на сайте Lenta.ru), а количество дней, в которые они были упомянуты. С помощью этой временнОй метки можно было посчитать и плотность, с которой слово употребляется в текстах, какова его динамика: как во врачебных сводках: позитивная (популярность нарастает) или негативная (слово постепенно забывается, и пик его употребимости прошёл).

Был ли проведен анализ ключевых слов для девяностых или восьмидесятых?

Для 1990-х такая работа во многом уже сделана, только в её результате не компактный список, как у меня, а целый большой словарь — во многом сходные цели преследовали составители «Статистического словаря языка русской газеты (1990-е г.)» А.Я. Шайкевич, В.М. Андрющенко, Н.А. Ребецкая. Рассматривать таким же образом другие периоды русского языка гораздо труднее: нужны оцифрованные тексты, которые мог бы обработать компьютер: ведь вручную посчитать всё это было бы невозможно. А с оцифровкой газетных изданий у нас, в отличие от западных стран, дело обстоит неважно.

Что вам показалось интересным и заслуживающим внимание в этом перечне, какие выводы напрашиваются по этим ключевым словам?

В своем выступлении я акцентировал внимание на несловарных словах - например, спецоперация, файлообменник, единорос, покемон, блоговый, соцсеть, анонимус, айфон, суперкар. Они уже успели прочно войти в наш лексикон, но не нашли отражения в словарях. Программа отмечала такие слова как «неизвестные». Еще одним показательным разделом было использование слов, образованных с помощью т.н. аффиксоидов, то есть таких компонентов, которые когда-то были корнями, но начали так часто использоваться, что стали больше похожи на суффиксы и приставки, например, «авиа-» в словах «авиакомпания», «авиапромышленность» и т.д., а также «видео-», «псевдо-» «гидро-»и другие. C 90-х годов лидирующее положение в списке занимает аффиксоид «супер», хотя его частотность начала снижаться - возможно, за счет того, что многие подобные явления теперь стало модно называть «мега». Все остальные аффиксоиды по частотности употребления только растут: особенно заметен всплеск «нано». Первый случай его употребления в неспециальной литературе относится как раз к 2000 году, тогда еще слова с «нано» было принято заключать в кавычки. Хороший рост показали аффиксоиды «видео» и «авиа».

В это десятилетие полностью изменился смысл некоторых слов, например, раньше слово «зачистка" употреблялось в значении очистки поверхности от шероховатостей - «зачистка детали после изготовления". Сейчас это значение уже никто не вспоминает. Всем известно и значение слова «откат», тогда как в 90-е годы его широкому читателю требовалось дополнительно объяснять. Редкий человек может вспомнить первоначальный смысл - то, что происходит с орудием, когда оно выстрелило.

Вы уже выступили с лекцией о ключевых словах перед широкой аудиторией на семинаре Сахаровского центра. Какие вопросы волновали собравшихся?

Когда я выступал с результатами этого исследования перед нелингвистической публикой, было заметно, что всё это вызывает неподдельный интерес, но разговор неизбежно скатывался к наиболее болезненной и наиболее понятной для неискушённого человека «лингвистической» проблеме: языковая норма («как говорить/писать правильно?»), умирает ли русский язык или ещё немного поживёт, как относиться к тому, что молодежь сейчас говорит совсем не так, как привыкли старшие. Для собственно лингвистики все эти проблемы представляются поверхностными. Лингвистика - это наука, она изучает язык и происходящие в нём изменения, а не оценивает их и не диктует людям, как нужно говорить. Было бы странно, например, если бы биологи вместо того чтобы изучать экосистему саванны, говорили бы, что слоны лучше гиен, и пытались объяснить львам, что охотиться на антилоп нехорошо. Но людей волнуют эти вопросы, так что приходится отвечать и на них.

Но были и интересные наблюдения, они касались, в основном, политизированности нашего языка, того, что всё-таки наиболее заметными ключевыми словами стали те, которые так или иначе соотносятся с описанием политических событий. А вот на то, что в список ключевых попало слово «супермен», мало кто обратил внимание. Между тем, смещение, которое отражено в этом слове, довольно значимо и уже, наверное, исследуется социологами и антропологами: ведь главным героем боевиков 80-90-х традиционно был амбал с большущей пушкой, виртуозно пачками расстреливающий плохих парней. В 2000-х акценты расставлены иначе, на первый план в многобюджетных фильмах вышли персонажи со сверхспособностями или какие-нибудь еще подтипы супергероев, а вооруженные до зубов рэмбоподобные господа выглядят как анахронизм. Всё это отражается и в языке.

В результате главными словами двухтысячных признаны:

.авиакомпания

.айпад                                                              

.айфон

.блог

.видео

.кризис

.мега

.модернизация

.нанотехнология

.нацпроект

.несогласный

.оборотень

.откат

.перезагрузка

.превед

.распил

.рында

.соцсеть

.спецоперация

.супермен


ПОДГОТОВКА ИНТЕРВЬЮ: Нурия Мухаметдинова

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.