Геннадий Осипов: Как оценить научные тексты

Интеллектуальный партнер проекта

Об искусственном интеллекте, Российской академии наук и о том, кто же в России «двигает» науку - в первой части разговора с доктором физико-математических наук, профессором, заместителем директора по научной работе Института системного анализа РАН, постоянным членом Европейского координационного комитета по искусственному интеллекту (ECCAI) Геннадием Семеновичем Осиповым, под руководством которого была разработана система интеллектуального анализа научных публикаций Exactus Expert. Беседовал Григорий Зацман.

Система Exactus, на основе которой разработали систему интеллектуального анализа научных публикаций Exactus Expert, существует давно. Расскажите, пожалуйста, как создавалась эта система, какие технологии были заложены в ее основу?

Геннадий Осипов

Если говорить о хронологическом порядке, то первые работы по созданию научного задела для разработки системы Exactus (развитием которой является система Exactus Expert) появились в 1995 году. Мои первые работы в этой области относятся к этому времени. Они были представлены на конференциях IEEE (Institute of Electrical and Electronics Engineers – прим. автора) в США и опубликованы в трудах этих конференций в 1995-1998 годах. Идеи, лежащие в их основе, возникли в результате интеграции методов лингвистической семантики, разработанных серьезными российскими лингвистическими школами и методов искусственного интеллекта, а именно теории неоднородных семантических сетей. Я имею ввиду Институт русского языка имени Виноградова Российской Академии наук (далее – ИРЯ РАН), в котором разработана так называемая коммуникативная грамматика русского языка (Г.А.Золотова и её ученики) и работы мои и моих учеников, которые выполнялись в Институте программных систем Российской академии наук и продолжают выполняться в Институте системного анализа Российской академии наук. Несмотря на присутствие в названии лингвистической теории слова «грамматика», речь, на самом деле, идет о семантико-синтаксической теории, в основе которой лежит идея о неразделимости синтаксиса и семантики языка.

По существу, речь идет о том,  что в каждом предложении можно выделить некоторое множество синтаксических конструкций, каждая из которых является носителем своего категориального значения и является в этом смысле минимальной. 

Можно сказать, является «атомом» смысла.

Это то, что называют семой?

Синтаксемой. То есть минимальная синтаксическая конструкция, имеющая определенное категориальное значение. Например, если мы возьмем конструкцию «к столу», то категориальным значением этой конструкции можно считать цель движения; для конструкций «на столе» или «на полу» категориальным значением является место. Если же мы попытаемся разрушить эти конструкции, то и значения изменятся. Например, слово «стол», имеет не менее 10 значений. От площадки для запуска ракет, до хирургического стола. Когда мы употребляем конструкцию «к столу», то мы понимаем, что нужно подойти к столу и сесть за него. Вот это минимальные конструкции, дальнейшее деление которых приводит к потере смысла. Например. «Президент пошел с трибуны в зал». Здесь три синтаксемы, построенных на основе существительных, но существуют и другие, построенные на основе глаголов и прилагательных. «Президент» – это первая, она называется субъектом.«С трибуны» – вторая, называется аблативом, точкой начала движения. В зал – третья, финитивная синтаксема, цель движения. Есть, кроме того, некоторое слово, которое организует структуру высказывания – «пошел». Это предикатное слово, в данном случае глагол, образующий предикат. Синтаксемы заполняют определенные семантические валентности в структуре этого предикатного слова. Кроме того, на них можно задать некоторые отношения, на самих синтаксемах, на их значениях. Все эти операции реализованы в наших системах.

В предложении может и отсутствовать глагол?

Даже если его нет, можно задать отношения на множестве синтаксем предложения. Например: «Я - домой». Глагола нет. Поэтому нужно уметь обходиться без глаголов, Тогда следует использовать упомянутые отношения на множестве синтаксем. «Я» здесь субъект, «домой» – финитив. Эта пара принадлежит отношению, которое мы назвали финитивным. Из того обстоятельства, что, например, некоторая пара синтаксем принадлежит финитивному отношению, следует, что второй элемент пары обозначает цель для первого элемента пары, при этом первый элемент пары является субъектом действия.

В ИРЯ РАН были прикладные работы на основе этой теории?

Вопрос – что называть прикладными работами для лингвистов. Я считаю, что были. Например, в ИРЯ РАН Г.А. Золотовой составлен синтаксический словарь русского языка. В это время у нас уже был разработан и достаточно хорошо развит аппарат для представления знаний интеллектуальными системами. Оказалось, что этот аппарат - неоднородные семантические сети - как математический аппарат позволяет адекватно описать и даже развить подходы, предлагаемые коммуникативной грамматикой.

В итоге мы получили технологию, которую назвали технологией реляционно-ситуационного анализа.

Эта технология описана (показывает книгу «Методы искусственного интеллекта»)

То есть вы разработали технологию представления знаний?

Технологию представления знаний мы разработали значительно раньше, в данном случае я говорю о технологии анализа предложений. А дальше эту технологию, технологию, представления предложения в виде неоднородной семантической сети, мы использовали для задач поиска. Задачи эти были поставлены давно, в начале 2000-ых годов. Где-то в 2005-2006 году была реализована первая поисковая машина, которую мы назвали Exactus. Сейчас уже четвертая версия работает. Идея состоит в том, что запрос можно писать на естественном языке. Это позволяет пользователю точно формулировать свои поисковые потребности, иначе говоря, можно сфокусировать свой запрос. Не Пушкин вообще, а когда родился Пушкин. Или где жил Пушкин, или что написал Пушкин. Если у вас нет этого механизма, то невозможно точно сформулировать свой запрос.

Это то, что отличает систему Exactus от других поисковых систем?

Да, именно анализируя структуру запроса, алгоритм пытается понять, что «на самом деле» спрашивает пользователь. Наш анализатор строит сеть для этого запроса (семантический образ запроса) и ищет аналогичные структуры в документах. Отбирает те документы, в которых найдутся предложения, семантические образы которых релевантны семантическому образу запроса. Так устроен поисковый движок.

Отбирает из какого массива? Была создана база данных, поисковый индекс?

Не было никакой базы данных, поскольку эта машина работает в интернете. И поисковый индекс мы не храним. Для этого нужны ресурсы, в первую очередь серверные. Наша система работает в реальном времени. На лету. Индексирует, а потом забывает. Потому что хранить это негде.

Как создавалась система анализа научных публикаций?

Это было инициировано Минобрнауки как инфраструктурный проект анализа научных текстов. Был конкретный заказ, 3 года мы этим занимались и закончили в 2012 году. На основе поискового движка, плюс методы семантического анализа текста. Там использовали и другие модели. Построили систему, которая обладает значительно большей функциональностью, чем исходная система Exactus. Она называется Exactus Expert. Зачем это нужно? К ним отчеты поступают, нужно анализировать.

Насколько я знаю, привлекаются компании, т. н. мониторы.

Да, есть мониторы, дирекция программы. Но это трудоемкая работа. Наша система способна ощутимо облегчить эту работу. Есть возможность анализировать разные типы документов, в зависимости от настроек. Отчеты, либо статьи, диссертации, авторефераты.

Насколько я понимаю, чтобы система имела возможность выставлять баллы, оценки какому- либо тексту, нужно систему обучить. Сказать, какой текст мы считаем условно хорошим, какой – условно плохим.

Здесь нужно рассмотреть разные случаи. Есть функции, не требующие обучения, а есть функции, требующие обучения. Мы вывели понятие индекса научности текста. Что это означает? Я дам некоторое рабочее определение научного текста. Научный текст – это такой текст, который удовлетворяет определенной структуре, задаваемой, например, редакциями научных журналов. Сейчас эти требования одинаковы практически во всем мире. Научный текст должен содержать следующие разделы: связь с другими работами, постановка задачи, методы решения этой задачи, полученные результаты, их обсуждение, список литературы. Эти разделы должны быть в каждом научном тексте. Кроме того, лексические и синтаксические структуры такого текста должны удовлетворять определенным критериям. Если какого-то раздела нет или какой-либо из критериев не удовлетворяется, то индекс научности текста понижается. Причем, наши методы (реляционно-ситуационного анализа) позволяют выявить наличие/отсутствие, например, результатов, даже если они не вынесены в отдельный раздел, а разбросаны по тексту. Это требования общие. Их предъявляют все журналы мира. Это первое.

Я с вами соглашусь.

Второе – научный текст, научная речь, в отличие от публицистики, например, содержит определенную лексику. Для чего это? В научном тексте низкая степень синонимичности. Иначе возможно неоднозначное понимание.

Когда ученый пишет статью, он хочет донести до коллег свой ход рассуждений и результаты, а не их интерпретацию. Должно быть точно сформулировано, что именно он говорит.

Для этого существуют определенные обороты, определенные выражения, которые нельзя менять. Если я их изменю, то одним может быть понято так, а другим этак.

Научный текст должен исключать возможность вольного толкования?

Да. Поэтому научный текст более жестко структурирован. В нем существуют более жесткие шаблоны. В каждой области свои. Или обороты, более или менее устойчивые. Это мы тоже отслеживаем - присутствуют или нет. Если есть, то какой процент. Это уже на основе методов машинного обучения. Берем представительную выборку научных текстов, и представительную выборку ненаучных текстов.

То есть после обучения анализатор умеет «оценивать» лексику и структуру текста. Но текст может быть научным с этой точки зрения, но при этом не очень «хорошего» качества?

Анализатор оценивает не только лексику, но и синтаксические конструкции, которые система построила на основе методов машинного обучения по примерам. На основе обучения по примерам формируется множество синтаксических структур, присущих научным текстам той или иной отрасли науки. Далее, на основе сравнения с множеством текстов, не имеющих научного характера, система вычисляет значения лексического индекса.

Третье - то, о чем вы говорите сейчас, о самом качестве текста. В тексте могут быть ошибки, которые отражают не только грамотность, но и качество мышления автора. Например, отсутствует субъект высказывания. Непонятно, о чем речь идет. Или нет согласования в родительном падеже, в генитивных оборотах. Нет согласования в каких-то конструкциях, которые управляются глаголом. Частое повторение в предложении и соседних предложениях определенного слова, нарушение падежного согласования. Некоторые другие дефекты. Их наличие выявляется с помощью специальных семантических правил. Все, что я перечислил, имеет непосредственное отношение к качеству текста. Если в тексте слишком много такого рода дефектов, то он перестаёт передавать смысл, который, возможно, хотел вложить в него автор. И наконец, что новенького сделано автором? То есть новые термины, понятия, введенные автором. Если все это присутствует, то тексту присваивается самый высокий индекс научности.

С научными текстами в каких областях может работать Exactus Expert?

В нашу задачу входил анализ естественнонаучных и технических текстов.

А если мы говорим о гуманитарных дисциплинах? У вас есть какие-то идеи, как подступиться?

Идеи есть, заказа нет. В наше время большие проекты, как инициативные, не реализуются. Мы можем статью написать без заказа. Но делать сложную программную систему, это большая работа. Если будет заказ - сделаем.

В гуманитарных дисциплинах острее, чем в технических, стоит вопрос о «значимости» той или иной научной публикаций.

Речь не идет об оценке научной значимости. Exactus Expert может оценить, соответствуют ли статья или отчет требуемой структуре, может оценить качество самого текста. А не научную значимость результата. Это дело экспертов. Мы создали интеллектуальную систему, но специалиста она заменить пока не может. Подчеркиваю - пока.

Но ведь и у эксперта, у человека тоже нет совсем точных критериев для анализа…

Я понимаю, о чем вы говорите. Когда я смотрю некоторые статьи, после прочтения первых нескольких фраз, мне становится более или менее понятно...

В этом и вопрос. Как ваша система может в этом помочь?

Заменить человека пока она не может. Для того, чтобы это можно было сделать, мы должны построить, поддерживать и развивать компьютерные картины мира экспертов в различных научных областях. Эти картины мира можно строить по их высказываниям, выступлениям и публикациям. Пока таких задач перед собой мы не ставим. Интеллектуальные системы могут заменять человека сегодня в решении ряда конкретных задач, медицинских, технических, в автоматическом доказательстве теорем.

То есть диагнозы в медицине ставить с этой точки зрения проще, чем ставить «диагноз» научной публикации?

Да, автоматизированные системы постановки диагноза довольно продвинутая область. У нас есть свои разработки и в этом направлении, в том числе, внедренные в клиниках.

Вернемся все-таки к функциональности системы Exactus Expert. То, о чем мы уже поговорили, касается оценки каждой конкретной публикации, а что касается оценки массива научных публикаций в целом?

Система может выявлять динамику публикационной активности по направлениям, оценивать перспективность научных направлений, выделять научные коллективы, сравнивать коллективы, работающие в одном направлении.

Это первый шаг. Дальше анализируется динамика и качество научных текстов по авторским коллективам.

Сейчас в системе массив из более миллиона документов. Чтобы система выдавала объективные результаты, нужны десятки миллионов документов. Она, разумеется, работает и на миллионе. Просто результаты не совсем объективные, в силу неполноты информации.

Вы говорите, что с помощью Вашей системы можно сравнивать авторские коллективы, но ведь часто коллективы не имеют формальных «объединяющих» признаков?

Наша система позволяет выделять коллективы, даже если они не институализированы. Выделять именно работающие исследовательские группы по публикациям. Можно увидеть, кто лидер, кто работает в этом направлении, чья научная активность повысилась или снизилась.

Это уже является полезным инструментом для лиц, принимающих решения.

Безусловно, если они хотят иметь такой инструмент.

Продолжение следует.

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Как оценить научные тексты

Редакция

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Как оценить научные тексты

Роль научных журналов в научной жизни

Мифы и реалии РАН

Ученые продолжают шутить: история Корчевателя-2

Российский индекс научного цитирования: стандарты описания и требования ВАК

Редакция