21 мая 2024, вторник, 00:42
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Языковые следы научного обмана

Markowitz, Hancock/PLOS One

Некоторое время назад в журнале PLOS One вышла работа, авторы которой считают, что нашли способ отличить научные публикации, основанные на реальных данных, от публикаций, в которых используются сфабрикованные данные. По крайней мере, этого удалось добиться для текстов одного конкретного автора.

Проблема невоспроизводимости публикуемых работ страшно актуальна для современной науки, особенно для наук о жизни, где воспроизводить эксперименты зачастую дорого, долго и делать это должно много людей. Карьера ученого очень зависит от количества опубликованных работ и престижности журналов. Многие не могут устоять перед соблазном слегка подправить результаты, опубликовать работу в более престижном журнале и получить более высокооплачиваемую и почетную позицию или грант большего размера. История со STAP-клетками получила широкий резонанс и даже в соответствии с японскими традициями довела до самоубийства человека, который, однако же, ни в чем не был виноват. Эта история наделала много шуму в прессе, но это только верхушка айсберга.

В 2012 году журнал Nature организовал проверку 53 работ, посвященных преклиническим (следующая стадия – испытания на людях-добровольцах) испытаниям лечения рака. 47 из них не воспроизвелись. Да, разумеется, где-то сыграли роль неописанные в статье детали экспериментов, о некоторых могли не догадываться сами экспериментаторы. Но все же объяснить такой потрясающе низкий процент простыми совпадениями невозможно. Где-то авторы просто публиковали результаты наиболее успешных экспериментов из большой серии, а остальные результаты просто выбрасывались в корзину. А где-то дело могло дойти и до фотошопа. Можно вспомнить историю (1, 2) о том, как российский ученый выводил на чистую воду китайских любителей фотошопа, опубликовавших в журнале Cell Research статью о том, что регуляторные РНК из еды попадают в кровоток и могут влиять на метаболизм их съевшего. Статья не была в результате отозвана полностью, но рисунок авторам пришлось заменить.

В недавней статье PLOS One речь идет о статьях всего одного, зато очень плодовитого ученого – голландца Дидерика Стапеля. Его карьера развивалась стремительно, в 40 с небольшим он был основателем научно-исследовательского института в Тилбурге и деканом факультета. Занимался Дидерик Стапель социальной психологией. В последней работе, которую он успел опубликовать до разоблачения, речь шла о том, что грязная и замусоренная окружающая среда провоцирует в людях расистские наклонности. В работе, которая еще только готовилась к публикации, – о том, что люди, которые едят мясо, эгоистичнее вегетарианцев. Возможно, секрет успеха тут кроется в том, что эти результаты, равно как и результаты статьи про регуляторные РНК, соответствуют умонастроениям интеллектуальной прослойки общества. Быть вегетарианцем модно, запретить ГМО и выращивать экологически чистые продукты – это круто, и кто вообще видел тех африканских детей, страдающих от дефицита витамина А без золотого риса? Удобно думать, что расизм происходит из мусора на улицах, а не из более глубоких социальных проблем.

В работе в PLOS One предпринята попытка на основе анализа текста статей сделать выводы о том, какие из них основываются на реальных результатах, а какие на сфабрикованных. Такие попытки предпринимаются не впервые. Например, методами компьютерной лингвистики пытались вычислять людей, привирающих о себе на сайтах знакомств, или отличать реальные отзывы об отелях от поддельных. Разумеется, подобные методы хотят использовать и при расследовании преступлений.

Среди 49 статей, опубликованных Стапелем в качестве первого автора, насчитывается 25 основанных на реальных данных и 24 – на хотя бы частично сфабрикованных. В каждой из групп – чуть меньше 200 тысяч слов. Авторы проанализировали несколько групп слов. Слова, характеризующие актуальность и значимость работы, слова, характеризующие степень уверенности авторов, слова, описывающие методологию и т.п. Отдельно были проанализированы слова, связанные с качественными и количественными оценками, а также сравнениями (сильно, очень, значительнее и т.п.), употребление отрицательных частиц, слов, указывающих на сомнения и вероятностный характер событий. Кроме того, авторы ожидали от сфабрикованных работ меньшей подробности описаний и более простых предложений.

Оказалось, что в поддельных статьях Стапеля гораздо больше научных терминов, но описание не становится от этого более развернутым – число прилагательных наоборот падает. Вероятно, сокращение числа прилагательных связано с тем, что у ученого не было никаких личных воспоминаний о проведенных экспериментах, а данные он просто сочинял. В сфабрикованных статьях было на треть больше слов типа «сильно», «чрезвычайно» и прочих превосходных степеней. Это совпадает с исследованиями отзывов об отелях: в этом случае для фальшивых отзывов также было характерно изобилие превосходных степеней.

Другие стандартные показатели вранья в устной речи, по-видимому, оказались неприменимы к научным текстам, обладающим сложившейся стилистикой и многократно редактируемым. Однако имевшихся вполне хватило для того, чтобы обучить компьютер отличать настоящие статьи от фальшивых. Для проверки этого компьютер изучал статистические закономерности всех статей кроме одной, а затем выносил суждение об оставшейся. Компьютер вынес верное суждение о трех четвертях статей.

Кроме стилистики текста авторы проанализировали число соавторов. Оказалось, что у статей, основанных на сфабрикованных результатах число авторов меньше.

Получается, что методы компьютерной лингвистики неплохо позволяют отличать настоящие статьи от поддельных, если они написаны одним автором. Все-таки такое случается редко, чтобы у знаменитого ученого половина статей оказалась основанной на поддельных результатах, и все это выяснилось. В реальности хорошо бы научить компьютер подозревать художественный вымысел в статьях неизвестных людей, которые зачастую еще и пишут на неродном языке. Хорошо бы, это удалось.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.