На мартовской встрече Американского физического общества группа сотрудников Лаборатории моделирования биологических и социо-технических систем Северо-Восточного университета (Northeastern University, Бостон, Массачусетс) во главе с Делией Мокану (Delia Mocanu) представила проект использования микроблогов для исследований в области лингвистической географии. В апреле подробный отчет об этом проекте был опубликован в журнале PLOS One.
На данный момент около шести миллионов человек по всему миру используют Twitter, создавая около 650000 новых твитов ежедневно. Для одного процента записей указана локализация. Сопоставляя язык записи и ее локализацию, можно сделать вывод о доминирующем языке региона.
Используя автоматическую программу определения языков, исследователи проанализировали 10 процентов всех твитов. Сопоставление результатов с картой Европы показало хорошее совпадение с государственными границами, что показывает эффективность методики. Из менее очевидных результатов можно отметить выявление локальных центров испанского, корейского, португальского, японского, русского, нидерландского, датского и инденезийского языков в Нью-Йорке.
Ученые предполагают, что при большом охвате их метод поможет выявлять распределение языков в многоязычных странах, мегаполисах, а также исследовать в реальном времени туристические потоки и другие виды сезонной миграции. Например, в пятерку самых частотных языков, на которых пишут в Twitter из Таиланда, после тайского входят английский, японский, малазийский и русский. Работа показывает потенциал использования открытых данных для анализа актуальной языковой ситуации.
Создан веб-сайт The Twitter of Babel, позволяющий наблюдать распределение языков в твитах.