3 июня 2024, понедельник, 10:34
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

15 августа 2008, 19:07

Борьба со спамом помогла оцифровке старых текстов

Как сообщает Science Now, компьютерные специалисты из университета Карнеги-Меллона в Питтсбурге адаптировали программу для борьбы со спамом, часто используемую в Интернете, в инструмент для оцифровки старых печатных текстов.

Программа CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) используется для того, чтобы отличить человека от машины. Она показывает рисунок с искаженными буквами и просит набрать этот текст на клавиатуре. Человек делает это легко, а современные оптические считывающие устройства часто не справляются с заданием.

На основе CAPTCHA ученые создали новую программу reCAPTCHA, которая собирает слова, помеченные как нечитаемые при сканировании бумажных текстов. Таких слов, которые не распознаются автоматически, очень много при сканировании старых книг и газет из-за плохого состояния бумаги. Раньше приходилось просматривать сканированные тексты и исправлять слова вручную.

Теперь программа reCAPTCHA предъявляет обычный случайный набор букв и цифр, и одновременно неопознанное при сканировании (оптически искаженное) слово. Если несколько пользователей, опознанных как люди, наберут непонятное слово одинаковым образом, то оно автоматически будет опознано именно так, как его набрали. Таким образом, человек, проходящий тест на «человечность», одновременно помогает оцифровке старых текстов, при этом  99% слов прочитываются точно.

Человек в среднем тратит на тест 10 секунд. Так как в Интернете каждый день производится около 200 миллионов подобных тестов, в сумме можно получить около 500 тысяч полезных часов в день.

Сейчас система reCAPTCHA автоматически использует 4 миллиона обращений в день на 40 тысячах веб-сайтах, что эквивалентно работе 1500 человек в течение всего рабочего дня при скорости чтения 60 слов в минуту.

В течение года сервис помог распознать 440 миллионов слов для оцифровки газет и архивов. В частности, с его помощью была оцифрована подшивка газеты The New York Times за 1908 год. Программа доступна по адресу www.recaptcha.net для любого желающего веб-сайта.

Статья о новой программе опубликована в журнале Science.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.