google.com/recaptcha
google.com/recaptcha

Проблема

При сканировании текстов и последующем их автоматическом переводе в текстовые документы при помощи специальных программ возникает много ошибок и остается много слов, которые не удалось разобрать. Поэтому приходится прибегать к услугам людей, которые будут исправлять проблемные участки текста. Соответственно, для больших объемов текста необходимы огромные человеческие ресурсы, миллионы человеко-часов.

Есть и другая проблема в Интернете: защита сайтов от спама, рассылаемого посредством автоматической регистрации через формы, которые есть практически на каждом сайте. Для сбора информации и рассылки спама через формы зачастую используются роботы, поэтому для защиты от спама необходимо определить, кто совершает действия на сайте: человек или робот.

Как проект решает проблему

Проект reCaptcha совмещает в себе решение проблем исправления текстов и защиты сайтов от действий роботов.

Веб-мастера размещают код reCaptcha на своих сайтах. Пользователь при совершении какого-либо действия (например, при регистрации или комментировании) видит перед собой форму reCaptcha с двумя словами, которые необходимо набрать в поле ввода (смотрите изображение выше). Одно слово известно системе, а второе – это как раз слово, которое необходимо распознать. Система проверяет известное ей слово, и если пользователь ввел его верно, то неизвестное считается правильным. Чтобы сделать результаты распознания текстов, полученные таким образом, более точными, системы показывает одно и то же распознаваемое слово разным пользователям много раз.

Таким образом, человек доказывает, что он не робот, и за один раз помогает исправить одно слово, которое не удалось распознать автоматически при сканировании книг. Если же на страницу с reCaptcha попадает робот, то он не сможет выполнить запланированные действия из-за того, что не может распознать текст, изображенный на капче. Таким образом reCaptcha защищает сайты от роботов.

Проект reCaptcha используется в настоящее время компанией Google для оцифровки книг мировой литературы для размещения их электронных копий в бесплатной библиотеке Google Books.

Монетизация

ReCaptcha является бесплатным проектом, напрямую не генерирующим прибыль, но обеспечивающим бесплатное распознавание текстов для проектов Google Books и Google News. Бесплатность сервиса является одним из привлекательных аспектов для установки его на сайты.

Технологии

Сервис reCaptcha построен на технологии капча (captcha – Completely Automated Public Turing Tests to Tell Computers and Humans Apart (полностью автоматизированные открытые тесты Тьюринга для различения компьютера и человека)).

Для распознавания текстов используется метод “Одно слово за один раз”. Одно из двух слов в изображении на captcha известно, второе – нет. Если пользователь правильно ввел известное слово, то неизвестное считается тоже правильно введенным.

Еще одной из особенностей reCaptcha является звуковое воспроизведение капчи, появившееся в 2008 году.

Как раскручивается проект

Сервис reCaptcha, размещенный на сайтах, имеет легко узнаваемый дизайн и логотип, тем самым продвигает сам себя, в том числе за счет своей бесплатности и помощи в распознавании книг.

Защита reCaptcha размещена во многих сервисах Google, что позволяет привлекать к себе достаточно большое внимание.

По данным на июнь 2012 года, reCaptcha имела 100 миллионов показов ежедневно.

Конкуренция

В области общественного совместного распознавания текста единственный найденный нами проект – это национальная австралийская библиотека, распознающая старые газеты. Но проект этот – внутренний, не являющийся массовым. По сути, у reCaptcha в области распознавания текста с помощью краудсорсинга конкурентов не найдено.

В области защиты сайтов от спамерской и подобной вредоносной активности в качестве конкурентов можно выделить akismet.com, captchas.net, nucaptcha.com, хотя проектов, предоставляющих сервисы защиты от спама, – огромное количество.

Akismet является бесплатным для персональных некоммерческих блогов, в остальных случаях стоимость варьируется от 5 до 50 долларов в месяц. Akismet работает по принципу фильтрации сообщений через свои серверы, что освобождает пользователя от необходимости вводить капчу.

Captchas.net предоставляет аналогичный reCaptcha бесплатный функционал, за исключением того, что вводить необходимо одно слово, но и распознаванием книг проект не занимается. Из недостатков можно выделить невозможность быстро попробовать распознать другой текст, если не получается распознать тот, который вы видите.

Nucaptcha работает так же, как и обычная капча, с отличием в том, что пользователю показывается не статичная картинка, а видео. Ее положительными аспектами являются легкость распознавания текста пользователем, потому как защита осуществляется не внесением дополнительного искажения в изображение и не его сложностью, а движением символов. В капче может размещаться реклама. Существует бесплатная версия (до 10000 капч в месяц) и платная (стоимость определяется по запросу).

Преимущества reCaptcha перед конкурентами следующие:

  • бесплатность;
  • благородная миссия распознавания книг;
  • нет ограничения на количество вводимых капч;
  • аудиовоспроизведение текста;
  • владельцем является Google, внедривший reCaptcha во многие свои сервисы, что дает некоторую гарантию быстрого устранения обнаруженных проблем в безопасности.

Кроме этого, в reCaptcha запустили проект Mailhide, позволяющий запретить распознавание своего email в Интернете, используемое спамерами для сбора адресов.

Инвестиции, слияния, поглощения

16 сентября 2009 года компания Google приобрела проект reCaptcha для использования его в собственных проектах Google Books и Google News. Сумма сделки не разглашается.

В 2007 году reCaptcha была создана Луисом вон Ахн (Luis von Ahn), позволив ему войти в список молодых инноваторов до 35 лет.

Вопросы? Мысли? Не стесняйтесь, делитесь)!