Правда о reCAPTCHA
Недавно я узнал правду о reCAPTCHA — одном из проектов корпорации добра Google. Для справки, CAPTCHA расшифровывается как Completely Automated Public Turing test to tell Computers and Humans Apart (полностью автоматизированный публичный тест Тюринга для различия компьютеров и людей). Алан Тюринг был первым, кто ввел в обиход понятие Искусственного Интеллекта (ИИ) и разработал своеборазный тест на определение ИИ. Так вот, капча — это частный случай теста Тюринга на искусственный интеллект. Теперь, что я хотел рассказать о reCAPTCHA.
Есть два способа организовать у себя на сайте защиту от ИИ (антиспам-защита) — это реализовать ее саму (что не очень сложно), и воспользоваться сервисом reCAPTCHA (что еще проще). До сих пор я относился к reCAPTCHA с откровенным недопониманием: мне было невдомек, почему многие известные ресурсы пользуются reCAPTCHA, когда могли бы с легкостью реализовать свои механизмы капча. Тем более, такое уродство среди множества реализаций капч еще поискать надо, и вообще, почему они так гордятся, что у них на сайте используется этот публичный движок — ну уродство ведь откровенное… Оказалось, все реально очень круто.
Изображание символов на картинке не генерируется автоматически случайным образом, как это принято в классической captcha. У гугла есть смежный проект по распознаванию образов (OCR — Optical Character Recogintion) — тысячи и тысячи страниц печатного текста, отсканированного и отправленного на автоматическую обработку (перевод растрового изображения в текстовую информацию). Задача OCR находится в области искусственного интеллекта и до сих пор нет вменяемого алгоритма распознавания, который бы давал высокий процент успеха. Всегда остаются нераспознанные фрагменты, которые приходится обрабатывать вручную. Гугл принял гениальное решение, скрестив два проетка. Все, что не распознал при сканировании робот, выдается через сеть сайтов, пользующихся вторым сервисом (reCAPTCHA) пользователям этих самых сайтов, которые и выполняют эту ручную работу. Таким образом, вся эта махина полностью автоматизирована. Среди прочих плюшек гугл получает бесплатного учителя для нейросети своего ИИ, который занимается распознаванием.
И это еще не все. У проекта reCAPTCHA есть вторая сторона — это распознавание речи. Если взглянуть на блок reCAPTCHA, то помимо текста там можно найти кнопочку с изображением динамика. Идея абсолютна такая же, только распознавание не оптическое, а звуковое.
Если не ошибаюсь, одно слово сгенерировано системой, а второе взято из текстов, отправленных для распознавания.
В точности так.
действительно круто придумано