O Google anunciou ontem a compra do reCAPTCHA, popular serviço que fornece sistema de validação de CAPTCHA para qualquer um que queira usar em suas aplicações.
CAPTCHA significa Completely Automated Public Turing test to tell Computers and Humans Apart (algo como teste de Turing público completamente automatizado para diferenciação entre computadores e humanos). Basicamente serve para evitar SPAM e ações automatizadas, apresentando letras distorcidas ou embaralhadas que os usuários devem confirmar antes de executar uma ação – como postar um comentário. Pessoas podem ler e identificar o conteúdo facilmente (ou nem sempre…), mas softwares não. É difícil um programa de OCR trabalhar bem com captcha pois as letras são distorcidas, impedindo a quebra dos captchas bem elaborados.
O reCAPTCHA é um serviço para quem tem site ou blog e quer usar captcha, mas não quer desenvolver um sistema do zero. Por meio de um cadastro gratuito você tem acesso à API, podendo chamar o captcha na sua página e só executar as ações desejadas caso o reCAPTCHA retorne um “ok, o usuário digitou certo”.
Diferente de um captcha comum, o reCAPTCHA ajuda a digitalizar livros e publicações antigas. Mas como? Se ele tem que confirmar o captcha, como é que ele vai confirmar sem saber o que estava escrito…
Aí entra a técnica peculiar dele: ele mostra duas palavras. A primeira (normalmente) já foi decifrada, e a segunda não. Se o usuário digitar corretamente a primeira, supõe-se que ele tenha digitado a segunda certa também. E assim ele assume o valor da segunda – quem usa, deve ter percebido que o reCAPTCHA deixa passar vários erros, diferente da maioria dos serviços que exigem a digitação correta das letras.
A confiabilidade da digitalização “coletiva” é obtida estatisticamente. Naturalmente ele usa a mesma sequencia de palavras para muita gente, sequencia essa “sorteada” quando um captcha é exibido – e é muita coisa, segundo o próprio serviço, mais de 100 mil sites usam o sistema. Com a maioria digitando a primeira palavra certa e a segunda igual, ele assume que a segunda esteja correta também.
Como o Google não é bobo, o serviço pode ser extremamente útil para seu arquivamento de livros, o Google Books, e também o News Archive Search. Tem-se uma equipe de digitalizadores manuais (humanos) em troca de um serviço de proteção para sites. Um software de OCR (reconhecimento óptico de caracteres) ajuda muito, mas em publicações antigas escaneadas é comum que as palavras apareçam distorcidas, borradas ou apagadas, daí o uso de um “OCR manual” é bem vindo.
Por enquanto o Google não anunciou mudanças no serviço, apenas a compra mesmo.
Anúncio:
https://googleblog.blogspot.com/2009/09/teaching-computers-to-read-google.html