Verteilte OCR |
| Freitag, den 27. Mai 2011 um 17:57 Uhr | |||
|
Heute geht es einmal nicht unmittelbar um SEM-Themen. Trotzdem ist der Beitrag hoffentlich interessant und für einige Webmaster auch nützlich. Es geht um Captchas, also diese nervigen Dinger, wo man irgendwelche Buchstaben oder Worte lesen (oder erraten) und dann eingeben muss, um ein Formular auf einer Website abzuschicken. Sie begegnen einem im Internet immer wieder, wenn irgendwo Formulare auszufüllen sind. Da auch unser Artikelverzeichnis heute von Spammern besucht wurde (über 60 neue Anmeldungen an einem Nachmittag), mußte ich mich intensiver mit dem Thema beschäftigen. Letztlich habe ich es mit dem WordPress-Plugin Sabre gelöst. Dabei ist mir eine Captcha-Realisierung aufgefallen, die ich sehr interessant fand, so dass ich sie hier einmal vorstellen möchte. Sicherlich hat fast jeder diese Form eines Captchas schon einmal gesehen. Es nennt sich reCaptcha und gehört zu Google. Was ist das besondere daran? Man sieht es, wenn man genau hinschaut schon in der Eingabemaske "Stop spam. Read books.". Man muss bei diesem Captcha immer zwei Worte eingeben. Eines davon, welches weiß man nicht, ist der eigentliche Captcha-Code, der Bots abhalten soll. Das andere stammt aus einem Buch, welches digitalisiert wird. Die OCR(Schrifterkennungs)-Software ist an diesem Wort gescheitert. Da wir Menschen immer noch besser lesen können als Computer, sollen wir es also richten. Bei der Digitalisierung nicht erkannte Wörter werden in einer Datenbank gespeichert und für die Captchas genutzt. Die "Interpretationen" der Nutzer werden dann zurückgemeldet, noch einmal abgeglichen und dann für die Digitalisierung verwendet. Also bekommt man dieses Captcha nicht wirklich umsonst, sondern läßt seine Websitebesucher für Google arbeiten. Ich finde das ist ein interessanter Ansatz. Und nun wird auch klar, warum manchmal in diesem Captchas deutsche Wörter auftauchen, oder Wörter wo Klammern oder Satzzeichen dranhängen. Da hat sich also die OCR-Software verschluckt. Zur Zeit benutzen wir noch das oben erwähnte Captcha-Plugin, aber ich denke wir werden auf reCaptcha umsteigen. Dann hat diese lästige Eingabe wenigstens noch einen realen Nutzen. Entsprechende Erweiterungen gibt es für viele Systeme, so auch für WordPress und Joomla.
|

