2012. júl 25.

7. Mi az a CAPTCHA? Avagy mindnyájan íródeákok vagyunk...

írta: _Maverick
7. Mi az a CAPTCHA? Avagy mindnyájan íródeákok vagyunk...

“I’m not a very good writer, but I’m an excellent rewriter.”
-James Michener-


captcha1.pngA Higgs-bozonnal kapcsolatosan mutatott óriási érdeklődés egyértelművé tette: röviden át kell néznünk a részecskefizika alapjait, hogy egy kicsit helyére tehessük a minket körülvevő parányi alkotóelemek sokaságát. Ez azonban a vártnál lényegesen komolyabb energiákat igényel – miként felfedezésük is a gyorsítóban... -, így ma még az előzetes tervekkel szemben nem az első ilyen jellegű írás kerül ki a hasábokra. Cserében egy apró érdekesség következik tovább után arról, hogy milyen hatalmas munkát lehet elvégeztetni a neten gyanútlanul klikkelgető emberek tömegével!

Bizonyára mindenki számára ismerősek az ábrán látható girbe-gurba szóelemek, betű halmazok, az úgynevezett CAPTCHA-k. A céljukkal is tisztában vagyunk: ezek felismerésével, begépelésével bizonyíthatjuk, hogy nem jól megírt programok vagyunk, amik például jegyüzérkedés céljából felvásárolják a TicketExpress-en egy adott esemény teljes biléta állományát. Más kérdés, hogy a magam részéről rendszeresen le kell kérnem legalább 4 újabb szót, mire magabiztosan meg merem próbálni a helyes megoldás eltalálását, közben arra gondolva, hogy egy igazán jó robot valószínűleg előbb végezne, mint én. A valóság az, hogy nem. Ezekben a másodpercekben valami olyat tesz a csodálatos emberi agy, amit még a gépek nem tudnak helyettesíteni.


De mennyi időt is fordítunk erre globálisan? A kimutatások szerint naponta 200 millió CAPTCHA-t gépelünk be, ami igen figyelemreméltó mennyiség, egyben jól jelzi az internetben rejlő lehetőségeket is. Ha – roppant optimistán – 10 másodpercre becsüljük az átlagosan egy gépelésre fordított időt, akkor arra jutunk, hogy naponta 500 ezer órát tölt az emberiség ezeknek a betűknek a kisilabizálásával. Döbbenetes, miként skálázódik fel egy általunk észrevehetetlen, rövid kis idő intervallum, ha kivetítjük azt az egész Földre.

Szemet szúrt ez a programozóknak is, akik gondolkozni kezdtek: ezt az irtózatos mennyiségű időt vajon lehetne-e valami hasznosra is fordítani az eredeti funkció és cél megtartása mellett? A válasz igen! Napjainkban szélvész gyorsan terjednek a digitalizált könyvek, az elektromos könyv olvasók, az online könyvtárak. Ehhez a terjedéshez értelemszerűen elengedhetetlen a könyvek újra gépelése és szerkesztése, hiszen senki sem szeret merev, rosszul olvasható, scannelt pdf-eket bogarászni, főleg nem egy Kindle képernyőjén, elveszítve a rugalmas lapozás élményét. A gépelés azonban túl nagy munka lenne, így nagy részben automatizált a folyamat.

Első lépésként a fizikai könyvet bescannel-ik, majd ráengedik az OCR (optikai karakter felismerés) rendszerét. Ez beazonosítja legjobb tudása szerint az egyes karaktereket, és elkészíti a „gépelt” változatot. Képességei azonban korlátozottak, és egy 50 éves, néhol elmosódott írást tartalmazó, megsárgult lapokra írt könyv esetében nagyságrendileg a szavak 30%-val nem tud mit kezdeni. Ebből adódik, hogy ezek a szavak nagyszerűen működhetnek CAPTCHA-ként, hiszen gép nem tudja kisilabizálni őket, ráadásul mielőtt számunkra prezentálnák a rejtvényt, még rendszerint párszor át is húzzák az írást, vagy megspékelik egy zajos háttérrel.

facebook_captcha.pngDe ha még nem volt soha „megfejtve” a karakterlánc, akkor miként validálhatjuk emberi mivoltunk általuk? Ezért van újabban két szó: az egyik ismert, a másik nem (érdemes lehet kipróbálni néha direkt elrontva az egyiket, hogy lássuk működésben a dolgot), ez a megfejtendő. Természetesen nem fogadja el a gép megoldásnak az első adandó választ, hanem megvár x darab azonos beírást, és azt továbbítja. Ez a szavak véletlenszerű kiosztása miatt néha vicces pillanatokat is eredményez, például az alábbi eset egy egyházi oldalon: 

bad-christians.jpg

Maga a gondolat egyszerűségében nagyszerű, és érdemes belegondolni, hogy még a fent vázoltak mellett is micsoda apparátusra van szükség a szavak kiosztásához, az eredmények összegzéséhez és a digitalizált szövegrészek könyvekbe illesztéséhez... Mindezt kihasználva a neten böngészők mindennapi tevékenységét, észrevétlenül munkára bírva a felhasználót.

/Az előadás megtekinthető alább. A CAPTCHA csak a bevezető, utána a Duolingo nyelvoktató programról van szó, mely a tanítás mellett a neten található infoirmáció lefordítását bízza ránk a háttérben./

Szólj hozzá

fókuszpont IT