2013. júl 22.

Algoritmikus szövegértés

írta: _Maverick
Algoritmikus szövegértés

text-mining.jpgA számítógépek egyik legrégebbi és a nagyközönség számára egyik leggyakrabban használt funkciója a szövegszerkesztés. Valamilyen – kétségkívül vitatható – okból kifolyólag az iskolai informatika oktatás is a Worddel kezdődik rendszerint. Mára azonban a gépekkel nem csak írni lehet, de rá lehet bírni őket szövegek felolvasására, esetleg diktálás útján történő lejegyzetelésére is. Már az utóbbi két képesség is igen érdekes, de most nem ezekről lesz szó. A gép ugyanis képes valami olyanra is, amire a humanoid olvasó aligha: a szöveg analitikus elemzésére, mely meglepő pontossággal képes eldönteni két írásról, hogy azok vajon ugyanattól a szerzőtől származnak-e, új árnyalatot adva ezzel a szövegértés hétköznapi fogalmának.

Az elmúlt hónap egyik nagy szenzációja volt Nagy-Britanniában, hogy a kritikusok által körberajongott „The Cuckoo's Calling” című regényről kiderült, mégsem Robert Gailbraith első munkája, hanem a Harry Potter megalkotójának, J. K. Rowlingnak a szerzeménye. A Times magazin kapott egy névtelen fülest a turpissággal kapcsolatban, de hogy bizonyosságot nyerjenek, Patrick Juola-hoz, a Duquesne University kutatójához fordultak, aki egy olyan program fejlesztéséről ismert, amely képes szövegek összehasonlító vizsgálatára. A Times persze nem mondta el, hogy Rowlingra gyanakszik, mindössze felkérték a csoportot, hogy vessék össze a szóban forgó regényt több ismert szerző műveivel.

A program működéséről maga a fejlesztő írt egy részletes bejegyzést, itt csak a lényegre szorítkoznánk. Azt mindenki tapasztalta már, hogy mindnyájunknak megvannak a kedvenc szavai, amelyek frekventált használata tipikusnak mondható. Ennél azonban sokkal többről van szó, meglepő módokon hagyunk ugyanis magunk után apró névjegyeket az általunk írott szövegekben. Nézzük a fő összehasonlítási kritériumokat, melyek beazonosították jelen esetben Rowlingot, aki el is ismerte a dolgot – tekintsünk most el a dolog marketing értékétől, ez a megfontolás nem von le semmit a program érdemeiből:

  1. A szavak hosszának eloszlása. Mindegy, hogy mit jelent az adott szó, milyen összefüggésben szerepel, mindössze egy táblázatról van szó, ami megmondja, hogy a szavak X %-a Y karakter hosszú volt.

  2. A 100 leggyakrabban használt szó listája.

  3. Szó párok, amelyek gyakran szerepelnek együtt. Ezzel már átlépünk a mondatok világába, egyszersmind valami olyasmiről beszélünk, amely talán kevéssé tűnik fel egy olvasónak.

  4. Ez a legmeglepőbb pont, amely kétségkívül algoritmikus elemzést igényel és aligha gondol rá bárki is, aki valaha leírt egy mondatot. Egyenesen felmerül a kérdés, hogy miként találták meg ezt a szempontot. Kiderült ugyanis, hogy az egyik legtipikusabb „írói aláírás” egy szövegben az úgynevezett „négy-grammák” gyakorisága, ami annyit tesz, hogy megvizsgálják az egymás után következő 4-4 karakter által alkotott láncokat, és ezeket vetik össze. Hogy jobban értsük, ebben a mondatban ezek például így néznek ki: 'Hogy', 'ogy ', 'gy j', …

mmw-torah-111711.jpg

Természetesen egy ilyen eljárás nem lehet kétségkívül bizonyító erejű, de igen alapos gyanút ébreszthet egy adott szöveg kapcsán. Rowling leleplezése a világ menete szempontjából összességében nem egy érdekes tény, viszont nem kell sok fantázia ahhoz, hogy lássuk, mire lehet jó egy ilyen algoritmus. Segítségükkel ismeretlen szerzős történelmi dokumentumok, letűnt korok irodalmi műveinek alkotóit lehet fellelni, de hasznosak lehetnek bírósági ügyekben is. Persze ott a beismerő vallomás kicsikarása bizonyára nehezebben menne, mint a rajongott írónő esetében...  

Forrás


Popular Science

Szólj hozzá

algoritmus kvarkok