Acquaintance-metoden för automatisk textanalys

Välkommen till min C-uppsats hemsida. Under våren 1996 skrev jag min C-uppsats i engelsk lingvistik vid Engelska institutionen vid Stockholms Universitet. Min handledare var professor Magnus Ljung.

Uppsatsen handlar om Acquaintance, en metod för helt automatisk analys av texter. Metoden, som utvecklats av Marc Damashek i Fort Meade, USA, kan helt utan en förberedd databas sortera de texter man ger den som indata i grupper (s k kluster) efter vilket språk de är skrivna på och vad de handlar om. Metoden bygger på att förekomsterna av olika n-grammer, d v s sekvenser med n tecken i olika texter jämförs. Ett exempel på en vanlig 5-gram i engelska är exempelvis "_and_", där "_" står för ett mellanslagstecken.

Metoden testades genom att en implementation skriven i C++. Tyvärr är metoden mycket beräkningskrävande och ger heller inte fullständigt tillförlitliga resultat. Som Marc Damashek har påpekat, gäller detta främst om man, som i min nuvarnade implementation, ej förbehandlar den text som skall analyseras, exempelvis genom att reducera alla sekvenser med mer än ett mellanslagstecken till ett enda och genom att omvandla alla bokstäver till versaler.

Tryck här för att plocka hem uppsatsen i MicroXXXSoft Word-format. (119k)

Du kan också läsa den i trist ascii-format genom att trycka här. (36k)

Här ligger faktiskt en ganska rå HTML-version(114k)

Det finns också en kortare introduktion i MSW-format här.(5k)

Jag sitter också och trycker på en C++implementation av metoden, som intresserade kan hitta här. Observera att metoden skyddas av (åtminstone amerikanska och franska) patent mot kommersiellt utnyttjande.

N-grammer är "inne" (på) just nu i forskningen kring textanalys och bibliotekssökning. Här hittar du en lista på artiklar som puplicerats på området den senaste tiden, som James Mayfield vid University of Maryland Baltimore County har sammanställt.

Jonas Gustavsson