Vēsturisko tekstu apstrādes rīks

23. January, 2009, autors: Artūrs Žogla 

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.


KOMENTĀRI: 10, KATEGORIJAS: Digitālā bibliotēka, Projekti, Tehnoloģijas

Komentāri: 10

  1. OreMan saka:
    24. January, 2009 plkst. 1:01

    Tur laikam nedaudz neprecīza referencei tai gotikas lapai.. Pirms `gotika` vajag slīpsvītru, nevis punktu, tāpat kā vizuāli redzamajā adresē.

  2. Artūrs Žogla saka:
    24. January, 2009 plkst. 8:01

    OreMan, paldies par komentāru! Salaboju.

  3. Māra Jēkabsone saka:
    16. February, 2009 plkst. 17:02

    Visu cieņu entuziastiem, bet nevajag jaukt nesajaucamas lietas. “Vuška” nav nekāds vecvāds, tas ir normāls latgaliešu vārds, ko nozīmē “aita” lieto vēl šobaltdien. Ja izvēlaties piemērus, lūdzu pirms tam pārbaudiet, citādi tas atstāj neprofesionālu iespaidu. Veiksmi darbā!

  4. Artūrs Žogla saka:
    16. February, 2009 plkst. 17:02

    Starp citu, pameklējot vārdu “vuška” jau esošajā Periodika.lv krājumā, var atrast J. Endzelīna ievietotu paziņojumu (piemēram, “Students”, 1931. g. 3. decembra numura 8. lpp.), ka viņam izdevies noskaidrot vairāku latviešu valodas vārdu, tai skaitā “vuška” izrunu, nozīmi un vietu.

    Latgaliešu dialektā “vuška” noteikti varētu būt joprojām lietots vārds kaut gan vecmamma (100% latgaliete) tādu vārdu nelietoja. Kartupeļus par “buļbam” sauca, bet “vuškas” gan neatminos.

  5. Ainārs Zelčs saka:
    20. March, 2009 plkst. 22:03

    Ar vecajiem vārdiem nevajadzētu “cīnīties”, tos likvidējot, veco tekstu izdodot par jaunu. Vajag tik vien kā paskaidrot vecā vārda nozīmi.
    Elektronisko gramatu izdevniecība patlaban digitālizē mūsu pirmā akadēmiski izglītotā vēsturnieka J.Krodznieka /1851 – 1924/ “Latvijas vēsturi”, neizmainot nevienu tā dēvēto veco vārdu. Mīlenbacha vārdnīcā un Latviešu Konversācijas vārdnīcā to visu nozīmes var atrast. Līdz otrās daļas pusei ir bijis tikai viens vārds, kuŗa nozimi nekādi navar saprast un tas laikam ir tāpēc, ka tajā vārdā varbūt ieviesusies drukas kļūda.
    Bez “vecajiem” vārdiem J. Krodznieka darbs vairs nebūs J. Krodznieka darbs.
    Bet par veco druku jāsaka,ka Fainrīders to pārceļ latīņu burtos ar milzum daudz kļūdām, un tas prasa ilgāku korrektūras darbu. Ja būs tāds Fainrīders, kas kļūdīsies tikai par 15 nosimtēm, tad labi gan, tas brangi palīdzēs strādāt.
    Tad tā “ķute degs labāk”!
    🙂
    Augstcienībā,
    Erakstu Ainārs no http://www.eraksti.lv

  6. Ainārs Zelčs saka:
    20. March, 2009 plkst. 22:03

    Par vušku.
    Ielūkojos prof. Dr. phil. P. Stroda Rēzeknē, 1933. gadā iespiestajā “Pareizraksteibas võrdneicā”.
    Tur ir vuška(aita) un vuškeņa.
    Šos vārdus lieto Ziemeļlatgalē.
    (Pārējā Latgalē varbūt nelieto.)

  7. K.Suns saka:
    22. March, 2009 plkst. 13:03

    Par “vušku”.
    Tāpat kā “vucens” (auns).
    Latgalē lieto šo vārdu joprojām. Un daudz. Tas ir PAMATNOSAUKUMS dzīvniekam, ko latviski pazīstam kā “aita”.
    Problēma it tajā faktā, ka arī latgaliešu valodai ir savi iekšējie dialekti – Ludzā ir virkne vārdu, ko nelieto jeb izrunā savādāk nekā Krāslavā un otrādi. Tā ka kaut kur Latgalē pilnīgi iespējams, ka pazīst vairs tikai “aitas” …

    “vuška” joprojām tiek izmantota ikdienā konkrēti Ludzas rajonā.

  8. r saka:
    8. July, 2009 plkst. 16:07

    radaas jautaajums…
    vai shii te izstraadaataa programmatuura buus pieejama arii citiem interesentiem ?
    ja nee, tad man rodas iespaids, ka shii nauda nav gluzhi lietderiigi izmantota 🙂

  9. asdfg saka:
    4. October, 2009 plkst. 2:10

    Cik zinu tad var

Izsaki viedokli

You must be logged in to post a comment.