Jaunums! Laikrakstu arhīvs internetā

2. July, 2008, autors: Artūrs Žogla 

Šodien Latvijas Nacionālajai digitālajai bibliotēkai liela diena – tiek prezentēta digitālā kolekcija “Periodika”

Periodika

Iespējams daudzi mūsu lasītāji jau ir pazīstami ar LNB līdzšinējo digitalizēto avīžu arhīvu, kas joprojām ir arī apjoma ziņā lielākā digitālās bibliotēkas kolekcija – avīžu digitalizēšana aizsākusies jau 1999. gadā. Līdz ar digitālās kolekcijas “Periodika” izveidi, avīžu arhīvs ieguvis “jaunu elpu”. Vēsturiskās avīzes digitāli apstrādātas, segmentējot un optiski atpazīstot (OCR-ojot) avīžu tekstu.

Tālāk neliels apraksts par to, kā LNB nonāca līdz kolekcijai “Periodika” un kādi jaunievedumi un iespējas sagaida mūsu lasītājus…

Līdzšinējais LNB digitālo avīžu arhīvs, salīdzinot ar tradicionālo avīžu kolekciju, piedāvāja tās apskatīt no jebkuras vietas. Nav speciāli jābrauc uz Rīgu, jādodas uz bibliotēku un jārakājas avīžu kalnos, lai izlasītu sev interesējošo numuru. Tomēr arī digitālajā avīžu arhīvā “rakāties” vajadzēja tik un tā – papīra avīžu vietā tagad vienkārši bija jāpāršķirsta PDF dokumenti. Avīžu PDF versijas veidotas no TIFF (tātad attēlu) oriģināliem un līdz ar to – nav iespējams veikt atslēgvārdu meklēšanu avīžu tekstos.

Likās loģiski, ka tik milzīgam tekstu apjomam (digitalizēto avīžu lapu skaits mērāms miljonos) nepieciešams veikt arī teksta atpazīšanu – OCR. Tiesa, paveikt to manuāli, piemēram, lietojot ABBYY FineReader šķita diezgan nereāli, tāpēc avīžu apstrādes process tika uzticēts starptautisku atzinību ieguvušam uzņēmumam Olive Software, kas specializējas vēsturisku avīžu digitālo arhīvu veidošanā. Neiedziļinoties detaļās, jāatzīst, ka digitālās avīžu kolekcijas veidošana ir ļoti darbietilpīgs process: bija “ar rociņām” jāatlasa gandrīz 40 000 avīzes no bibliotēkas krājumiem, jādigitalizē, digitālais izejmateriāls vairākās partijās diskos un uz magnētiskajām lentēm jāsūta uz Izraēlu, kur notika avīžu arhīvdatņu apstrāde, attīrīšana, segmentēšana, teksta atpazīšana un indeksēšana. Visbeidzot, jau apstrādātais materiāls nonāca atpakaļ Latvijā, kur tas bija jāuzstāda LNB serveros.

Ieguvums ir acīmredzams. Pat vienkārša atslēgvārdu meklēšana dod milzīgu atbalstu digitālā avīžu arhīva lietotājiem. Skaidrs, ka ja lasītāju interesē raksti par Kārli Ulmani, tad atliek tikai paņemt jebkuru ulmaņlaika avīzi un ar 99% varbūtību tajā būs raksts arī par šo valstsvīru, bet pamēģiniet manuāli atrast, piemēram, rakstu par “sklandu raušiem”, “kilimandžaro” vai saviem (uzvārda-)senčiem. Visticamāk atmetīsiet šai nodarbei ar roku jau pēc pirmajiem pārdesmit neveiksmīgi izpētītajiem avīžnumuriem. Savukārt, digitālajā kolekcijā “Periodika” katra iepriekšminētā atslēgvārda meklēšana 300 000 avīžlapās aizņem vien pāris sekundes.

Kilimandžaro

Daži fakti

  • Digitalizēti 39 izdevumi = 38 000 izdevumu numuri = 300 000 lapas. Perspektīvā plānots līdzīgā veidā apstrādāt ap 6 miljoniem Latvijā un trimdā izdotu avīžu lappušu.
  • Pirmie tiek digitalizēti tie laikraksti, kas ir ļoti pieprasīti vai ir ļoti sliktā stāvoklī.
  • Ar avīzēm aptverti 5 dažādi Latvijas politiski ideoloģiskie “laikmeti”: cara laiki, Latvijas 1. republika, ulmaņlaiki, vācu laiki, krievu laiki
  • Bez avīzēm apstrādātas arī Latvijas 1. brīvvalsts laika Saeimas stenogrammas, Izglītības ministrijas un Iekšlietu ministrijas mēnešraksti
  • Daži no tuvākajā nākotnē digitalizēt paredzētajiem izdevumiem: “Ilustrētais žurnāls” (kura redakcijā darbojies arī Kārlis Skalbe), kā arī humora un satīra žurnāls “Ho-ho”.

Tehniskās detaļas

  • Avīžu arhīvā iespējams veikt: vienkāršo meklēšanu, izvērsto meklēšanu, pārlūkošanu un konkrētu numuru apskatīšanu.
  • Teksta atpazīšanas kvalitātes rādītājs: 80-95% (dažādiem izdevumiem atkarībā no to tehniskā stāvokļa tas atšķiras).
  • Šobrīd labā kvalitātē ir atpazīti jaunās drukas avīžu izdevumi, taču tuvākajā nākotnē tiks uzsākts projekts arī vecās drukas avīžu apstrādei un tā sauktās gotikas atpazīšanai
  • Ja raksts ir “izmētāts pa avīzi” (sākums 1. lpp, turpinājums – 3. lpp.), tad tas tiek automātiski “salīmēts” vienā un to, pēc vēlēšanās, var apskatīt arī konsolidētā veidā
  • Katru rakstu var iegūt 4 formātos: kā attēlu, kā PDF dokumentu, kā atpazītu tekstu, kā HTML dokumentu.
  • Indeksēti tiek arī tie vārdi, kas ir pārnesti jaunā rindā. Ļoti tipiska parādībā avīžu šaurajās slejās ir dalītie vārdi. Vārds “lauksaimniecība” varētu tikt dalīts, piemēram, kā “lauk-saimniecība” vai “lauksaimnie-cība”. Digitālajā kolekcijā “Periodika” raksti tiks atrasti abos gadījumos, ja būs ievadīts atslēgvārds “lauksaimniecība”.
  • Meklētie vārdi ir iekrāsoti atrasto rakstu tekstos.

Autortiesības

Diemžēl autortiesību likuma uzstādītie ierobežojumi neļauj mums izvietot jebkuru avīzi publiskajā internetā, tāpēc viss avīžu digitālais arhīvs ir sadalīts divās daļās. Katra no daļām ir pieejama ar savu tīmekļā adresi:

  • www.periodika.lv – publiski pieejamā daļa ar neaizsargātajiem avīžu numuriem.
  • periodika.lndb.lv – tikai LNB telpās (nākotnē arī jebkuras bibliotēkas telpās) pieejamā daļā, kurā apskatāmi arī autortiesību aizsargātie izdevumi.

KOMENTĀRI: 7, KATEGORIJAS: Digitālā bibliotēka, Jaunumi, Projekti, Saturs, Tehnoloģijas

Komentāri: 7

  1. iciks saka:
    26. July, 2008 plkst. 9:07

    Ļoti labi, ka ir pieejams šāds arhīvs. Paldies. Bija vajadzība, diezgan veikli atradu informāciju par to, ko meklēju. BET ….

    Kurš $^#%$ izdomāja, ka visiem linkiem jāstrādā caur javascript izsaukumu kā, piemēram, Hansabankas Internetbankā? URL laukā visu laiku kaut kāda bezjēdzīga adrese stāv (vismaz meklēšanas rezultātos), kuru nevar pārsūtīt un atkalizmantot.

    Un kurš ^%#$% neizdomāja, ka ļoti vērtīga ir iespēja kā kaut kas līdzīgs “Link to this page” kā Google Map? Lai varētu konkrēto lapu vai rakstu kā normāli atkalizmantojamu un pārsūtāmu grāmatzīmi lietot (es lapas skatījos caur meklēšanas rezultātiem)

    Lūdzu, izlabojiet šīs nepilnības.

  2. iciks saka:
    26. July, 2008 plkst. 10:07

    Atradu kā tomēr var atrast adresi uz konkrēto redzamo lapu – jāatrod Frame adrese. Operā labais klikšķis netālu no redzamā izdevuma lapas attēlā un Frame -> Copy address.

    Tātad ir cerība, ka normālu “Link to this page” uztaisīt ir relatīvi viegli un ātri 🙂

  3. Gunta saka:
    26. July, 2008 plkst. 14:07

    Iciks, šobrīd periodika.lv tiek izmantota Olive Software (uzņēmums, kas apstrādāja un indeksēja izdevumus; plašāka informācija gan šajā bloga rakstā, gan vecākā rakstā “Olive Software un vēsturiskās avīzes”) piedāvātā (jau gatavā) izdevumu pārlūkošanas aplikācija, kurai diemžēl ir savi trūkumi.

    Sadarbībā ar Olive Software esam iespēju robežās uzlabojuši viņu piedāvāto saskarni, līdz rudenim pievienosim arī aprakstus gan par laikrakstiem, gan palīdzību lapas lietošanā (meklēšanā, piemēram).

    Diemžēl uz doto brīdi mums nav iespējas atteikties ne no frames izmantošanas (kas neļauj pārlūkprogrammā attēlot reālo atvērtās lapas adresi), ne javascript saitēs, jo tas praktiski nozīmētu pilnībā pārveidot jau esošo aplikāciju.

    Kad (nav manā kompetencē spriest) būs pieejami attiecīgie resursi — periodika.lv lietojamības uzlabošana ir viena no prioritātēm, kas noteikti sekos līdz ar projekta papildināšanu ar jauniem izdevumiem.

  4. Iciks saka:
    27. July, 2008 plkst. 20:07

    Paldies, Gunta, par skaidrojumu. Vismaz palika vieglāk, ka $#@$# sanāca ārzemju bāleliņiem, nevis mūsējiem, vietējiem 🙂

    Tas Olive Software ir pilnīgi nemaināms no LNDB puses? Olive Software ir aizsūtīti tikai latviskota saskarne vai arī LNDB ir pieejami asp failu izejas teksti un tos drīkst palabot?

    Ja drīkst kaut ko mainīt, tad pielikt iespēju “Saite uz šo lapu” (kā maps.google.com) satura freimā nevajadzētu būt pārāk sarežģīti ielikt, izmantojot javascript.

  5. Gunta saka:
    27. July, 2008 plkst. 21:07

    Kods ir pieejams un mainīt varam. To arī iespēju robežās darām (pievienojot tekstus, HTML/CSS lietas), bet programmēšanas ziņā (ASP/Javascript) nav LNB (vismaz šobrīd) cilvēkresursu, kas to var izdarīt.

  6. Aldis saka:
    8. March, 2009 plkst. 17:03

    Būtu PHP platforma, pirmkart free/open source serversoftu varetu lietot (nost no dargajiem ms risinajumiem), ka ari butu lielaaks cilveku skaits kas no ta saprot visu! 🙂

  7. asdfg saka:
    4. October, 2009 plkst. 0:10

    piekrītu aldim

Izsaki viedokli

You must be logged in to post a comment.