Kā veidot digitalizēto tekstu saskarni?

31. March, 2009, autors: Artūrs Žogla 

Nu jau kādu laiku mūsu blogā ir izvietota aptauja par projekta Periodika.lv novērtējumu. 10-baļļu skalā nu jau ir saņemti visi iespējamie vērtējumi no 1 līdz 10 un lai arī mums liels prieks, ka lielākā daļa vērtējumu ir 8 un vairāk, tomēr labi apzināmies, ka projektam ir arī savi trūkumi, kuru dēļ varētu saņemt arī zemāku vērtējumu.

Viens no trūkumiem, ko paši apzināmies, ir meklēšanas mehānisma “ātrdarbība”, ko noteikti varētu uzlabot, bet kādus trūkumus jūs esat novērojuši, meklējot informāciju Periodika.lv lapā? Varbūt ir kāda papildus funkcionalitāte, kas jums noteikti noderētu?

Tuvākajos gados LNB plāno digitalizēt vairāk kā 1 milj. grāmatu lappušu un vairāk kā 2 milj. avīžu lappušu. Līdz ar to lasītājiem digitālā formā pieejamo tekstu apjoms pieaugs 10-kārtīgi. Ņemot vērā gan materiālu apjomu, gan daudzveidību vajadzēs izstrādāt īpašu saskarni digitalizēto tekstu arhīvam. Šobrīd esam izpētes fāzē, noskaidrojot labo praksi lielapjoma teksta arhīvu veidošanā, formātu izvēlē, saskarņu veidošanā. Tā kā galamērķis ir radīt lasītājiem ērtāko iespējamo rīku darbam ar liela apjoma tekstu arhīvu, tad mūs ļoti interesē lasītāju vēlmes.

Pagaidām lielākie digitalizēto tekstu arhīvi internetā (tādi, kuru apjoms ir mērāms vismaz miljonos lappušu) ir:

Lai arī katrs ir pa savam labs, tomēr neviens nav arī perfekts. Piemēram, varētu vēlēties izsmalcinātu tekstu komentēšanas iespēju, iezīmējot daļu no teksta un pievienojot tam savu komentāru. Šādu iespēju varētu izmantot gan skolu, augstskolu pasniedzēji, komentējot mācību literatūras saturu, gan vēstures pētnieki, skaidrojot mūsdienu lasītājiem vēsturisku tekstu interpretācijas, utml.

Bet kādas ir jūsu domas, ieteikumi, komentāri?

KOMENTĀRI: 14, KATEGORIJAS: Digitālā bibliotēka, Lasītāji, Pārdomas, Saturs, Tehnoloģijas

Uzdod jautājumu par digitālo bibliotēku!

16. March, 2009, autors: Artūrs Žogla 

Digitālās bibliotēkas blogā šad tad uzrakstām par tēmām, kas konkrētajā brīdī šķiet aktuālas un interesantas, bet kādi jautājumi interesē mūsu lasītājus, kolēģus, IT ekspertus?

Piedāvājam uzdot jautājumus par Latvijas Nacionālo digitālo bibliotēku: par stratēģiju, projektiem, saturu, tehniskām niansēm, formātiem, ikdienas darbu, juridiskiem apsvērumiem un citām tēmām!

Jautājumi un atbildes šeit – komentāros.

KOMENTĀRI: 15, KATEGORIJAS: Digitālā bibliotēka, Lasītāji, Projekti, Sadarbība, Saturs, Tehnoloģijas, Vispārīgi

Vēsturisko tekstu apstrādes rīks

23. January, 2009, autors: Artūrs Žogla 

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

KOMENTĀRI: 10, KATEGORIJAS: Digitālā bibliotēka, Projekti, Tehnoloģijas

Vizuālā noformējuma nozīme

22. January, 2009, autors: Artūrs Žogla 

Grāmatu, periodikas un citu tekstu saturošu materiālu digitalizācijā, viens no posmiem ir teksta atpazīšana jeb OCR. Rezultātā viss grāmatas teksts tiek iegūts tālāk ērti apstrādājamā XML formātā. Tam var pielietot XSLT transformācijas un citas apstrādes metodes, rezultātā iegūstot glīti noformētu grāmatas tekstu, tikai… vairs ne oriģinālā izskatā.

Piemēram, oriģinālā lapa.

Grāmatas lapa

Pēc apstrādes šīs lapas virsraksts nonāktu atsevišķā XML tagā, bet pamatteksts – citā. Pēc tam šo grāmatas tekstu varētu attēlot tīmekļa lapā, veidojot hipersaišu satura rādītājus uz atsevišķām nodaļām, ļaujot samazināt/palielināt tekstu. Ļaujot ērti kopēt interesējošos fragmentus. Vienvārdsakot, ļaujot darīt visu, ko jau nu ar segmentētu tekstu var darīt.

XML dokumentu attēlošanas priekšrocība ir arī relatīvi ekonomiskais izmērs. 100 lappušu biezai grāmatai atbilstošais tekstu saturošais XML dokuments aizņem aptuveni 0.5Mb, kamēr pati grāmata PDF formātā – aptuveni 20Mb.

Bet.. varbūt grāmatas oriģinālajam vizuālajam izpildījumam tomēr ir pietiekami liela nozīme, lai tas atsvērtu aptuveni 40x lielāko datņu izmēru un pārējās neērtības. Cik nozīmīgs jūsu lasīšanas pieredzē ir grāmatas vizuālais noformējums vai jums svarīgāka ir tīrā informācija?

[polldaddy poll=1298566]

KOMENTĀRI: 13, KATEGORIJAS: Digitālā bibliotēka, Pārdomas, Tehnoloģijas

Audio digitalizācija LNB II

13. January, 2009, autors: Artūrs Žogla 

Iepriekšējā ierakstā par audio digitalizāciju LNB demonstrējām pāris skaņas ierakstu piemērus, kuri tapuši LNB audio digitalizēšanas studijā. Šoreiz piedāvājam nelielu virtuālu ekskursiju uz pašu studiju.

Lasīt tālāk »

KOMENTĀRI: 14, KATEGORIJAS: Digitālā bibliotēka, PR, Tehnoloģijas

Audio digitalizācija LNB I

7. January, 2009, autors: Artūrs Žogla 

Lai arī digitālās bibliotēkas parasti asociējas ar ieskenētām grāmatām vai attēliem, patiesībā šis termins ir daudz plašāks un digitālajās bibliotēkās tiek iekļauti arī digitalizēti audio ieraksti. LNB Fonotēkas nodaļā glabājas ap 25 000 dažādu šellaka un vinila plašu gan no Latvijas, gan ārvalstu mūzikas zelta fondiem. Nākotnē plānots digitalizēt vismaz 1500 plašu, digitalizējot tieši Latvijas mūzikas krājumus.

Līdz nesenai pagātnei plašu digitalizēšana notika izmantojot tradicionālās – “adatas iekārtas”, taču pagājušā gada rudenī LNB savā īpašumā ieguva Japānā ražotu plašu digitalizēšanas lāzeriekārtu ELP Laser Turntable, kur adatu aizstājis plati daudz saudzējošākais lāzera stars.

ELP Laser Turntable

Lāzera stara izmantošanai digitalizēšanas procesā ir būtiskas priekšrocības, piemēram, tas spēj piekļūt tādām plates celiņa daļām, kuras adata, savu fizisko ierobežojumu dēļ, nekad neskar. Līdz ar to iegūtais skanējums var būt vēl dziļāks un melodiski bagātāks nekā atskaņojot to tradicionāli.

Tāpat, lāzera stars, atšķirībā no adatas neķeras plates celiņu skrāpējumos, nepārlec un nerada skaņas kropļojumus plates nolietojuma vai bojājumu dēļ.

Piedāvājam salīdzinājumam noklausīties Jāzepa Vītola “Mirdzas dziesmas” digitalizēšanas laikā iegūtos rezultātus un atfiltrēto trokšņu paraugus.

1. Rezultāts, ko iegūst digitalizējot plati ar tradicionālo (adatas) iekārtu.

2. Rezultāts, digitalizējot plati ar Laser Turntable iekārtu (bez programmātiskas pēcapstrādes).

3. Rezultāts, digitalizējot plati ar Laser Turntable iekārtu (ar programmātisku pēcapstrādi).

4. Trokšņi, ko atfiltrē DeScratch filtrs.

5. Trokšņi, ko atfiltrē DeCrackle filtrs.

6. Trokšņi, ko atfiltrē DeNoise filtrs. Ieklausoties var dzirdēt, ka šis filtrs paķer līdzi arī daļu no paša audio ieraksta, tāpēc DeNoise filtrs praktiski netiek lietots.

LNB audio digitalizētāji cīnās ar vēl kādu izaicinājumu – plašu centrēšanas problēmu. Izrādās daudzām platēm caurumiņš plates novietošanai uz atskaņotāja neatrodas precīzi plates centrā, līdz ar to rodas “peldošs” skanējums, it īpaši atskaņojot ārējo celiņu ierakstus. Sadarbojoties augstāk minētās lāzeriekārtas izstrādātājiem un LNB speciālistiem, japāņi speciāli LNB ir izveidojuši iekārtu, kas kompensē slikti centrētas plates neregulāro kustību. Šobrīd LNB notiek eksperimenti ar plašu centrēšanas iekārtu un iespējams jau drīzumā varēsim šeit nodemonstrēt dažus paraugus arī par centrētu plašu skanējumu.

Tuvākajā laikā plānojam sagatavot arī nelielu reportāžu no audio digitalizēšanas nodaļas, lai pastāstītu (un parādītu), kā LNB notiek plašu digitalizācija. Sekojiet līdz!

KOMENTĀRI: 17, KATEGORIJAS: Digitālā bibliotēka, Jaunumi, Tehnoloģijas

Europeana.eu atjaunojusi darbību

22. December, 2008, autors: Artūrs Žogla 

Pēc negaidīti lielās lietotāju intereses, atklājot Eiropas digitālās bibliotēkas portālu europeana.eu šī gada novembrī un gandrīz momentānās lapas slēgšanas, europeana.eu nu jau kādu laiku atkal strādā.

Interesanti, ka oficiālais europeana.eu “nobrukšanas” iemesls esot desmitiem tūkstošu vienlaicīgu pieprasījumu, meklēt “Monu Lisu”. Acīmredzot, daudzu interneta lietotāju acīs Mona Lisa ir Eiropas kultūras kvintesence un pirmais atslēgvārds, kas nāk prātā, ieraugot tukšu meklēšanas lauku. Tomēr portālā ir iespējams piekļūt praktiski jebkura Eiropas reģiona un laikmeta kultūrvēsturiski nozīmīgākajiem resursiem. Galu galā, līdz 2010. gadam portālā paredzēts apkopot saites uz 6 miljoniem objektu.

Europeana portāls

Latvijas Nacionālā bibliotēka, starp citu, Eiropas digitālajā bibliotēkā šobrīd piedalās ar savu Dziesmu svētku kolekciju, par ko var pārliecināties, ievadot europeana.eu meklētājā atslēgvārdus “dziesmu svētki”.

KOMENTĀRI: 4, KATEGORIJAS: Digitālā bibliotēka, Interesanti materiāli, Jaunumi, Pārdomas, PR, Sadarbība, Saturs, Tehnoloģijas

Kā digitālā bibliotēka plāno tērēt Eiropas naudu (II daļa)

25. November, 2008, autors: Artūrs Žogla 

Kādu laiciņu atpakaļ jau rakstīju par Digitālās bibliotēkas plāniem attiecībā uz ES naudas piesaisti ERAF projektu ietvaros. Pirmais no šiem projektiem būs veltīts masveida digitalizācijas darbiem, bet otrajā projektā plānojam veikt dažādus digitālās bibliotēkas sistēmu uzlabojumus.

ERAF

Šajā ierakstā – mūsu plāni projektā “Digitālās bibliotēkas pakalpojumu attīstība”.

Lasīt tālāk »

KOMENTĀRI: 5, KATEGORIJAS: Digitālā bibliotēka, Jaunumi, PR, Tehnoloģijas

Kā digitālā bibliotēka plāno tērēt Eiropas naudu (I daļa)

12. November, 2008, autors: Artūrs Žogla 

Latvijas Nacionālā bibliotēka (LNB) ir viena no iestādēm, kas ir aicināta pieteikties ERAF aktivitātes “Publiskās pārvaldes elektronisko pakalpojumu un informācijas sistēmu attīstība” apakšaktivitātes “Informācijas sistēmu un elektronisko pakalpojumu attīstība” projektiem un līdz ar to pretendēt uz Eiropas naudu.

ERAF

Visi oficiālie dokumenti ir atrodami šajā E-ministrijas mājas lapas vietnē.

Digitālajai bibliotēkai ERAF aktivitāšu sarakstā ir atvēlēti veseli 2 ieraksti:

  • Digitālās bibliotēkas izveide – 2. kārta
  • Digitālās bibliotēkas pakalpojumu attīstība

Kas slēpjas aiz šiem nosaukumiem un ko abu projektu ietvaros plāno paveikt LNB?

Lasīt tālāk »

KOMENTĀRI: 4, KATEGORIJAS: Digitālā bibliotēka, Jaunumi, PR, Projekti, Tehnoloģijas

Vai Tu lasītu grāmatas internetā?

6. November, 2008, autors: Artūrs Žogla 

Jautājums, kas ik pa laikam pārņem Digitālās bibliotēkas veidotāju prātus: “Vai vispār un cik lielos apjomos vajadzētu digitalizēt grāmatas?

Delfos, tvnet-os un citos portālos grāmatu digitalizēšana vienmēr tiek piedāvāta kā alternatīva LNB jaunās ēkas celtniecībai. Parasti šāds viedoklis gan ir balstīts emocijās nevis vēsu prātu izvērtētā situācijā.

No tehniskā viedokļa tiešām nav nekādu būtisku šķēršļu grāmatu digitalizēšanai. Ir speciāla tehnika tieši grāmatu skenēšanai, ir uzņēmumi, kas specializējas masveida skenēšanas pakalpojumu sniegšanā, ir programmatūra un formāti, kas ļauj digitalizētās grāmatas gan OCR-ot, gan saglabāt ērti apstrādājamos veidos. Grāmatas ceļš no bibliotēkas plaukta līdz PDF datnei datu centra serverī ir paveicams ātri un bez problēmām. Grāmatu skenēšana

Toties šaubas rodas par tālāko – digitalizēto grāmatu reālo pielietojumu. Šai brīdī sarīkosim nelielu aptauju un esiet maksimāli godīgi! 🙂

[polldaddy poll=1081539]

Ja man pašam būtu jāatbild, tad esmu izlasījis precīzi vienu daiļliteratūras grāmatu PDF formātā. Grāmata pagadījās pietiekami interesanta, tāpēc neilgi pēc lasīšanas uzsākšanas vairs neapzinājos, ka lasu grāmatas tekstu no laptopa monitora. Teiksim tā, grāmatas sižets izrādījās saistošāks par datu nesēju.

Par spīti tam, man arī neradās atkarība no PDFu lasīšanas un tā arī vairs nevienu grāmatu, skatoties savā datora monitorā, neesmu izlasījis. Fragmentus jā, bet tā ka veselu grāmatu – kaut kā nav sanācis.

Un tāpēc arī šaubas par grāmatu digitalizēšanas lietderību, jo “digitalizēsim visas grāmatas!” var izrādīties tik vien kā skaists sauklis, bet vējā izmests laiks un nauda. Padalieties savos iespaidos! Vai jūs lasītu digitālās bibliotēkas portālā pieejamas grāmatas? Kādiem vajadzētu būt digitālo grāmatu parametriem (formāts, funkcionalitāte, utml.), lai jums būtu vēlēšanās lasīt grāmatas elektorniskā formātā? Nu un protams visam fonā atcerieties mazo vārdiņu… autortiesības.

KOMENTĀRI: 25, KATEGORIJAS: Digitālā bibliotēka, Pārdomas, Tehnoloģijas