Valodu krasts un koptulkošana

11. maijs, 2010, autors: Signe Valtiņa 

Valodu intelekta tehnoloģiju centrs “Valodu krasts” ir uzsācis pilotprojektu “Koptulkošana”. Arī , mēs, Latvijas Nacionālā bibliotēka, esam iesaistījušies šajā iniciatīvā un ceram, ka nākotnē tā dos iespēju ātri, viegli un iespējami kvalitatīvi tulkot tekstus dažādās valodās. Lasīt tālāk »

IZSAKI VIEDOKLI, KATEGORIJAS: Sadarbība, Tehnoloģijas

Pazudis internetā II

10. marts, 2010, autors: Anita Rašmane 

“Un kur tad ir?” Gribat teikt, ka tas nav nekāds noslēpums? Nav jau arī. Tiem, kas zina! Savukārt ļoti daudziem nav savlaicīgi iemācīts peldēt šodienas interneta informācijas okeānā. Cilvēki grimst un slīkst nost, kā pie salmiņa pieķeroties Google. Vispār jau jāsaka, ka tas nav salmiņš — tas ir kārtīgs kuģis. Tomēr (laikam jau salīdzinājums ar kuģi mani iedvesmo) tas peld pa virsu, dziļākiem interneta slāņiem joprojām nepieciešami citādi „peldlīdzekļi”. Un tad var atrast daudz noderīga. Lasīt tālāk »

IZSAKI VIEDOKLI, KATEGORIJAS: Informācijas resursi, Saturs, Tehnoloģijas, Vispārīgi

Pazudis internetā I

2. marts, 2010, autors: Anita Rašmane 

„Glābiet! Vakar vēl bija un šodien vairs nav!” Kāda lieliska un adrenalīnu uzdzenoša sajūta, vai ne? Grāmatzīme pārlūkprogrammā ved uz nekurieni, hipersaite nestrādā vai norāda kur citur, ļoti nepieciešamais raksts mājaslapā vairs nav atrodams. Domāju, ka šī situācija daudziem nav sveša. Tādos gadījumos laimīgi var justies tie, kas vajadzīgo informāciju savlaicīgi pārkopējuši savos datoros. Visi citi noraud asariņu… Lasīt tālāk »

KOMENTĀRI: 3, KATEGORIJAS: Informācijas resursi, Saturs, Tehnoloģijas

ASV — tikai 1% e-grāmatu lasītāju

5. janvāris, 2010, autors: Jana Dreimane 

kindleElektronisko grāmatu lasīšanas ierīce pieder vien aptuveni 2,1 miljonam jeb 1% ASV iedzīvotāju. Viņi ir izglītotāki un turīgāki nekā pieaugušie caurmērā šajā lielvalstī. Turklāt viņi ir aizrautīgi interneta lietotāji — aizvadītā gada nogalē noskaidrojusi ASV mediju izpētes kompānija “Mediamark Research & Intelligence”.

Prestatā konvencionālo informācijas nesēju izmantošanas tendencei, e-grāmatas lasa pārsvarā vīrieši (56,3%), nevis sievietes (43,7%). E-grāmatu potenciālā mērķauditorija ir vidējā paaudze (35-54 gadus vecumā), kas visvairāk paudusi vēlēšanos iegādāties grāmatas digitālā formātā. Lasīt tālāk »

KOMENTĀRI: 8, KATEGORIJAS: Tehnoloģijas, Vispārīgi

Lasīšanas paradumi 2.0

25. aprīlis, 2009, autors: Signe Valtiņa 

23. aprīļa pēcpusdienā notika mūsu (LNB) organizētā diskusija „Grāmata 2.0 : paradigmas maiņa”. Bijām uzaicinājuši vairākus ekspertus – bloga krizdabz.lv autoru Kristapu Skuteli, literatūras un filozofijas portāla ¼ Satori redaktoru Reini Tukišu, multimediju mākslinieku Jāni Garanču, sabiedrības „Tilde” valdes locekli Andreju Vasiļjevu un Latvijas Nacionālās digitālās bibliotēkas „Letonica” projektu vadītāju Artūru Žoglu. Par diskusijas izdošanos vai neizdošanos runājot, kā jau tas mēdz notikt – ir lietas, kas bija labas, un ir lietas, kas varēja būt labākas. Protams, ideāli, ja izdodas vienā veselumā ietvert visu – gan māti, gan meitu, gan kleitu, taču nobīde no ideāla arī nav slikta – ir, kur augt.

Pēc diskusijas sapratu arī, cik patiesībā daudzos veidos un leņķos var runāt par lasīšanas, šīs salīdzinoši jaunās cilvēces nodarbes (kā atzīmēja Reinis Tukišs, norādot, ka lasīšana masveidā aizsākās tikai 19. gs. beigās) fenomenu. Un kaut arī savā ziņā bijām ierobežojuši tēmu, uzsvaru liekot uz lasīšanas paradumiem „digitālajā laikmetā”, protams, konfrontācija ar pirmsdigitālo tehnoloģiju ēru bija neizbēgama. Līdz ar to – diskusija izvērtās par sērfošanu jēdzienu, tehnoloģiju, laikmetu un nākotnes vīziju tīklojumā, sniedzot varbūt salīdzinoši maz atbilžu, toties uzdodot daudz jautājumu, kas mudina domāt un meklēt atbildes arī ārpus 23. aprīļa diskusijas aprisēm. Lasīt tālāk »

KOMENTĀRI: 6, KATEGORIJAS: Pārdomas, Tehnoloģijas

Kā veidot digitalizēto tekstu saskarni?

31. marts, 2009, autors: Artūrs Žogla 

Nu jau kādu laiku mūsu blogā ir izvietota aptauja par projekta Periodika.lv novērtējumu. 10-baļļu skalā nu jau ir saņemti visi iespējamie vērtējumi no 1 līdz 10 un lai arī mums liels prieks, ka lielākā daļa vērtējumu ir 8 un vairāk, tomēr labi apzināmies, ka projektam ir arī savi trūkumi, kuru dēļ varētu saņemt arī zemāku vērtējumu.

Viens no trūkumiem, ko paši apzināmies, ir meklēšanas mehānisma “ātrdarbība”, ko noteikti varētu uzlabot, bet kādus trūkumus jūs esat novērojuši, meklējot informāciju Periodika.lv lapā? Varbūt ir kāda papildus funkcionalitāte, kas jums noteikti noderētu?

Tuvākajos gados LNB plāno digitalizēt vairāk kā 1 milj. grāmatu lappušu un vairāk kā 2 milj. avīžu lappušu. Līdz ar to lasītājiem digitālā formā pieejamo tekstu apjoms pieaugs 10-kārtīgi. Ņemot vērā gan materiālu apjomu, gan daudzveidību vajadzēs izstrādāt īpašu saskarni digitalizēto tekstu arhīvam. Šobrīd esam izpētes fāzē, noskaidrojot labo praksi lielapjoma teksta arhīvu veidošanā, formātu izvēlē, saskarņu veidošanā. Tā kā galamērķis ir radīt lasītājiem ērtāko iespējamo rīku darbam ar liela apjoma tekstu arhīvu, tad mūs ļoti interesē lasītāju vēlmes.

Pagaidām lielākie digitalizēto tekstu arhīvi internetā (tādi, kuru apjoms ir mērāms vismaz miljonos lappušu) ir:

Lai arī katrs ir pa savam labs, tomēr neviens nav arī perfekts. Piemēram, varētu vēlēties izsmalcinātu tekstu komentēšanas iespēju, iezīmējot daļu no teksta un pievienojot tam savu komentāru. Šādu iespēju varētu izmantot gan skolu, augstskolu pasniedzēji, komentējot mācību literatūras saturu, gan vēstures pētnieki, skaidrojot mūsdienu lasītājiem vēsturisku tekstu interpretācijas, utml.

Bet kādas ir jūsu domas, ieteikumi, komentāri?

KOMENTĀRI: 14, KATEGORIJAS: Digitālā bibliotēka, Lasītāji, Pārdomas, Saturs, Tehnoloģijas

Uzdod jautājumu par digitālo bibliotēku!

16. marts, 2009, autors: Artūrs Žogla 

Digitālās bibliotēkas blogā šad tad uzrakstām par tēmām, kas konkrētajā brīdī šķiet aktuālas un interesantas, bet kādi jautājumi interesē mūsu lasītājus, kolēģus, IT ekspertus?

Piedāvājam uzdot jautājumus par Latvijas Nacionālo digitālo bibliotēku: par stratēģiju, projektiem, saturu, tehniskām niansēm, formātiem, ikdienas darbu, juridiskiem apsvērumiem un citām tēmām!

Jautājumi un atbildes šeit – komentāros.

KOMENTĀRI: 15, KATEGORIJAS: Digitālā bibliotēka, Lasītāji, Projekti, Sadarbība, Saturs, Tehnoloģijas, Vispārīgi

Vēsturisko tekstu apstrādes rīks

23. janvāris, 2009, autors: Artūrs Žogla 

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

KOMENTĀRI: 10, KATEGORIJAS: Digitālā bibliotēka, Projekti, Tehnoloģijas

Vizuālā noformējuma nozīme

22. janvāris, 2009, autors: Artūrs Žogla 

Grāmatu, periodikas un citu tekstu saturošu materiālu digitalizācijā, viens no posmiem ir teksta atpazīšana jeb OCR. Rezultātā viss grāmatas teksts tiek iegūts tālāk ērti apstrādājamā XML formātā. Tam var pielietot XSLT transformācijas un citas apstrādes metodes, rezultātā iegūstot glīti noformētu grāmatas tekstu, tikai… vairs ne oriģinālā izskatā.

Piemēram, oriģinālā lapa.

Grāmatas lapa

Pēc apstrādes šīs lapas virsraksts nonāktu atsevišķā XML tagā, bet pamatteksts – citā. Pēc tam šo grāmatas tekstu varētu attēlot tīmekļa lapā, veidojot hipersaišu satura rādītājus uz atsevišķām nodaļām, ļaujot samazināt/palielināt tekstu. Ļaujot ērti kopēt interesējošos fragmentus. Vienvārdsakot, ļaujot darīt visu, ko jau nu ar segmentētu tekstu var darīt.

XML dokumentu attēlošanas priekšrocība ir arī relatīvi ekonomiskais izmērs. 100 lappušu biezai grāmatai atbilstošais tekstu saturošais XML dokuments aizņem aptuveni 0.5Mb, kamēr pati grāmata PDF formātā – aptuveni 20Mb.

Bet.. varbūt grāmatas oriģinālajam vizuālajam izpildījumam tomēr ir pietiekami liela nozīme, lai tas atsvērtu aptuveni 40x lielāko datņu izmēru un pārējās neērtības. Cik nozīmīgs jūsu lasīšanas pieredzē ir grāmatas vizuālais noformējums vai jums svarīgāka ir tīrā informācija?

[polldaddy poll=1298566]

KOMENTĀRI: 13, KATEGORIJAS: Digitālā bibliotēka, Pārdomas, Tehnoloģijas

Audio digitalizācija LNB II

13. janvāris, 2009, autors: Artūrs Žogla 

Iepriekšējā ierakstā par audio digitalizāciju LNB demonstrējām pāris skaņas ierakstu piemērus, kuri tapuši LNB audio digitalizēšanas studijā. Šoreiz piedāvājam nelielu virtuālu ekskursiju uz pašu studiju.

Lasīt tālāk »

KOMENTĀRI: 14, KATEGORIJAS: Digitālā bibliotēka, PR, Tehnoloģijas