Rasta duomenų išteklių: 86
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Anotuotas garsynas, skirtas šnekos sintezės tikslams neuroniniams balsams generuoti ir dirbtinio intelekto technologijų sprendimų poreikių tenkinimui. Šis garsynas - kompleksinis kalbos išteklius, kurį sudaro pagrindinis (šnekos sintezei) ir papildomas (emocinis) garsynai. Anotuotas garsynas – rinkinys, susidedantis iš garso įrašų ir juos atitinkančių tekstinių transkripcijų ir anotacijų. Šnekos sintezei skirtas anotuotas garsynas - aukštos kokybės garsynas, kuris būtinas siekiant sukurti balsus, kurie skamba natūraliai ir gali būti pritaikyti įvairiose srityse – nuo kasdienių užduočių iki specializuotų profesionalių sprendimų. Emocinis anotuotas garsynas - specializuotas kalbos duomenų rinkinys, skirtas rinkti, saugoti ir analizuoti kalbos įrašus, kuriuose yra aiškiai išreikštos skirtingos emocinės būsenos. Šis garsynas apima įrašus, kuriuose kalbėtojai sąmoningai išreiškia emocijas, tokias kaip džiaugsmas, liūdesys, pyktis, baimė, nuostaba. Šie duomenys yra kruopščiai anotuoti pagal emocines kategorijas ir kitus su emocijomis susijusius parametrus, tokius kaip intonacija, tempas, kalbos garsumas ir ritmas.

30
0
0
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Medicinos garsyną sudaro 418 valandų profesionalios medicininės šnekos duomenų, įrašytų realioje medicinos darbo aplinkoje (garso įrašai ir jų anotacijos, įskaitant transkripcijas). Įrašai yra lietuvių kalba, tačiau juose taip pat vartojami lotyniški terminai, naudojami pagal standartinę praktiką. Garsyno turinys yra anonimizuotas ir atspindi medicinos specialistų vartojamą žodyną šeimos medicinos (bendrosios praktikos) ir radiologijos (magnetinio rezonanso tomografijos (MRT), rentgenografijos (rentgeno), kompiuterinės tomografijos (KT), ultragarsinio tyrimo (sonografijos) srityse. Šeimos medicinos ir radiologijos įrašų santykis yra 50% / 50%. Vyrų ir moterų garso įrašų santykis yra 50% / 50%. Kalbėtojai suskirstyti į tris amžiaus grupes pagal balso charakteristikas: jaunatviško, brandaus ir subrendusio balso amžiaus grupės. Garso įrašai pateikiami .wav formatu, anotacijos (įskaitant transkripcijas) pateikiamos .TextGrid, .parquet ir .json formatais. Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“ ir NextGenerationEU.

28
0
0
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Tai stambios apimties, plačios teminės aprėpties lietuvių kalbos klausimų–atsakymų porų tekstynas, sukurtas dirbtinio intelekto priemonėmis remiantis viešai prieinama informacija iš įvairių šaltinių, įskaitant administracinių ir viešųjų elektroninių paslaugų portalus, enciklopedinius ir statistinius šaltinius, valstybinių institucijų ir savivaldybių portalus, teisės aktų ir duomenų portalus, naujienų bei žiniasklaidos šaltinius ir vartotojų generuojamą turinį. Tekstynas buvo formuojamas taikant transformacinį generavimo procesą, kurio metu pagal šaltiniuose esančią informaciją buvo automatiškai sukurtos naujos klausimų–atsakymų poros lietuvių kalba. Į galutinį tekstyną nebuvo įtraukti originalūs šaltinių tekstai, jų pilni įrašai ar pirminė jų forma. Tekstyną sudaro tik sugeneruotas turinys, skirtas pokalbių robotų kūrimui, lietuvių kalbos DI sistemų vystymui ir kitų dirbtinio intelekto sprendimų poreikiams Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“ ir NextGenerationEU.

17
0
0
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Modelis sukurtas kaip tęstinės lietuvių kalbos modelių plėtros dalis, naudojant Bendrąjį lietuvių kalbos tekstyną ir specialiai šiam modeliui parengtą 32 768 tokenų žodyną (tokenizerį). Sukurtas tyrimams, išankstiniam mokymui nuo nulio ir tolesniam pritaikymui lietuvių kalbos generavimo bei kalbos technologijų užduotyse. Modelio svoriai buvo inicializuoti atsitiktine tvarka, o mokymas vykdytas dviem etapais, naudojant Lietuvių kalbos tekstyno apdorotą variantą, parengtą ilgo konteksto mokymui. Modeliui buvo naudojamas specialiai apmokytas 32 000 tokenų tokenizeris. Turėdamas apie 1,04 mlrd. parametrų ir palaikydamas maksimalų 32 768 tokenų konteksto ilgį, modelis yra pritaikytas efektyviai apdoroti ilgus lietuviškus tekstus ir mišraus domeno turinį. Jis skirtas naudoti kaip bazinis generatyvinis modelis tolesniam papildomam mokymui, domeniniam adaptavimui ir eksperimentams lietuvių kalbos NLP srityje. Pagal nutylėjimą modelis nėra instruktavimui pritaikytas ar specializuotas konkrečioms užduotims. Norint jį taikyti pokalbių sistemoms, santraukų sudarymui, klasifikavimui ar domeniškai specifiniam generavimui, rekomenduojamas papildomas mokymas ir vertinimas. Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“ ir NextGenerationEU.

7
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Duomenų rinkinį sudaro sintetiniai lygiagretūs tekstynai šioms kalbų poroms: lietuvių-anglų, lietuvių-prancūzų ir lietuvių-vokiečių. Tekstynai skirti neuroninių mašininio vertimo ir kitų natūralios kalbos apdorojimo uždavinių sprendimui. Rinkinį sudaro daugiau kaip 3 milijonai lygiagrečių sakinių porų, po daugiau kaip 1 milijoną kiekvienai kalbų porai. Duomenys generuoti taikant kontekstinių šablonų metodą, leidžiantį sistemingai įtraukti įvardintas esybes (pvz., asmenvardžius, vietovardžius, organizacijas ir kt.) bei užtikrinti jų vartojimą įvairiose gramatinėse formose. Papildomai lietuvių-anglų dalyje integruota medicininė terminija, paremta struktūruotais medicinos srities terminų rinkiniais. Kartu pateikiami ir ištekliai, naudoti sintetinių tekstynų generavimui: daugiau kaip 20 tūkst. įvardintų esybių kiekvienai kalbų porai (11 įvardintų esybių kategorijų), taip pat daugiau kaip 50 kontekstinių šablonų kiekvienai kategorijai. Tekstynai pasižymi kontroliuojama struktūra ir lingvistine įvairove, nes sakiniai generuoti iš realių kalbos vartojimo pavyzdžių pagrindu sukurtų šablonų. Duomenys pateikiami lygiagrečia forma, užtikrinant tiesioginį sakinių atitikimą tarp kalbų, ir yra tinkami tiesioginiam naudojimui modelių treniravimui. Rinkinys pateikiamas TXT ir TMX formatais, leidžiančiais naudoti jį tiek mašininio mokymosi aplinkose, tiek vertimo atmintis naudojančioje programinėje įrangoje. Šis išteklius ypač naudingas užduotims, susijusioms su įvardintų esybių ir specializuotos terminijos vertimu, taip pat modelių testavimui ir klaidų analizei.

16
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Daugiakalbių (paralelinių) ir vienakalbių tekstynų rinkinys, skirtas natūralios kalbos apdorojimo, mašininio vertimo ir kitų dirbtinio intelekto technologijų taikymams. Kalbos: lietuvių, ispanų, ukrainiečių, norvegų, švedų ir danų. Išteklių sudaro vienakalbiai tekstynai ir daugiakalbiai (paraleliniai) tekstynai, apimantys bendrosios, informacinių technologijų ir teisės sričių tekstus. Duomenų kiekiai: • Ispanų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Ukrainiečių vienakalbis tekstynas - ≥ 8 mln. sakinių. • Norvegų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Švedų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Danų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Ispanų–lietuvių lygiagretus tekstynas - ≥ 4 mln. lygiagrečių sakinių. • Ukrainiečių–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. • Norvegų–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. • Švedų–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. • Danų–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. Duomenys pateikiami šiais formatais: TXT (vienakalbiai tekstai) ir TMX (paraleliniai tekstai), naudojant UTF-8 koduotę. Papildomai pateikiami metaduomenys ir statistinė informacija. Ištekliai skirti mašininio vertimo sistemų kūrimui ir vertinimui, kalbos modelių mokymui, daugiakalbių NLP sprendimų vystymui, lingvistiniams tyrimams bei vertimo technologijoms (CAT, vertimo atmintims). Kuriant tekstynus užtikrinta duomenų kokybė: vienakalbiuose tekstynuose rašybos klaidų lygis neviršija 0,5 %, o paraleliniuose tekstynuose lygiavimo klaidų kiekis neviršija 2,5 %.

14
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Atnaujintų vienakalbių ir daugiakalbių (paralelinių) tekstynų rinkinys, skirtas natūralios kalbos apdorojimo, mašininio vertimo ir kitų dirbtinio intelekto technologijų taikymams. Kalbos: lietuvių, anglų, prancūzų, vokiečių ir lenkų. Išteklių sudaro vienakalbiai tekstynai (≥ 1 mln. sakinių kiekvienai kalbai) ir daugiakalbiai (paraleliniai) tekstynai (≥ 0,4 mln. sakinių porų kiekvienai kalbų porai). Duomenų kiekiai: • Lietuvių vienakalbis tekstynas – 4.1 mln. sakinių. • Anglų vienakalbis tekstynas – 1.6 mln. sakinių. • Prancūzų vienakalbis tekstynas – 3 mln. sakinių. • Vokiečių vienakalbis tekstynas – 1.1 mln. sakinių. • Lenkų vienakalbis tekstynas – 2.4 mln. sakinių. • Lietuvių-anglų lygiagretus tekstynas – 580 tūkst. lygiagrečių sakinių. • Lietuvių-prancūzų lygiagretus tekstynas – 505 tūkst. lygiagrečių sakinių. • Lietuvių-vokiečių lygiagretus tekstynas – 419 tūkst. lygiagrečių sakinių. • Lietuvių-lenkų lygiagretus tekstynas – 455 tūkst. lygiagrečių sakinių. Duomenys pateikiami šiais formatais: TXT (vienakalbiai tekstai) ir TMX (paraleliniai tekstai) Papildomai pateikiami metaduomenys ir statistiniai duomenys. Ištekliai skirti mašininio vertimo sistemų kūrimui ir vertinimui, kalbos modelių mokymui, lingvistiniams ir terminologiniams tyrimams, vertimo atmintims ir CAT įrankiams. Kuriant tekstynus kontroliuotas rašybos klaidų ir užsienietiškų intarpų kiekis vienakalbiuose tekstynuose, bei sakinių lygiavimo tikslumas paraleliniuose tekstynuose.

22
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Bendrasis lietuvių kalbos tekstynas skirtas dirbtinio intelekto poreikiams. Tekstyną sudaro: 25 Parquet formato failai, eilučių (tekstų) skaičius: 8 438 155, žodžių skaičius: 3 941 476 219, failų dydis: 11,7 GB. Tekstynas buvo sudarytas iš 36 skirtingų šaltinių, įskaitant naujienų portalus, teisinius ir administracinius dokumentus, mokslinius leidinius, internetinius tekstus, kalbos transkripcijas ir grožinę literatūrą. Visi šaltiniai buvo įtraukti gavus reikiamus leidimus, licencijas ar remiantis kitais teisėtais naudojimo pagrindais, laikantis galiojančių autorių teisių ir duomenų apsaugos reikalavimų.

22
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Melagingos informacijos automatinio identifikavimo tekstynas apima lingvistinius resursus, reikalingus kuriant ir vystant dirbtinio intelekto technologijomis grįstus sprendimus, kurie gebėtų automatiškai atpažinti klaidinančią informaciją interneto žiniasklaidos medijų tekstuose. Bendras Tekstyno dydis yra 5 162 anotuoti įrašai. Klaidinančios informacijos lygmens įvertį bendru sutarimu nustatė 2 (du) profesionalūs vertintojai. Metaduomenų kategorijos: straipsnio pavadinimas, straipsnio tekstas, srities žyma, klaidinančios informacijos lygį vertinanti žyma

19
0
0
Publikuota: 2025-01-03 Atnaujinta: 2025-12-18 Lietuvos bankas
Duomenų išteklius viešinamas: Taip Brandos lygis:

Susintetinti Paskolų rizikos duomenų bazės duomenys apie įmonių paskolas apima paskolų dydžius, terminus, palūkanų normas. Kad duomenys būtų tikslūs, tačiau nebūtų galima atpažinti konkrečių įmonių, jie buvo susintetinti specialia programine įranga.

1042
0
0
Publikuota: 2024-12-18 Atnaujinta: 2025-12-18 VŠĮ Centrinė projektų valdymo agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Pateikiami VšĮ Centrinės projektų valdymo agentūros veiklos dokumentai: • veiklos strategijos (strateginiai veiklos planai); • finansinių ataskaitų rinkiniai (ketvirčių ir metiniai); • metinės veiklos ataskaitos; • finansinių ataskaitų rinkinių audito išvados.

Veiklos dokumentai publikuojami VšĮ Centrinės projektų valdymo agentūros interneto svetainėje www.cpva.lt.

316
0
0
Publikuota: 2024-03-28 Atnaujinta: 2026-01-05 Nacionalinė žemės tarnyba prie Aplinkos ministerijos
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvos Respublikos teritorijos multispektrinių žemės paviršiaus palydovinių nuotraukų („Sentinel-2“ palydovo) mozaikos (PNM). Duomenys teikiami .tif formatu. Europos Komisijos ir Europos Kosmoso agentūros informacinėje sistemoje pagal Copernicus programą 2022 m. pateiktos Lietuvos Respublikos teritoriją dengiančios Sentinel-2 L1C lygio palydovinės nuotraukos atrinktos, atlikta atmosferinė korekcija ir jos apdorotos iki L2A lygio. Palydovinių nuotraukų apdorojimui panaudoti automatizuoti duomenų apdorojimo algoritmai, leidžiantys eliminuoti subjektyvaus pobūdžio klaidas ir atlikti kokybišką palydovinių nuotraukų apdorojimą. Sutvarkius palydovines nuotraukas ir transformavus jas į LKS94 (EPSG:3346) projekciją, sukomponuotos keturios atskirų periodų visos Lietuvos Respublikos teritorijos Sentinel-2 palydovinių nuotraukų mozaikos. Iš palydovinių nuotraukų mozaikų eliminuoti su sensoriumi ir palydovo judėjimu susiję defektai. Mozaikų skiriamoji geba (pikselio dydis) ne daugiau 10 metrų.

Didelės vertės rinkiniai

HTML
437
0
0
Publikuota: 2024-03-28 Atnaujinta: 2026-01-05 Nacionalinė žemės tarnyba prie Aplinkos ministerijos
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvos Respublikos teritorijos poliarimetrinių žemės paviršiaus palydovinių nuotraukų („Sentinel-1“ palydovo) mozaikos (PNP). Duomenys teikiami .tif formatu. Europos Komisijos ir Europos Kosmoso agentūros informacinėje sistemoje pagal Copernicus programą pateiktos Sentinel-1 palydovinės nuotraukos atrinktos, apdorotos ir panaudotos palydovinių Sentinel-1 nuotraukų mozaikų gamybai. Apdorojant Sentinel-1 palydovines nuotraukas atlikta orbitos parametrų korekcija, poliarimetrinio signalo kalibravimas, elektromagnetinio signalo korekcija pagal orbitos parametrus ir reljefo formas, palydovinių vaizdų ortorektifikavimas bei kiti darbai. Palydovinių nuotraukų sutvarkymui panaudoti automatizuoti duomenų apdorojimo algoritmai. Iš apdorotų 2022 m. sausio – lapkričio mėn. laikotarpio palydovinių nuotraukų sumontuota 11 atskirų kiekvieno mėnesio (sausio-lapkričio mėn.) Sentinel-1 palydovinių nuotraukų mozaikų. Mozaikos skiriamoji geba (pikselio dydis) ne daugiau 10 metrų.

Didelės vertės rinkiniai

HTML
247
0
0
Publikuota: 2024-03-28 Atnaujinta: 2026-01-05 Nacionalinė žemės tarnyba prie Aplinkos ministerijos
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvos Respublikos apskričių centrų skaitmeniniai erdviniai žemės paviršiaus lazerinio skenavimo taškų 2017 m. duomenys (sutrumpintas pavadinimas – SEŽP). Teikiama ASCII Simple Point Cloud (.xyz) ir ESRI ArcGIS Binary Grid (.adf) formatais.

Didelės vertės rinkiniai

HTML
197
0
0
Publikuota: 2024-03-28 Atnaujinta: 2026-01-05 Nacionalinė žemės tarnyba prie Aplinkos ministerijos
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvos Respublikos apskričių centrų skaitmeniniai erdviniai lazerinio skenavimo taškų duomenys (sutrumpintas pavadinimas – Lidar_DR) (2017 m.). LiDAR taškų tankis >30 (vid. 45) tšk./kv. m Tikslumas: horizontalios padėties nustatymo - RMSE<30 cm, vertikalios - RMSE<10 cm. Taškai klasifikuoti, 13 klasių. Priskirtos RGB reikšmės. Teikiama ASPRS Lidar Data Exchange (*.las) formatu.

Didelės vertės rinkiniai

HTML
460
0
0
Publikuota: 2024-03-27 Atnaujinta: 2026-01-05 Nacionalinė žemės tarnyba prie Aplinkos ministerijos
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvos skaitmeninis ortofotografinis M 1:5000 žemėlapis ORT5LT apimantis visą Lietuvos Respublikos teritoriją. RMSE apie 0,4 m. Aerofotografavimas vykdytas skaitmenine fotokamera (CCD jutiklis), GSD – 0,2 m. Dėl techninių galimybių ir atsižvelgiant į tai, kad ORT5LT tikslumas ir raiška yra tokie patys, kaip ORT10LT , siūlome atsisiuntimui arba peržiūros paslaugai užsisakyti ORT10LT žemėlapius, o dėl ORT5LT gavimo, prašome kreiptis į Nacionalinę žemės tarnybą.

Didelės vertės rinkiniai

HTML
248
0
0
Publikuota: 2024-03-27 Atnaujinta: 2026-01-05 Nacionalinė žemės tarnyba prie Aplinkos ministerijos
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvos Respublikos teritorijos ortofotgrafinis žemėlapis M 1:10000 žemėlapis ORT10LT apima Lietuvos Respublikos teritoriją. RMSE apie 0,4 m. Aerofotografavimas vykdytas skaitmenine fotokamera (CCD jutiklis), GSD – 0,2 m. Ortofotografinius žemėlapius galite atsisiųsti atskirais lapais LizardTech MrSID bei TIFF formatais.

Didelės vertės rinkiniai

HTML
812
0
0