Rasta duomenų išteklių: 21
Publikuota: 2026-04-20 Atnaujinta: 2026-06-02 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Anotuotas garsynas, skirtas šnekos sintezės tikslams neuroniniams balsams generuoti ir dirbtinio intelekto technologijų sprendimų poreikių tenkinimui. Šis garsynas - kompleksinis kalbos išteklius, kurį sudaro pagrindinis (šnekos sintezei) ir papildomas (emocinis) garsynai. Anotuotas garsynas – rinkinys, susidedantis iš garso įrašų ir juos atitinkančių tekstinių transkripcijų ir anotacijų. Šnekos sintezei skirtas anotuotas garsynas - aukštos kokybės garsynas, kuris būtinas siekiant sukurti balsus, kurie skamba natūraliai ir gali būti pritaikyti įvairiose srityse – nuo kasdienių užduočių iki specializuotų profesionalių sprendimų. Emocinis anotuotas garsynas - specializuotas kalbos duomenų rinkinys, skirtas rinkti, saugoti ir analizuoti kalbos įrašus, kuriuose yra aiškiai išreikštos skirtingos emocinės būsenos. Šis garsynas apima įrašus, kuriuose kalbėtojai sąmoningai išreiškia emocijas, tokias kaip džiaugsmas, liūdesys, pyktis, baimė, nuostaba. Šie duomenys yra kruopščiai anotuoti pagal emocines kategorijas ir kitus su emocijomis susijusius parametrus, tokius kaip intonacija, tempas, kalbos garsumas ir ritmas.

54
0
0
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Medicinos garsyną sudaro 418 valandų profesionalios medicininės šnekos duomenų, įrašytų realioje medicinos darbo aplinkoje (garso įrašai ir jų anotacijos, įskaitant transkripcijas). Įrašai yra lietuvių kalba, tačiau juose taip pat vartojami lotyniški terminai, naudojami pagal standartinę praktiką. Garsyno turinys yra anonimizuotas ir atspindi medicinos specialistų vartojamą žodyną šeimos medicinos (bendrosios praktikos) ir radiologijos (magnetinio rezonanso tomografijos (MRT), rentgenografijos (rentgeno), kompiuterinės tomografijos (KT), ultragarsinio tyrimo (sonografijos) srityse. Šeimos medicinos ir radiologijos įrašų santykis yra 50% / 50%. Vyrų ir moterų garso įrašų santykis yra 50% / 50%. Kalbėtojai suskirstyti į tris amžiaus grupes pagal balso charakteristikas: jaunatviško, brandaus ir subrendusio balso amžiaus grupės. Garso įrašai pateikiami .wav formatu, anotacijos (įskaitant transkripcijas) pateikiamos .TextGrid, .parquet ir .json formatais. Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“ ir NextGenerationEU.

45
0
0
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Tai stambios apimties, plačios teminės aprėpties lietuvių kalbos klausimų–atsakymų porų tekstynas, sukurtas dirbtinio intelekto priemonėmis remiantis viešai prieinama informacija iš įvairių šaltinių, įskaitant administracinių ir viešųjų elektroninių paslaugų portalus, enciklopedinius ir statistinius šaltinius, valstybinių institucijų ir savivaldybių portalus, teisės aktų ir duomenų portalus, naujienų bei žiniasklaidos šaltinius ir vartotojų generuojamą turinį. Tekstynas buvo formuojamas taikant transformacinį generavimo procesą, kurio metu pagal šaltiniuose esančią informaciją buvo automatiškai sukurtos naujos klausimų–atsakymų poros lietuvių kalba. Į galutinį tekstyną nebuvo įtraukti originalūs šaltinių tekstai, jų pilni įrašai ar pirminė jų forma. Tekstyną sudaro tik sugeneruotas turinys, skirtas pokalbių robotų kūrimui, lietuvių kalbos DI sistemų vystymui ir kitų dirbtinio intelekto sprendimų poreikiams Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“ ir NextGenerationEU.

28
0
0
Publikuota: 2026-04-20 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Modelis sukurtas kaip tęstinės lietuvių kalbos modelių plėtros dalis, naudojant Bendrąjį lietuvių kalbos tekstyną ir specialiai šiam modeliui parengtą 32 768 tokenų žodyną (tokenizerį). Sukurtas tyrimams, išankstiniam mokymui nuo nulio ir tolesniam pritaikymui lietuvių kalbos generavimo bei kalbos technologijų užduotyse. Modelio svoriai buvo inicializuoti atsitiktine tvarka, o mokymas vykdytas dviem etapais, naudojant Lietuvių kalbos tekstyno apdorotą variantą, parengtą ilgo konteksto mokymui. Modeliui buvo naudojamas specialiai apmokytas 32 000 tokenų tokenizeris. Turėdamas apie 1,04 mlrd. parametrų ir palaikydamas maksimalų 32 768 tokenų konteksto ilgį, modelis yra pritaikytas efektyviai apdoroti ilgus lietuviškus tekstus ir mišraus domeno turinį. Jis skirtas naudoti kaip bazinis generatyvinis modelis tolesniam papildomam mokymui, domeniniam adaptavimui ir eksperimentams lietuvių kalbos NLP srityje. Pagal nutylėjimą modelis nėra instruktavimui pritaikytas ar specializuotas konkrečioms užduotims. Norint jį taikyti pokalbių sistemoms, santraukų sudarymui, klasifikavimui ar domeniškai specifiniam generavimui, rekomenduojamas papildomas mokymas ir vertinimas. Finansuoja Ekonomikos gaivinimo ir atsparumo didinimo priemonės planas „Naujos kartos Lietuva“ ir NextGenerationEU.

16
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Duomenų rinkinį sudaro sintetiniai lygiagretūs tekstynai šioms kalbų poroms: lietuvių-anglų, lietuvių-prancūzų ir lietuvių-vokiečių. Tekstynai skirti neuroninių mašininio vertimo ir kitų natūralios kalbos apdorojimo uždavinių sprendimui. Rinkinį sudaro daugiau kaip 3 milijonai lygiagrečių sakinių porų, po daugiau kaip 1 milijoną kiekvienai kalbų porai. Duomenys generuoti taikant kontekstinių šablonų metodą, leidžiantį sistemingai įtraukti įvardintas esybes (pvz., asmenvardžius, vietovardžius, organizacijas ir kt.) bei užtikrinti jų vartojimą įvairiose gramatinėse formose. Papildomai lietuvių-anglų dalyje integruota medicininė terminija, paremta struktūruotais medicinos srities terminų rinkiniais. Kartu pateikiami ir ištekliai, naudoti sintetinių tekstynų generavimui: daugiau kaip 20 tūkst. įvardintų esybių kiekvienai kalbų porai (11 įvardintų esybių kategorijų), taip pat daugiau kaip 50 kontekstinių šablonų kiekvienai kategorijai. Tekstynai pasižymi kontroliuojama struktūra ir lingvistine įvairove, nes sakiniai generuoti iš realių kalbos vartojimo pavyzdžių pagrindu sukurtų šablonų. Duomenys pateikiami lygiagrečia forma, užtikrinant tiesioginį sakinių atitikimą tarp kalbų, ir yra tinkami tiesioginiam naudojimui modelių treniravimui. Rinkinys pateikiamas TXT ir TMX formatais, leidžiančiais naudoti jį tiek mašininio mokymosi aplinkose, tiek vertimo atmintis naudojančioje programinėje įrangoje. Šis išteklius ypač naudingas užduotims, susijusioms su įvardintų esybių ir specializuotos terminijos vertimu, taip pat modelių testavimui ir klaidų analizei.

22
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Daugiakalbių (paralelinių) ir vienakalbių tekstynų rinkinys, skirtas natūralios kalbos apdorojimo, mašininio vertimo ir kitų dirbtinio intelekto technologijų taikymams. Kalbos: lietuvių, ispanų, ukrainiečių, norvegų, švedų ir danų. Išteklių sudaro vienakalbiai tekstynai ir daugiakalbiai (paraleliniai) tekstynai, apimantys bendrosios, informacinių technologijų ir teisės sričių tekstus. Duomenų kiekiai: • Ispanų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Ukrainiečių vienakalbis tekstynas - ≥ 8 mln. sakinių. • Norvegų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Švedų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Danų vienakalbis tekstynas - ≥ 8 mln. sakinių. • Ispanų–lietuvių lygiagretus tekstynas - ≥ 4 mln. lygiagrečių sakinių. • Ukrainiečių–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. • Norvegų–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. • Švedų–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. • Danų–lietuvių lygiagretus tekstynas - ≥ 1 mln. lygiagrečių sakinių. Duomenys pateikiami šiais formatais: TXT (vienakalbiai tekstai) ir TMX (paraleliniai tekstai), naudojant UTF-8 koduotę. Papildomai pateikiami metaduomenys ir statistinė informacija. Ištekliai skirti mašininio vertimo sistemų kūrimui ir vertinimui, kalbos modelių mokymui, daugiakalbių NLP sprendimų vystymui, lingvistiniams tyrimams bei vertimo technologijoms (CAT, vertimo atmintims). Kuriant tekstynus užtikrinta duomenų kokybė: vienakalbiuose tekstynuose rašybos klaidų lygis neviršija 0,5 %, o paraleliniuose tekstynuose lygiavimo klaidų kiekis neviršija 2,5 %.

21
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Atnaujintų vienakalbių ir daugiakalbių (paralelinių) tekstynų rinkinys, skirtas natūralios kalbos apdorojimo, mašininio vertimo ir kitų dirbtinio intelekto technologijų taikymams. Kalbos: lietuvių, anglų, prancūzų, vokiečių ir lenkų. Išteklių sudaro vienakalbiai tekstynai (≥ 1 mln. sakinių kiekvienai kalbai) ir daugiakalbiai (paraleliniai) tekstynai (≥ 0,4 mln. sakinių porų kiekvienai kalbų porai). Duomenų kiekiai: • Lietuvių vienakalbis tekstynas – 4.1 mln. sakinių. • Anglų vienakalbis tekstynas – 1.6 mln. sakinių. • Prancūzų vienakalbis tekstynas – 3 mln. sakinių. • Vokiečių vienakalbis tekstynas – 1.1 mln. sakinių. • Lenkų vienakalbis tekstynas – 2.4 mln. sakinių. • Lietuvių-anglų lygiagretus tekstynas – 580 tūkst. lygiagrečių sakinių. • Lietuvių-prancūzų lygiagretus tekstynas – 505 tūkst. lygiagrečių sakinių. • Lietuvių-vokiečių lygiagretus tekstynas – 419 tūkst. lygiagrečių sakinių. • Lietuvių-lenkų lygiagretus tekstynas – 455 tūkst. lygiagrečių sakinių. Duomenys pateikiami šiais formatais: TXT (vienakalbiai tekstai) ir TMX (paraleliniai tekstai) Papildomai pateikiami metaduomenys ir statistiniai duomenys. Ištekliai skirti mašininio vertimo sistemų kūrimui ir vertinimui, kalbos modelių mokymui, lingvistiniams ir terminologiniams tyrimams, vertimo atmintims ir CAT įrankiams. Kuriant tekstynus kontroliuotas rašybos klaidų ir užsienietiškų intarpų kiekis vienakalbiuose tekstynuose, bei sakinių lygiavimo tikslumas paraleliniuose tekstynuose.

29
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Bendrasis lietuvių kalbos tekstynas skirtas dirbtinio intelekto poreikiams. Tekstyną sudaro: 25 Parquet formato failai, eilučių (tekstų) skaičius: 8 438 155, žodžių skaičius: 3 941 476 219, failų dydis: 11,7 GB. Tekstynas buvo sudarytas iš 36 skirtingų šaltinių, įskaitant naujienų portalus, teisinius ir administracinius dokumentus, mokslinius leidinius, internetinius tekstus, kalbos transkripcijas ir grožinę literatūrą. Visi šaltiniai buvo įtraukti gavus reikiamus leidimus, licencijas ar remiantis kitais teisėtais naudojimo pagrindais, laikantis galiojančių autorių teisių ir duomenų apsaugos reikalavimų.

43
0
0
Publikuota: 2026-04-14 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Melagingos informacijos automatinio identifikavimo tekstynas apima lingvistinius resursus, reikalingus kuriant ir vystant dirbtinio intelekto technologijomis grįstus sprendimus, kurie gebėtų automatiškai atpažinti klaidinančią informaciją interneto žiniasklaidos medijų tekstuose. Bendras Tekstyno dydis yra 5 162 anotuoti įrašai. Klaidinančios informacijos lygmens įvertį bendru sutarimu nustatė 2 (du) profesionalūs vertintojai. Metaduomenų kategorijos: straipsnio pavadinimas, straipsnio tekstas, srities žyma, klaidinančios informacijos lygį vertinanti žyma

35
0
0
Publikuota: 2026-04-03 Atnaujinta: 2026-06-03 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Žmogaus fenotipo ontologija lietuvių kalba, kurioje susisteminti žmogaus fenotipų pokyčių įvairovę apibūdinantys terminai ir sąvokos. Išteklius sukurtas remiantis tarptautinėmis rekomendacijomis bei standartais (https://hpo.jax.org/app/). Jis tenkina dirbtinio intelekto technologijų sprendimų poreikius, kuriant genetikos sričiai skirtus sprendimus, padeda pagerinti tarpdisciplininį susikalbėjimą, praplečia tarptautinio bendravimo genetikos srityje galimybes vienodai vertinant nustatytus žmogaus fenotipo pokyčius bei identifikuojant galimas jų priežastis, vertinant prognozę, pagerina žmogaus fenotipų ontologijos integravimą į kasdieninę medicininę praktiką, gerinant sveikatos priežiūros sistemos teikiamų paslaugų kokybę, išvengiant sisteminių klaidų. Ontologiją sudaro daugiau kaip 13 000 sąvokų rinkinių, kurių imtyje yra aiškiai ir tiksliai susisteminta ne mažiau kaip 10 000 fenotipo pokyčių, svarbių medicininiu požiūriu diferencinei diagnostikai, transliaciniams tyrimams, predikcinių, prognostinių ar pan. bioinformacinių įrankių ir modelių, kurie vertina fenotipą, kūrimui. Įgyvendinant šio ištekliaus kūrimą Projektu prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo. Ontologijos kūrimas finansuotas NextGenerationEU ir Naujos kartos Lietuva lėšomis.

34
0
0
Publikuota: 2026-03-31 Atnaujinta: 2026-06-03 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvių vienakalbis, anglų vienakalbis ir anglų–lietuvių lygiagretusis gynybos ir saugumo tekstynai apima originalius lietuvių ir anglų kalbų tekstus, o lygiagrečiųjų tekstynų atveju – ir jų vertimus į lietuvių kalbą, suderintus sakinio lygiu. Tekstai surinkti iš Europos Sąjungos ir Lietuvos institucijų dokumentų, strategijų, teisės aktų bei kitų su gynyba ir saugumu susijusių šaltinių. Bendras tekstynų dydis: Lietuvių vienakalbis – 17 mln. žodžių. Anglų vienakalbis – 19,3 mln. žodžių. Anglų–lietuvių lygiagretusis – 119 tūkst. sakinių porų. Duomenų rinkinio struktūra: 1. Defence-Security Data Metadata.xlsx – metaduomenų dokumentas. 2. Defence-Security Data Statistics.xlsx – informacija apie duomenis, įskaitant atliktus techninių parametrų matavimus, tokius kaip gramatinių klaidų ir užsienio kalbų intarpų kiekiai bei kita statistinė informacija. 3. Katalogas „Monolingual“ – pateikiami lietuvių ir anglų kalbų vienakalbiai tekstynai TXT formatu, kiekvieno šaltinio duomenis pateikiant atskirame faile. 4. Katalogas „Parallel“ – pateikiami lygiagretieji tekstynai TMX formatu, kiekvieno šaltinio duomenis išskiriant atskirame faile. 5. Katalogas „Subdomains“ – pateikiami vienakalbiai ir lygiagretieji tekstynai, suskirstyti į 6 domenus, kiekvieno šaltinio duomenis pateikiant atskirame faile. Duomenų rinkinio failai parengti taip, kad būtų tinkami naudoti mašininio vertimo, lokalizavimo ir kituose dirbtinio intelekto taikymuose.

39
0
0
Publikuota: 2026-03-31 Atnaujinta: 2026-06-03 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

Lietuvių vienakalbis, anglų vienakalbis ir anglų–lietuvių lygiagretusis medicinos tekstynai apima originalius lietuvių ir anglų kalbų tekstus, o lygiagrečiojo tekstyno atveju – ir jų vertimus į lietuvių kalbą, suderintus sakinio lygiu. Tekstai surinkti iš Europos Sąjungos ir Lietuvos institucijų dokumentų, mokslinių publikacijų, teisės aktų bei kitų su medicina ir sveikatos apsauga susijusių šaltinių. Bendras tekstynų dydis: Lietuvių vienakalbis – 13 mln. žodžių. Anglų vienakalbis – 12,1 mln. žodžių. Anglų–lietuvių lygiagretusis – 230 tūkstančių sakinių porų. Tekstynai apima pagrindines medicinos sritis, įskaitant bazines medicinos paslaugas, farmakologiją ir farmacijos mokslus, klinikinę mediciną, psichiatriją ir psichologiją bei visuomenės sveikatą, epidemiologiją ir ligų prevenciją, užtikrinant teminį reprezentatyvumą. Duomenų rinkinio struktūra: 1. Medical Data Metadata.xlsx – metaduomenų dokumentas. 2. Medical Data Statistics.xlsx– statistinė informacija apie duomenis, įskaitant kokybės rodiklius (pvz., gramatinių klaidų, užsienio kalbų intarpų kiekį ir kt.). 3. Katalogas „Monolingual“ – lietuvių ir anglų kalbų vienakalbiai tekstynai TXT formatu. 4. Katalogas „Parallel“ – lygiagretusis tekstynas TMX formatu. 5. Katalogas „Subdomains“ – tekstynai suskirstyti pagal medicinos sritis (domenus). Duomenų rinkinio failai parengti taip, kad būtų tinkami naudoti mašininio vertimo, lokalizavimo ir kituose dirbtinio intelekto taikymuose.

36
0
0
Publikuota: 2025-10-31 Atnaujinta: 2026-04-20 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

LT-MLKM-modernBERT – tai maskuotosios kalbos (MLM) tipo lietuvių kalbos modelis, sukurtas nacionalinio projekto „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“ imtyje. Modelis paremtas ModernBERT-base architektūra ir buvo apmokintas su „Bendrojo lietuvių kalbos tekstyno“ (3 etapo) duomenimis, kurį sudarė 1,87 mlrd. žodžių arba apie 49 mlrd. mokymo tokenų iš įvairių lietuviškų šaltinių (žiniasklaidos, dokumentų, mokslinių, viešojo sektoriaus ir kitų tekstų). Modelis prisideda prie projekto tikslo – sukurti aukštos kokybės lietuvių kalbos išteklius ir didžiuosius kalbos modelius, reikalingus DI, tyrimų ir skaitmeninėms inovacijoms. Modelis yra bazinis (angl. base) ir skirtas tolesniam pritaikymui (angl. fine-tuning) bei domenų adaptacijai viešojo ir privataus sektorių projektuose, kuriems reikalingas patikimas lietuvių kalbos apdorojimas. Modelis nėra daugiafunkcinis; konkrečioms užduotims būtinas papildomas pritaikymas atitinkamam tikslui. Jis naudoja ModernBertForMaskedLM Hugging Face diegimo biblioteką (v4.54.1) su bfloat16 tikslumu, kas užtikrina efektyvų mokinimą ir išvadų darymą (angl. inference). Modeliui apmokinti buvo naudojamas specialiai šiam projektui sukurtas lietuviškas tokenizatorius su 64 000 tokenų žodynu, optimizuotas lietuvių kalbos morfologijai ir žodžio dalių segmentavimui. 8 192 tokenų konteksto ilgis leidžia modeliui efektyviai apdoroti ilgus dokumentus, išlaikyti kalbinį tikslumą ir nuoseklumą.

API
225
0
0
Publikuota: 2023-06-26 Atnaujinta: 2025-12-18 Valstybės skaitmeninių sprendimų agentūra
Duomenų išteklius viešinamas: Taip Brandos lygis:

IVPK registrų duomenys - Informacinės visuomenės plėtros stebėsenos ir valstybės IT paslaugų valdymo informacinės sistemos; Administracinių nusižengimų registras; Tarpžinybinė mokestinių duomenų saugykla; Registrų ir valstybės informacinių sistemų registras; Valstybės informacinių išteklių sąveikumo platforma; registrų nuostatai ir specifikacijos.

399
0
31032