Informuojame, kad nuo 2026 birželio 11 d. 10:00 val. iki 2026 birželio 14 d. 23:59 val. bus vykdomi Atvirų duomenų saugyklos (get.data.gov.lt) planiniai techniniai darbai. Darbų metu galimi laikini sistemos veikimo sutrikimai, paslaugų nepasiekiamumas arba lėtesnis veikimas. Atsiprašome už galimus nepatogumus.

Duomenų ištekliaus peržiūros: 34

NextGenerationEU projektas „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“, Nr. 02-098-K-0001.

Dydis: 10 010 420 žodžių; 12 221 575 tekstyno vienetai (žodžiai, skaitmenys, simboliai, skyrybos ženklai); 668 969 sakiniai.

Tekstyno sandara. SIMAS priskirtinas bendriesiems anotuotiems rašomosios kalbos tekstynams. Tekstyną sudaro tekstai, parašyti ir publikuoti 2000–2025 m. laikotarpiu, reprezentuojama originalioji dabartinė bendrinė rašytinė lietuvių kalba. Tekstynas susideda iš keturių skirtingus stilius atspindinčių dalių: grožinės, mokslinės, administracinės literatūros ir periodikos (tai Lietuvos nacionalinio transliuotojo http://LRT.lt" rel="nofollow noopener noreferrer">LRT.lt portale publikuoti tekstai). Proporcijos: periodika (įvairiatemiai ir įvairiažanriai straipsniai iš http://LRT.lt" rel="nofollow noopener noreferrer">LRT.lt ) – 4 852 550 žodžių (apie 50 proc. tekstyno). Dokumentai sudaro 2 085 581 žodį, mokslinės literatūros tekstai (įvairių mokslo sričių knygos ir straipsniai) sudaro 2 108 574 žodžius (po 20 proc. tekstyno), o grožinės literatūros tekstai – 963 632 žodžius (apie 10 proc. tekstyno). Tekstyne sukaupti tik lietuvių autorių sukurti originalūs grožinio ir mokslinio stiliaus tekstai, vertimų neįtraukta. Visose tekstyno dalyse yra pilni tekstai, o ne tekstų fragmentai.

Anotavimo įrankiai. Tekstynas automatiškai anotuotas morfologiškai ir sintaksiškai, lingvistų peržiūrėtas. Automatiniam morfologiniam anotavimui naudotas įrankis „Morfuoklis“ (https://sitti.vdu.lt/morfuoklis/lt" rel="nofollow noopener noreferrer">https://sitti.vdu.lt/morfuoklis/lt). Automatinei sintaksinei analizei naudotas tarptautinis įrankis UDPipe (https://lindat.mff.cuni.cz/services/udpip…" rel="nofollow noopener noreferrer">https://lindat.mff.cuni.cz/services/udpip…) , pritaikytas lietuvių kalbai.

Patinka 2
Brandos lygis -
Atnaujinama Neatnaujinamas
Kategorijos
  • Mokslas ir technologijos
  • Mokslo įstaigos
  • Informaciniai ištekliai
Būsena Atvertas
Duomenų išteklius viešinamas Taip
Prieigos teisės Vieši
Katalogas ADP
Prieigos nuoroda https://clarin-repo.lt/items/6d76cc64-2192-4081-9…
Teisės - Aprašymas

Rimkutė, Erika, Bielinskienė, Agnė, Baltrūnaitė, Sabina, Boizou, Loïc, Brokaitė, Kristina, Carboni, Emilija, Dadurkevičius, Virginijus, Dereškevičiūtė, Sigita, Deveikis, Viktoras, Flejieraitė, Emilija, Gudėnaitė, Indrė, Jancaitė-Skarbalė, Laima, Kamandulytė-Merfeldienė, Laura, Kovalevskaitė, Jolanta, Kurtinaitytė, Ieva, Mingaudaitė, Monika, Ožeraitis, Vytautas, Pauliulytė, Greta, Petrauskė, Sandra, Razutytė, Auksė, Samochvalova, Alina, Starodubova Beata, Stepšys, Jonas, Vaičenonienė, Jurgita, and Žemrietė, Miglė. 2026. Morphologically and Syntactically Annotated Corpus SIMAS. Vytautas Magnus University. CLARIN-LT Repository. https://hdl.handle.net/20.500.11821/105.

„NewGenLTU Open RAIL-D“ licencija https://sitti.vdu.lt/newgenltu-openrail-d-license/

Peržiūrėti papildomą informaciją +

Duomenų skelbėjas


Dalintis socialiniuose tinkluose

Prenumeruoja: 0

Duomenų pateiktys

Pavadinimas Dydis Formatas Publikuota Atnaujinta
(pavadinimas nenurodytas) - HTML 2026-05-18 Neatnaujinamas Atidaryti

Priskirtos organizacijos

Priskyrimo rūšis Organizacija
Duomenų rengėjas Vytauto Didžiojo universitetas

Komentarai

Komentuoti gali tik prisijungę naudotojai