Duomenų ištekliaus peržiūros: 34
NextGenerationEU projektas „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“, Nr. 02-098-K-0001.
Dydis: 10 010 420 žodžių; 12 221 575 tekstyno vienetai (žodžiai, skaitmenys, simboliai, skyrybos ženklai); 668 969 sakiniai.
Tekstyno sandara. SIMAS priskirtinas bendriesiems anotuotiems rašomosios kalbos tekstynams. Tekstyną sudaro tekstai, parašyti ir publikuoti 2000–2025 m. laikotarpiu, reprezentuojama originalioji dabartinė bendrinė rašytinė lietuvių kalba. Tekstynas susideda iš keturių skirtingus stilius atspindinčių dalių: grožinės, mokslinės, administracinės literatūros ir periodikos (tai Lietuvos nacionalinio transliuotojo http://LRT.lt" rel="nofollow noopener noreferrer">LRT.lt portale publikuoti tekstai). Proporcijos: periodika (įvairiatemiai ir įvairiažanriai straipsniai iš http://LRT.lt" rel="nofollow noopener noreferrer">LRT.lt ) – 4 852 550 žodžių (apie 50 proc. tekstyno). Dokumentai sudaro 2 085 581 žodį, mokslinės literatūros tekstai (įvairių mokslo sričių knygos ir straipsniai) sudaro 2 108 574 žodžius (po 20 proc. tekstyno), o grožinės literatūros tekstai – 963 632 žodžius (apie 10 proc. tekstyno). Tekstyne sukaupti tik lietuvių autorių sukurti originalūs grožinio ir mokslinio stiliaus tekstai, vertimų neįtraukta. Visose tekstyno dalyse yra pilni tekstai, o ne tekstų fragmentai.
Anotavimo įrankiai. Tekstynas automatiškai anotuotas morfologiškai ir sintaksiškai, lingvistų peržiūrėtas. Automatiniam morfologiniam anotavimui naudotas įrankis „Morfuoklis“ (https://sitti.vdu.lt/morfuoklis/lt" rel="nofollow noopener noreferrer">https://sitti.vdu.lt/morfuoklis/lt). Automatinei sintaksinei analizei naudotas tarptautinis įrankis UDPipe (https://lindat.mff.cuni.cz/services/udpip…" rel="nofollow noopener noreferrer">https://lindat.mff.cuni.cz/services/udpip…) , pritaikytas lietuvių kalbai.
| Patinka | 2 |
|---|---|
| Brandos lygis | - |
| Atnaujinama | Neatnaujinamas |
| Kategorijos |
|
| Būsena | Atvertas |
| Duomenų išteklius viešinamas | Taip |
| Prieigos teisės | Vieši |
| Katalogas | ADP |
| Prieigos nuoroda | https://clarin-repo.lt/items/6d76cc64-2192-4081-9… |
| Teisės - Aprašymas | Rimkutė, Erika, Bielinskienė, Agnė, Baltrūnaitė, Sabina, Boizou, Loïc, Brokaitė, Kristina, Carboni, Emilija, Dadurkevičius, Virginijus, Dereškevičiūtė, Sigita, Deveikis, Viktoras, Flejieraitė, Emilija, Gudėnaitė, Indrė, Jancaitė-Skarbalė, Laima, Kamandulytė-Merfeldienė, Laura, Kovalevskaitė, Jolanta, Kurtinaitytė, Ieva, Mingaudaitė, Monika, Ožeraitis, Vytautas, Pauliulytė, Greta, Petrauskė, Sandra, Razutytė, Auksė, Samochvalova, Alina, Starodubova Beata, Stepšys, Jonas, Vaičenonienė, Jurgita, and Žemrietė, Miglė. 2026. Morphologically and Syntactically Annotated Corpus SIMAS. Vytautas Magnus University. CLARIN-LT Repository. https://hdl.handle.net/20.500.11821/105. „NewGenLTU Open RAIL-D“ licencija https://sitti.vdu.lt/newgenltu-openrail-d-license/ |
| Duomenų ištekliaus sukūrimo data | 2026-05-15 11:21 |
|---|---|
| Paskutinio atnaujinimo data | 2026-05-18 14:56 |
| Teisės - Aprašymas |
Duomenų skelbėjas
Dalintis socialiniuose tinkluose
Prenumeruoja: 0
Duomenų pateiktys
| Pavadinimas | Dydis | Formatas | Publikuota | Atnaujinta | ||||
|---|---|---|---|---|---|---|---|---|
| (pavadinimas nenurodytas) | - | HTML | 2026-05-18 | Neatnaujinamas | Atidaryti |
Peržiūrėti
Priskirtos organizacijos
| Priskyrimo rūšis | Organizacija | |
|---|---|---|
| Duomenų rengėjas | Vytauto Didžiojo universitetas |