NextGenerationEU projektas „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“, Nr. 02-098-K-0001.
Dydis: 10 010 420 žodžių; 12 221 575 tekstyno vienetai (žodžiai, skaitmenys, simboliai, skyrybos ženklai); 668 969 sakiniai.
Tekstyno sandara. SIMAS priskirtinas bendriesiems anotuotiems rašomosios kalbos tekstynams. Tekstyną sudaro tekstai, parašyti ir publikuoti 2000–2025 m. laikotarpiu, reprezentuojama originalioji dabartinė bendrinė rašytinė lietuvių kalba. Tekstynas susideda iš keturių skirtingus stilius atspindinčių dalių: grožinės, mokslinės, administracinės literatūros ir periodikos (tai Lietuvos nacionalinio transliuotojo LRT.lt portale publikuoti tekstai). Proporcijos: periodika (įvairiatemiai ir įvairiažanriai straipsniai iš LRT.lt ) – 4 852 550 žodžių (apie 50 proc. tekstyno). Dokumentai sudaro 2 085 581 žodį, mokslinės literatūros tekstai (įvairių mokslo sričių knygos ir straipsniai) sudaro 2 108 574 žodžius (po 20 proc. tekstyno), o grožinės literatūros tekstai – 963 632 žodžius (apie 10 proc. tekstyno). Tekstyne sukaupti tik lietuvių autorių sukurti originalūs grožinio ir mokslinio stiliaus tekstai, vertimų neįtraukta. Visose tekstyno dalyse yra pilni tekstai, o ne tekstų fragmentai.
Anotavimo įrankiai. Tekstynas automatiškai anotuotas morfologiškai ir sintaksiškai, lingvistų peržiūrėtas. Automatiniam morfologiniam anotavimui naudotas įrankis „Morfuoklis“ (https://sitti.vdu.lt/morfuoklis/lt). Automatinei sintaksinei analizei naudotas tarptautinis įrankis UDPipe (https://lindat.mff.cuni.cz/services/udpipe/) , pritaikytas lietuvių kalbai.