Informuojame, kad nuo 2026 birželio 11 d. 10:00 val. iki 2026 birželio 14 d. 23:59 val. bus vykdomi Atvirų duomenų saugyklos (get.data.gov.lt) planiniai techniniai darbai. Darbų metu galimi laikini sistemos veikimo sutrikimai, paslaugų nepasiekiamumas arba lėtesnis veikimas. Atsiprašome už galimus nepatogumus.

Duomenų ištekliaus peržiūros: 26

NextGenerationEU projektas „Nuasmeninimo tekstyno sukūrimas (NUS)“, Nr. 02-100-K-0001.

Apimtis. 41 312 įrašų (13 762 478 žodžiai, 520 904 sakiniai), kiekvienas tekstas anotuotas asmens duomenų (angl. personally identifiable information, PII) atžvilgiu — iš viso 1 487 589 anotacijos. Mokymo imtis — 41 189 įrašai (administraciniai, moksliniai ir žiniasklaidos tekstai), testavimo (validacijos) imtis — 123 įrašai. Duomenys pateikiami JSONL, CoNLL-2003 (BIO) ir TEI P5 XML formatais.

Tekstyno sandara. Asmens duomenų tekstynas priskirtinas specializuotiems lietuvių kalbos tekstynams, skirtiems automatinio asmens duomenų aptikimo ir nuasmeninimo (angl. de-identification) sistemų giliojo mokymo pagrindu apmokymui bei vertinimui. Tekstyną sudaro originalūs lietuvių kalba parengti tekstai kartu su rankiniu būdu pažymėtomis asmens duomenų anotacijomis. Iš viso išskirti 24 anotacijų tipai, suskirstyti į dvi grupes: 16 bendrųjų kategorijų (PER, LOC, ORG, ID_PER, ID_MISC, NUM_PHONE, NUM_CAR, MISC, OCC, EDU, AGE, DATE, TIME, DURATION, VALUE, NAT) ir 8 BDAR specialiosios kategorijos „jautrūs" duomenys (HEALTH, REL, POL, ETH, MAR, FAM, GENDER, SEX). Jautrių duomenų anotacijos sudaro apie 2,84 proc. visų anotacijų, atspindint jų faktinį pasiskirstymą realiuose tekstuose.

Tekstyną sudaro trys skirtingos teminės dalys ir stratifikuota validacijos imtis. Proporcijos pagal žodžių skaičių: 1. administraciniai tekstai — 11 487 490 žodžių (apie 83 proc. tekstyno), 2. moksliniai tekstai — 1 108 602 žodžiai (apie 8 proc.), 3. žiniasklaidos tekstai — 1 107 917 žodžių (apie 8 proc.), 4. validacijos imtis — 58 469 žodžiai (apie 0,4 proc.).

Pagal įrašų skaičių dominuoja administracinė sritis (38 468 įrašai), toliau: žiniasklaida (2 451), moksliniai tekstai (270) ir validacijos imtis (123).

Tekstų šaltiniai. Administracinės dalies tekstai surinkti iš 111 šaltinių — Lietuvos savivaldybių ir valstybės institucijų interneto svetainių (laikotarpis 2001–2025 m.); 3,8 proc. (1 480 įrašų) šios dalies sudaro sintetiniai tekstai, sugeneruoti Gemma 2 27B modeliu ir atitinkamai pažymėti (original_id prefiksas translated_synthetic_admin_texts_*). Mokslinės dalies tekstai paimti iš VDU CRIS (Lituanistikos duomenų bazės) ir atvirosios prieigos Vilniaus universiteto leidyklos žurnalų (laikotarpis 2000–2025 m.). Žiniasklaidos dalies tekstai — Lietuvos nacionalinio transliuotojo http://LRT.lt" rel="nofollow noopener noreferrer">LRT.lt portale publikuoti straipsniai (2019–2020 m. archyvas ir 2024–2025 m. svetainės surinkimas). Validacijos imtis — filtruotas pirmiau išvardytų šaltinių poaibis, atspindintis visų trijų dalykinių sričių pasiskirstymą.

Projekto tikslas. Parengti ne mažiau kaip 10 mln. žodžių nuasmeninimo tekstyną, kuriame būtų sužymėtos BDAR aktualios įvardintos esybės (angl. named entities), atspindinčios bendrą asmeninę informaciją apie realaus pasaulio asmenis, tokiu būdu sudarant galimybes tekstyną naudoti automatizuotam duomenų anonimizavimui/ užkodavimui pagal BDAR reikalavimus ir mašininio arba giliojo mokymo technologijų sprendimų apmokymui.

Tekstyno pagrindu parengti giliojo mokymosi sprendimai. Remiantis šio tekstyno duomenimis, parengtas automatinis asmeninės informacijos aptikimo modelis lietuvių kalbai:

  1. Nuasmeninimo modelis, paremtas XLM-RoBERTa architektūra: NUS-LT-PII-xlm-roberta-large (https://huggingface.co/VytautoDidziojoUni…" rel="nofollow noopener noreferrer">https://huggingface.co/VytautoDidziojoUni…).

Patinka 1
Brandos lygis -
Atnaujinama Neatnaujinamas
Kategorijos
  • Mokslas ir technologijos
  • Mokslo įstaigos
  • Informaciniai ištekliai
Būsena Inventorintas
Duomenų išteklius viešinamas Taip
Prieigos teisės Vieši
Katalogas ADP
Prieigos nuoroda https://huggingface.co/datasets/VytautoDidziojoUn…
Teisės - Aprašymas

Tomas Krilavičius, Milita Songailaitė, Justina Mandravickaitė, Danguolė Kalinauskaitė, Justinas Juozas Dainauskas, Deimantė Zaikauskaitė, Agnė Paulauskaitė-Tarasevičienė, Gintarė Zokaitytė, Arminas Kurmauskas. 2026 Nuasmeninimo tekstyno sukūrimas (NUS). Vytauto Didžiojo universitetas, Kauno Technologijos universitetas.

Licencija. Tekstynas platinamas pagal NewGenLTU OpenRAIL-D licenciją, parengtą Vytauto Didžiojo universiteto mokslininkų komandos pagal plano „Naujos kartos Lietuva“ finansuojamų projektų rezultatų sklaidos poreikius. Licencija sudaro sąlygas atvirai ir atsakingai panaudai, kartu užtikrinant autorių teisių, asmens duomenų apsaugos ir ES dirbtinio intelekto akto reikalavimų laikymąsi.

Peržiūrėti papildomą informaciją +

Duomenų skelbėjas


Dalintis socialiniuose tinkluose

Prenumeruoja: 0

Priskirtos organizacijos

Priskyrimo rūšis Organizacija
Duomenų rengėjas Vytauto Didžiojo universitetas

Komentarai

Komentuoti gali tik prisijungę naudotojai