Informuojame, kad nuo 2026 birželio 11 d. 10:00 val. iki 2026 birželio 14 d. 23:59 val. bus vykdomi Atvirų duomenų saugyklos (get.data.gov.lt) planiniai techniniai darbai. Darbų metu galimi laikini sistemos veikimo sutrikimai, paslaugų nepasiekiamumas arba lėtesnis veikimas. Atsiprašome už galimus nepatogumus.

Duomenų ištekliaus peržiūros: 25

NextGenerationEU projektas „Santraukų tekstynai dirbtiniam intelektui“, Nr. 02-101-K-0001.

Apimtis: 2340 tekstų (1 738 609 žodžiai), kiekvienas tekstas suporuotas su dviem žmonių parengtomis santraukomis: abstraktyvia (iš viso 352 591 žodis) ir ekstraktyvia (iš viso 494 861 žodis). Mokymo imtis – 2240 tekstų, testavimo imtis – 100 tekstų. Duomenys pateikiami CSV, JSON ir XML formatais.

Tekstyno sandara. Santraukų tekstynas priskirtinas specializuotiems lietuvių kalbos tekstynams, skirtiems automatinio santraukų sudarymo (angl. automatic summarisation) sistemų giliojo mokymo pagrindu apmokymui ir vertinimui. Tekstyną sudaro originalūs lietuvių autorių parengti tekstai kartu su žmonių parašytomis abstraktyviomis ir ekstraktyviomis santraukomis. Kiekviena santrauka sudaro ne mažiau kaip 10 proc. originalaus teksto apimties.

Tekstyną sudaro keturios skirtingos dalys: informacinių technologijų (IT), teisės (teisė), medicinos (medicina) ir žiniasklaidos (žiniasklaida). Proporcijos: 1. teisės tekstai – 668 276 žodžiai (apie 38 proc. tekstyno), 2. medicinos tekstai – 371 611 žodžių (apie 21 proc.), 3. žiniasklaidos tekstai – 354 012 žodžių (apie 20 proc.), 4. informacinių technologijų tekstai – 344 710 žodžių (apie 20 proc.).

Pagal tekstų skaičių dominuoja informacinių technologijų sritis (689 tekstai), toliau: žiniasklaida (568), medicina (550) ir teisė (533).

Tekstų šaltiniai. Informacinių technologijų dalies tekstai surinkti iš IT tinklaraščių (pvz., http://technologijos.lt" rel="nofollow noopener noreferrer">technologijos.lt), studentų bakalauro ir magistro baigiamųjų darbų (pvz., VDU CRIS) bei Vilniaus universiteto IT mokslo žurnalų (http://zurnalai.vu.lt" rel="nofollow noopener noreferrer">zurnalai.vu.lt). Teisės dalies tekstai paimti iš Lietuvos teismų informacinės sistemos LITEKO, Lietuvos Respublikos teisės aktų registro, Lietuvos Aukščiausiojo Teismo jurisprudencijos, teisės publikacijų (pvz., http://teise.pro" rel="nofollow noopener noreferrer">teise.pro) ir mokslinių straipsnių (pvz., http://elaba.lt" rel="nofollow noopener noreferrer">elaba.lt). Medicinos dalies tekstai – Valstybės duomenų agentūros parengti anonimizuoti vaistinių dokumentai ir gydytojų diagnozės. Žiniasklaidos dalies tekstai – Lietuvos nacionalinio transliuotojo http://LRT.lt" rel="nofollow noopener noreferrer">LRT.lt portale publikuoti straipsniai.

Projekto tikslas. Parengti ir validuoti mišrius lietuvių kalbos tekstų santraukų / abstraktų tekstynus, skirtus automatinio sudarymo giliojo mokymo pagrindu veikiančių sistemų apmokymui. Projektas vykdomas Vytauto Didžiojo universiteto kartu su partneriu Vilniaus universitetu pagal planą „Naujos kartos Lietuva“ (komponentas „Skaitmeninė transformacija ekonomikos augimui“), projekto Nr. 02-101-K-0001.

Tekstyno pagrindu parengti giliojo mokymosi sprendimai. Remiantis šio tekstyno duomenimis, parengti du automatinio santraukų sudarymo modeliai lietuvių kalbai: 1. ekstraktyvaus santraukų sudarymo modelis, paremtas XLM-RoBERTa architektūra: LT-ABS-extractive-xlm-roberta (https://huggingface.co/VytautoDidziojoUni…)" rel="nofollow noopener noreferrer">https://huggingface.co/VytautoDidziojoUni…) 2. abstraktyvaus santraukų sudarymo modelis, paremtas Gemma 3 12B architektūra: LT-ABS-abstractive-Gemma3-12b (https://huggingface.co/VytautoDidziojoUni…" rel="nofollow noopener noreferrer">https://huggingface.co/VytautoDidziojoUni…).

Patinka 1
Brandos lygis -
Atnaujinama Neatnaujinamas
Kategorijos
  • Mokslas ir technologijos
  • Mokslo įstaigos
  • Informaciniai ištekliai
Būsena Inventorintas
Duomenų išteklius viešinamas Taip
Prieigos teisės Vieši
Katalogas ADP
Prieigos nuoroda https://huggingface.co/datasets/VytautoDidziojoUn…
Teisės - Aprašymas

Tomas Krilavičius, Milita Songailaitė, Danguolė Kalinauskaitė, Justina Mandravickaitė, Justinas Juozas Dainauskas, Deimantė Zaikauskaitė, Paulius Astromskis, Virginijus Marcinkevičius, Vilma Zubaitienė, Neringa Gaubienė, Skaistė Volungevičienė. 2026 Santraukų tekstynas dirbtiniam intelektui. Vytauto Didžiojo universitetas, Vilniaus universitetas.

Licencija. Tekstynas platinamas pagal NewGenLTU OpenRAIL-D licenciją, parengtą Vytauto Didžiojo universiteto mokslininkų komandos pagal plano „Naujos kartos Lietuva“ finansuojamų projektų rezultatų sklaidos poreikius. Licencija sudaro sąlygas atvirai ir atsakingai panaudai, kartu užtikrinant autorių teisių, asmens duomenų apsaugos ir ES dirbtinio intelekto akto reikalavimų laikymąsi.

Peržiūrėti papildomą informaciją +

Duomenų skelbėjas


Dalintis socialiniuose tinkluose

Prenumeruoja: 0

Priskirtos organizacijos

Priskyrimo rūšis Organizacija
Duomenų rengėjas Vytauto Didžiojo universitetas

Komentarai

Komentuoti gali tik prisijungę naudotojai