Autorius: Aurimas Jasiūnas; Publikavimo data: 2022-01-26

Mokymo tema Mokymo aprašymas Nuoroda į video įrašą
1. Duomenų atvėrimo žingsniai ir būdai Duomenų atvėrimo proceso trumpa apžvalga, nuo koordinatoriaus registracijos Atvirų duomenų portale iki pačių duomenų atvėrimo. Pagrindiniai žingsniai:
Duomenų atvėrimo proceso trumpa apžvalga, nuo koordinatoriaus registracijos Atvirų duomenų portale iki pačių duomenų atvėrimo. Pagrindiniai žingsniai:
Pagrindiniai žingsniai
1. Institucijos kaip atvirų duomenų teikėjos ir jos paskirto koordinatoriaus registracija atvirų duomenų portale
2. Atvertinų duomenų rinkinių sąrašo sudarymas (kitaip – duomenų rinkinių inventorizacija).
3. Duomenų struktūros aprašo parengimas. Duomenų struktūros apraše pateikiama informacija apie šaltinio (-ių) duomenų struktūrą.
4. Duomenų atvėrimas

Nuorodos:
Plačiau: https://atviriduomenys.readthedocs.io/atverimas.html

 

https://youtu.be/iXUTiqzAHrs 
2. Duomenų atvėrimo atsakomybės

Institucijos koordinatoriaus ir paskirto duomenų tvarkytojo atsakomybės.
Pastaba: Institucija paskiria koordinatorių pateikdama vadovo ar kito atsakingo asmens pasirašytą paskyrimo raštą.

Nuorodos:

Koordinatoriaus registracija: https://data.gov.lt/learningmaterial/10

https://youtu.be/lKIzWWvm_a8
3. Duomenų atvėrimo nuostatai Nuorodos:
Teisės gauti informaciją iš valstybės ir savivaldybių institucijų ir įstaigų įstatymas
https://e-seimas.lrs.lt/portal/legalAct/lt/TAD/TAIS.94745/asr
15 straipsnis. Institucijos ir valstybės valdomo subjekto pareiga sudaryti duomenų rinkinius
Nutarimą dėl Lietuvos Respublikos teisės gauti informaciją ir duomenų pakartotinio naudojimo įstatymo įgyvendinimo rasite čia.
Daugiau apie TGIĮ: https://atviriduomenys.readthedocs.io/savokos.html#term-TGII  
https://youtu.be/HaxbHHWnaEs
4. Poreikiu grįstas duomenų atvėrimas Demonstracija kaip atsakyti į duomenų atvėrimo poreikį pateiktą Atvirų duomenų portale.

Nuorodos:
Nutarimas dėl asmenų prašymų ir skundų nagrinėjimo viešojo administravimo subjektuose taisyklių patvirtinimo
https://e-seimas.lrs.lt/portal/legalAct/lt/TAD/TAIS.303479/asr
Prašymai gauti duomenis:
https://atviriduomenys.readthedocs.io/atverimas/prasymas.html 
https://youtu.be/MlER0VHkv_U
5. Ekosistema

Apžvelgiama, kokie servisai, paslaugos, serveriai ir svetainės egzistuoja ir kaip jie naudojami. Aptariami skirtingi duomenų atvėrimo įrankiai:
1. Spinta – IVPK sukurtas įrankis, leidžiantis duomenis atverti automatizuotai. Norint naudotis Spinta įranku, jį reikia įdiegti savo infrastruktūroje.
2. VDV IS (Valstybės duomenų valdysenos informacinė sistema) – tai yra centralizuotas būdas atverti duomenis Statistikos departamento pagalba.
Skirtumas tarp Spinta ir VDV IS yra tai, kad naudojantis Spinta įrankiu duomenų atvėrimas vykdomas institucijos infrastruktūroje. Tuo tarpu VDV IS atveju duomenys atveriami už institucijos infrastruktūros ribų, nes visų pirma duomenys siunčiami į VDV IS ir tada yra atveriami iš ten.

Nuorodos:
Plačiau: https://atviriduomenys.readthedocs.io/atverimas/atverimas.html

Spinta įrankis ir jo diegimas Linux sistemoje: https://atviriduomenys.readthedocs.io/spinta.html#diegimas    
Spinta įrankio diegimas Windows aplinkoje: https://atviriduomenys.readthedocs.io/spinta.html#windows

https://youtu.be/RshRMpn-CCw
6. Inventorizacija Duomenų inventorizacija gali būti atliekama keliais būdais:
1. Inventorizacija administracinėje ADP aplinkoje užpildant formą/laukus
2. Inventorizacija importuojant rinkinių sąrašą iš Excel šablono. Šabloną galima atsisiųsti paspaudus ant nuorodos https://data.gov.lt/learningmaterial/14
3. Inventorizacija per partnerių API https://data.gov.lt/public/api/1. Veiksmas per API reikalingas API key. Jį galima rasti pagrindiniame puslapyje, prisijungus prie ADP administracinės aplinkos.

Nuorodos:
Plačiau: https://atviriduomenys.readthedocs.io/atverimas/inventorizacija.html
Pagrindines komandas naudojamas komandinėje eilutėje galima rasti čia https://gist.github.com/sirex/30f595e58beb0b52cad565a061753f62 ir čia https://atviriduomenys.readthedocs.io/spinta.html#diegimas
https://youtu.be/arch_mKAU8Q
7. Prioriteto balas Prioriteto balas naudojamas įsivertinti kuriuos duomenų rinkinius atverti pirmus.

Nuorodos:
Plačiau: https://atviriduomenys.readthedocs.io/katalogas.html#prioritetai
https://youtu.be/ZmQKyhEuEgM 
8. Duomenų struktūros aprašas - teorinė dalis Duomenų struktūros aprašas yra paremtas DCAT standartu, tačiau DCAT standarte nėra detalių apie duomenų sudėtį ir duomenų rinkiniai įvardinami abstrakčiai (rinkinio pavadinimas, aprašymas, organizacija, tvarkytojas bei kai kurie kiti metaduomenys). DCAT standartas nenurodo modelio ir savybės, tą įgyvendina duomenų struktūros aprašas.
Yra dviejų tipų duomenų struktūros aprašai:
1. ŠDSA (šaltinio duomenų struktūros aprašas) – parengiama pirminė duomenų išklotinė institucijos viduje, identifikuojami laukai, kurie nebus publikuojami. Tai yra vidinis dokumentas ir nėra skirtas publikavimui.
2. ADSA (atvirų duomenų struktūros aprašas) – parengiamas struktūros aprašas atmetus visus laukus iš ŠDSA, kurie nebus publikuojami. Tai yra atviras dokumentas ir yra skirtas jau publikavimui.
Nuorodos:
Daugiau apie duomenų struktūros aprašą: https://atviriduomenys.readthedocs.io/atverimas/struktura.html
Nuoroda į DCAT žodyną: https://www.w3.org/TR/vocab-dcat-2/#introduction
Duomenų struktūros aprašo šablonas: https://data.gov.lt/learningmaterial/15 
https://youtu.be/pK4Dx_SjieU
9. Duomenų struktūros aprašo generavimas komandinės eilutės pagalba įsidiegus Spinta įrankį Duomenų struktūros aprašo automatinis generavimas iš duomenų šaltinio.
Pastaba: labai žemo brandos lygio duomenims, duomenų struktūros aprašas generuojamas ne automatiškai, o rankiniu būdu, tačiau aukšto brandos lygio duomenys leidžia sugeneruoti duomenų struktūros aprašą automatiškai, naudojantis komandine eilute.

Nuorodos:
Kaip sugeneruoti ŠDSA galite rasti čia https://atviriduomenys.readthedocs.io/spinta.html#sdsa-generavimas
Spinta įrankio diegimas: https://atviriduomenys.readthedocs.io/spinta.html#diegimas
Spinta įrankiui reikalinga Python naujausia versija: https://www.python.org/downloads/
https://youtu.be/xsdB6opR0YY 
10. Duomenų atvaizdavimas saugykloje generuojant komandinę eilutę Nuorodos:
Duomenų atvaizdavimas saugykloje komandų pagalba. Pagrindines komandas rasite šiuo adresu https://gist.github.com/sirex/30f595e58beb0b52cad565a061753f62.
Duomenų saugyklos adresas: get.data.gov.lt.
Taip pat, paaiškinama kaip paversti ŠDSA (pirminio šaltinio duomenų struktūros aprašas) į ADSA (atvirų duomenų struktūros aprašas) https://atviriduomenys.readthedocs.io/spinta.html#sdsa-vertimas-i-adsa
https://youtu.be/ZVDebedXi1Y
11.   Duomenų struktūros aprašo įkėlimas į Katalogą Nuorodos:
Plačiau apie tai kaip įkelti duomenų struktūros aprašą rasite čia: https://atviriduomenys.readthedocs.io/katalogas.html#struktura
Duomenų struktūros aprašo šablonas: https://data.gov.lt/learningmaterial/15 
https://youtu.be/UyXIFwwV5bs
12. Duomenų atvėrimo būdai  Yra keli duomenų atvėrimo būdai:
1. VDV IS (Valstybės duomenų valdysenos informacinė sistema - Palantir) – Statistikos departamento duomėnų atvėrimo įrankis
2. Spinta – IVPK sukurtas duomenų atvėrimo įrankis. Netinkamas realaus laiko duomenims.
3. Institucija pati pasidaro savo įrankius per API integracijai su saugykla, kurioje publikuoja savo duomenis. Tinka realaus laiko duomenims.
4. Institucija publikuoja duomenis savo infrastruktūroje. Esant poreikiui saugykla gali susiimportuoti duomenis. Tinka realaus laiko duomenims.
5. Duomenys keliami į atvirų duomenų katalogą (ADK) data.gov.lt naudojantis administracine aplinka. Šis būdas mažiausiai rekomenduojamas dėl ribojamo failo dydžio, todėl netinka didelės apimties duomenims.
Nuorodos:
Plačiau apie duomenų atvėrimą: https://atviriduomenys.readthedocs.io/atverimas/atverimas.html
https://atviriduomenys.readthedocs.io/atverimas/struktura.html#sdsa-gavimas
https://youtu.be/5HkzVSZ-PdA 
13. Duomenų struktūros aprašas - semantika ir žodynas

Žodynas padeda standartizuotai aprašyti duomenis naudojant kodinius pavadinimus. Tai leidžia duomenų naudotojams paprasčiau manipuliuoti duomenimis, juos apjungti ir pan. Šiuo atveju, duomenų struktūros aprašas ir yra žodynas, kuris verčia nestandartiškai pateiktus duomenis (lietuviškos raidės, visos didžiosios raidės ir pan.) į standartizuotus.

Nuorodos:
Daugiau apie kodinius pavadinimus duomenų struktūros apraše: https://atviriduomenys.readthedocs.io/dsa/formatas.html#kodiniai-pavadinimai

Duomenų žodynų katalogas: https://lov.linkeddata.es/dataset/lov

https://youtu.be/flYtf0ASTV8
14. Duomenų struktūros aprašas – lentelės struktūra Bendrai paaiškinama kaip sudaromas duomenų struktūros aprašas iš šaltinio lentelės.

Nuorodos:
Plačiau apie duomenų struktūros aprašą: https://atviriduomenys.readthedocs.io/dsa/formatas.html#lenteles-struktura
Dimensijos duomenų struktūros apraše: https://atviriduomenys.readthedocs.io/dsa/formatas.html#dimensijos
Duomenų struktūros aprašo metaduomenys: https://atviriduomenys.readthedocs.io/dsa/formatas.html#metaduomenys
https://youtu.be/q3XZ-M08YdM
15. Duomenų struktūros aprašas – kodiniai pavadinimai Kodiniai pavadinimai naudojami šaltinio duomenų pavadinimus paversti standartizuotais, kad naudotis jais būtų patogiau ir suprantamiau.

Nuorodos:
Plačiau apie kodinius pavadinimus: https://atviriduomenys.readthedocs.io/dsa/formatas.html#kodiniai-pavadinimai
https://youtu.be/tSBprazMEBY 
16.   Saugyklos statusas ir planas Pateikiami saugyklos vystymo etapai. Iki 2023-03 planuojama saugyklą išvystyti iki stabilios versijos.

Nuorodos:
Plačiau: https://atviriduomenys.readthedocs.io/api/index.html#statusas-ir-planas
https://youtu.be/idne1a_XyVE 
17.   Duomenų struktūros aprašas - sąsaja su išoriniu žodynas Sąsaja su išoriniu žodynu kelia duomenų brandos lygį ir taip padidina duomenų kokybę bei naudojamumą. Šiame vaizdo įraše pateikiamas žodynas FOAF kaip pavyzdys, kuris yra vienas labiausiai naudojamų žodynų.

FOAF žodynas: http://xmlns.com/foaf/spec/

Prieš naudojant žodynus, visų pirma galima apsirašyti „prefixus (prefix)“. Prefixai naudojami kai kažkoks elementas duomenų struktūros apraše kartojasi. Pavyzdžiui, kad nereikėtų kartoti internetinės svetainės adreso URI stulpelyje, galima jį apsirašyti vieną kartą atskiroje dimensijoje kaip prefiksą ir prefiksą naudoti URI stulpelyje https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#isoriniu-zodynu-prefiksai.
https://youtu.be/5G3Ndrf5gZw 
18.   Duomenų struktūros aprašas - duomenų šaltinis  Duomenų struktūros apraše duomenų šaltinis yra žymimas „Resource“. Tai yra nuoroda į vietą kur duomenys yra saugomi (duomenų bazė, lentelė ar kt.)

Nuorodos:
Daugiau apie duomenų šaltinį: https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#duomenu-saltinis
https://youtu.be/zWUx_FV7qm0 
19.   Duomenų struktūros aprašas - vardų erdvės Duomenų struktūros apraše turi būti įvardinami duomenų rinkiniai. Kiekvienas duomenų rinkinys turi turėti unikalų pavadinimą ir tą unikalumą užtikrina vardų erdvės.

Nuorodos:
Plačiau apie vardų erdves: https://atviriduomenys.readthedocs.io/dsa/formatas.html#vardu-erdves  
https://youtu.be/y59-aKac8H8 
20.   Duomenų struktūros aprašas – duomenų prieigos lygiai (access) Nuorodos:
Plačiau apie duomenų prieigos lygius: https://atviriduomenys.readthedocs.io/dsa/access.html#access
https://youtu.be/laJ8lNLPDTg 
21.   Duomenų struktūros aprašas – formulės filtras (prepare) Stulpelis „prepare“ duomenų struktūros apraše naudojamas aprašyti formules. Pvz. vienas iš panaudojimo atveju gali būti filtras jeigu norima atverti ne visas, o tik tas lentelės eilutes, kurios atitinka model.prepare įrašytą sąlygą.

Nuorodos:
Kam skirtas prepare stulpelis: https://atviriduomenys.readthedocs.io/dsa/formatas.html#prepare
Plačiau apie formules: https://atviriduomenys.readthedocs.io/dsa/formules.html# 
https://youtu.be/oGjjixOsKSc 
22.   Duomenų struktūros aprašas – asmens duomenys ir duomenų nuasmeninimas Asmens duomenims apsaugoti reikalingas nuasmeninimas, kuriuo siekiama panaikinti tapatybės atsekimo galimybę.
Plačiau apie asmens duomenis: https://atviriduomenys.readthedocs.io/asmens-duomenys.html

Asmenį identifikuojančius duomenis fiksuoti duomenų struktūros apraše naudojamas The Person Core žodynas ir Pii žodynas, kuriuos galima rasti šiuo adresu: https://atviriduomenys.readthedocs.io/asmens-duomenys.html#asmeni-identifikuojantys-duomenys. Šio žodyno elementai naudojami URI stulpelyje duomenų struktūros apraše.

SVARBU: šių žodynų naudojimas nėra duomenų nuasmeninimas, bet darant nuasmeninimą, jie nurodo kurioje vietoje yra asmens duomenys.
https://youtu.be/IaIvb2WrDGg 
23.   Duomenų struktūros aprašas – išorinių žodynų prefix

Prefixai duomenų struktūros apraše naudojami susiejimui su išoriniu žodynu. Susiejimas su išoriniu žodynu kelia duomenų brandos lygį.

Nuorodos:
Daugiau apie prefixus: https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#isoriniu-zodynu-prefiksai

 

Nuoroda į žodynų katalogą: https://lov.linkeddata.es/dataset/lov

https://youtu.be/jlxDeRIueiM 
24.   Duomenų struktūros aprašas – duomenų brandos lygis (level) Duomenų brandos lygiai:
1.       0 – duomenų nėra
2.       1 – duomenys be aiškios struktūros, pvz. data duomenų šaltinio lentelėje užrašyta nestandartiškai ir skirtingai atskiruose laukuose.
3.       2 – nestandartinio formato duomenys, pvz. data duomenų šaltinio lentelėje užrašyta nestandartiškai, bet visuose laukuose vienodai. Kitas pavyzdys, kai duomenys atveriami standartiniu formatu (CSV, XML, JSON ir kt.).
4.       3 – duomenys be identifikatorių, pvz. data duomenų šaltinio lentelėje užrašyta pagal ISO standartą.
5.       4 – duomenys naudoja nestandartinį žodyną, pvz. datos laukas yra susietas su kitu objektu ir yra unikalus identifikatorius, t.y. jeigu užpildytas ref stulpelis, tai reiškia, kad yra siejama su kitu objektu ir brandos lygis kyla iki 4.
6.       5 – aukščiausio brandos lygio duomenys, pvz. datos laukas susietas su išoriniu žodynu, kuriame paaiškinama kaip ir kur tas laukas yra naudojamas.

Nuorodos:
Plačiau apie brandos lygius: https://atviriduomenys.readthedocs.io/dsa/level.html
Apie brandos lygio kėlimą: https://atviriduomenys.readthedocs.io/brandos-lygio-kelimas/index.html
https://youtu.be/JaNwws0Ugos 
25.   Duomenų struktūros aprašas – enum tipo (kategoriniai) duomenys  Enum tipas naudojamas kategoriniams duomenims aprašyti duomenų struktūros apraše. Kai šaltinio laukelis gali būti daugiau nei viena reikšmė, naudojant enum tipą „source“ stulpelyje nurodome galimas reikšmes ir „prepare“ stulpelyje nurodome reikšmes, kurias norime matyti atvėrus duomenis.

Nuorodos:
Plačiau apie Enum tipą: https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#id0
https://youtu.be/S7hXKqPDGRM 
26.   Duomenų struktūros aprašas – duomenų identifikatoriai Kiekvienas publikuojamų duomenų objektas turi unikalų identifikatorių, kuris naudojamas apjungiant skirtingų tipų objektus tarpusavyje.

Nuorodos:
Daugiau informacijos: https://atviriduomenys.readthedocs.io/savokos.html#term-brandos-lygis

https://atviriduomenys.readthedocs.io/dsa/ref.html

https://youtu.be/3fMvmnKo1tU 
27.   Ryšiai tarp lentelių ir duomenų normalizavimas

Šioje dalyje paaiškinama kaip apjungti dvi lenteles.

Verta pastebėti, kad pateikti jau apjungtas lenteles nėra tikslinga. Išskaidytos lentelės suteikia duomenų naudotojams daugiau lankstumo. Jeigu lentelės pirminiame šaltinyje yra jau apjungtos, tai galima jas išskaidyti ir toks procesas vadinamas duomenų denormalizavimu. Priešingai, lentelių apjungimo procesas vadinamas duomenų normalizavimu.

Nuorodos:
Plačiau apie lentelių (modelių) ryšius: https://atviriduomenys.readthedocs.io/dsa/ref.html

Plačiau apie normalizavimą: https://atviriduomenys.readthedocs.io/savokos.html#term-normalizavimas

Ir https://atviriduomenys.readthedocs.io/brandos-lygio-kelimas/5.html#normalizavimas

https://youtu.be/sf88VQqA5u4