Sąvokos#
- TGIĮ#
Teisės gauti informaciją ir duomenų pakartotinio naudojimo įstatymas.
Šis įstatymas įpareigoja valstybės ir savivaldybių institucijas ir joms pavaldžius subjektus atverti duomenis.
Kelios citatos iš įstatymo:
4 straipsnis
1. Institucijos ir valstybės valdomi subjektai privalo teikti pareiškėjams ar jų atstovams duomenis, įskaitant pakartotiniam naudojimui skirtus duomenis, išskyrus šio įstatymo ir kitų įstatymų nustatytus atvejus.
15 straipsnis
1. Visi institucijos ar valstybės valdomo subjekto duomenys turi būti inventorizuoti laikantis principo, kad duomenys gali būti skelbiami pakartotinai naudoti, jeigu tai neprieštarauja šiam ir kitiems įstatymams. Inventorizuotų duomenų sąrašas turi būti skelbiamas Lietuvos atvirų duomenų portale.
2. Institucijos ir valstybės valdomi subjektai turi sudaryti duomenų, dėl kurių yra pateiktos užklausos Lietuvos atvirų duomenų portale arba kurių pakartotinis naudojimas, institucijos ir valstybės valdomo subjekto vertinimu, gali kurti pridėtinę vertę, rinkinius ir juos skelbti šiame portale, jeigu tai neprieštarauja šiam ir kitiems įstatymams.
17 straipsnis
1. Lietuvos atvirų duomenų portalas yra valstybės informacinė sistema, skirta duomenų rinkiniams ir jų metaduomenims sisteminti ir skelbti naudojant vienodą metaduomenų aprašymo formatą, taip pat vieno langelio principu institucijų ir valstybės valdomų subjektų sudarytiems duomenų rinkiniams ir jų metaduomenims ieškoti, peržiūrėti, parsisiųsti, pareiškėjų užklausoms registruoti ir kitoms paslaugoms, susijusioms su šios informacinės sistemos paskirtimi, teikti.
5. Institucijos ir valstybės valdomi subjektai privalo užtikrinti, kad inventorizuotų duomenų sąrašai ir sudaryti duomenų rinkiniai Lietuvos atvirų duomenų portale bus surasti ir pasiekiami šio portalo tvarkytojo nustatyta tvarka ir priemonėmis.
18 straipsnis.
Pareiškėjo teisės gali būti ginamos šiais būdais:
1) pareiškėjas turi teisę apskųsti institucijos veiksmus, neveikimą ar administracinį sprendimą, taip pat institucijos vilkinimą atlikti jos kompetencijai šiuo įstatymu priskirtus veiksmus Viešojo administravimo įstatymo nustatyta tvarka;
2) pareiškėjas turi teisę apskųsti valstybės valdomo subjekto veiksmus ar neveikimą, taip pat valstybės valdomo subjekto vilkinimą atlikti jo kompetencijai šiuo įstatymu priskirtus veiksmus tam pačiam valstybės valdomam subjektui arba bendrosios kompetencijos teismui.
- Europos sąveikumo karkasas#
Rekomendacijų rinkinys apie tai, kaip užtikrinti didesnį skaitmeninį sąveikumą tarp Europos šalių.
Rekomendacijų sąrašas:
2. Publish the data you own as open data unless certain restrictions apply.
3. Ensure a level playing field for open source software and demonstrate active and fair consideration of using open source software, taking into account the total cost of ownership of the solution.
41. Establish procedures and processes to integrate the opening of data in your common business processes, working routines, and in the development of new information systems.
42. Publish open data in machine-readable, non-proprietary formats. Ensure that open data is accompanied by high quality, machine-readable metadata in non-proprietary formats, including a description of their content, the way data is collected and its level of quality and the licence terms under which it is made available. The use of common vocabularies for expressing metadata is recommended.
43. Communicate clearly the right to access and reuse open data. The legal regimes for facilitating access and reuse, such as licences, should be standardised as much as possible.
44. Put in place catalogues of public services, public data, and interoperability solutions and use common models for describing them.
45. Where useful and feasible to do so, use external information sources and services while developing European public services.
2019 m. birželio 20 d. Europos Parlamento ir Tarybos direktyva (ES) 2019/1024 dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo.
2020 m. lapkričio 25 d. Europos Parlamento ir Tarybos reglamento (ES) pasiūlymas 2020/0340 dėl Europos duomenų valdymo (Duomenų valdymo aktas).
- aplinkos kintamasis#
Angliškai tai vadinama environment variables, tai yra operacinės sistemos aplinkos kintamieji.
Plačiau apie tai skaitykite Vikipedijoje.
- ADP#
Atvirų duomenų portalas, sudarytas iš atvirų duomenų katalogo ir duomenų saugyklos.
- ADK#
Lietuvos atvirų duomenų katalogas, prieinamas adresu data.gov.lt.
Lietuvos duomenų portalo sudedamoji dalis, skirta metaduomenims apie duomenų šaltinius registruoti.
Duomenų katalogas prieinamas adresu data.gov.lt.
- ADS#
Atvirų duomenų saugykla, skirta pakartotinio panaudojimo duomenų publikavimui, valstybinė atvirų duomenų saugykla pasiekiama get.data.gov.lt adresu.
- DSA#
Duomenų struktūros aprašas yra lentelė, kurioje išsamiai aprašyta tam tikro duomenų šaltinio duomenų struktūra. DSA lentelę sudaro penkios dimensijos (duomenų rinkinys, resursas, bazė, modelis, savybė) ir dešimt metaduomenų stulpelių.
- ADSA#
DSA lentelė, kurioje aprašomi jau atverti ir viešai prieinami duomenys.
- ŠDSA#
DSA lentelė, kurioje aprašoma neatvertų, pirminio duomenų šaltinio duomenų struktūra.
- didelės vertės duomenys#
- aukštos vertės duomenys#
Duomenys apibrėžti atvirų duomenų direktyvos 5 skyriuje.
Aukštos vertės duomenų sritys yra šios:
Geoerdviniai duomenys
Aplinka ir žemės stebėjimai
Meteorologiniai duomenys
Statistika (demografiniai ir ekonominiai rodikliai)
Įmonės ir įmonių savininkai
Judumas
- BDAR#
2016 m. balandžio 27 d. Europos Parlamento ir Tarybos reglamentas (ES) 2016/679 dėl fizinių asmenų apsaugos tvarkant asmens duomenis ir dėl laisvo tokių duomenų judėjimo ir kuriuo panaikinama Direktyva 95/46/EB (Bendrasis duomenų apsaugos reglamentas).
Duomenys gali būti serializuojami įvairiais formatais, pavyzdžiui YAML formatu:
type: project title: Manifestas
JSON formatu:
{"type": "project", "title": "Manifestas"}
Turtle formatu:
@prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . <http://atviriduomenys.lt> a foaf:Project; rdfs:label "Manifestas" .
MessagePack dvejetainiu formatu, kurio turinys pateiktas naudojant BASE64 koduotę:
gqR0eXBlp3Byb2plY3SkbmFtZapNYW5pZmVzdGFz
Visuose šiuose pavyzdžiuose yra pateikti tie patys duomenys, tačiau naudojami skirtingi duomenų serializavimo formatai, koduotės ir skirtingi žodynai.
- brandos lygis#
Duomenų brandos lygiai yra apibrėžti 5 ★ Open Data svetainėje. Viso yra penki brandos lygiai, tačiau papildomai verta įtraukti ir nulinį brandos lygį, kai duomenų poreikis yra, tačiau duomenys nekaupiami arba negali būti publikuojami dėl teisinių ar kitų apribojimų.
5 ★ Open Data svetainėje brandos lygia apibrėžti, kaip pavyzdį nurodant formatus. Nors formatus galima naudoti kaip pavyzdį labai abstrakčiai apibūdinant ką reiškia brandos lygiai, tačiau tikslus brandos lygis gali būti suteiktas tik atskiriems duomenų laukams, o ne formatui.
Duomenų brandos lygiai yra tokie:
- 0
Duomenys nekaupiami, tačiau poreikis tokiems duomenims yra. Gali būti ir tokių atvejų, kai duomenys yra kaupiami, tačiau dėl teisinių ar kitų priežasčių negali būti publikuojami.
- 1
Duomenys kaupiami ir publikuojami viešai, bet kokia forma ir bet kokiu formatu. Pavyzdžiui datos tipo laukas gali būti pateikiamas įvairiais formatais „Pirmadienis“, „2021 gegužės 10 d.“, „5/10/21“ ir pan. Kadangi šiuo atveju data gali būti užrašyta bet kokia forma ir bet kokiu tikslumu, nėra galimybės automatinėmis priemonėmis patikimai nuskaityti tokių duomenų.
- 2
Publikuojami duomenys turi aiškią, mašininiu būdu nuskaitomą struktūrą, tačiau pateikiami nestandartiniu arba nuosavybiniu formatu. Pavyzdžiui datos tipo lauko duomenys pateikiami nestandartiniu formatu, tačiau visos reikšmės pateiktos naudojant tą patį formatą, „5/10/21“, „6/10/21“ ir pan. Šiuo atveju, automatiškai nuskaityti tokius duomenis įmanoma tik papildomai įgyvendinant duomenų nuskaitymo priemones, kuriose yra įgyvendintas būtent tokio nestandartinio formato duomenų skaitymas.
- 3
Duomenys pateikiami naudojant standartinį formatą. Lietuvos atvirų duomenų kontekste, standartiniai formatai yra apibrėžti duomenų struktūros aprašo specifikacijoje. Pavyzdžiui datos tipo lauko duomenys pateikiami standartiniu ISO 8601 formatu. Kadangi duomenys yra pateikti standartiniu formatu, pačio formato specifikacija yra atvira ir viešai publikuojama, o duomenų nuskaitymo priemonės tokį atvirą formatą palaiko, todėl tokių duomenų nuskaitymui nereikia įdėti jokio papildomo darbo.
- 4
Kiekvienas publikuojamų duomenų objektas turi unikalų identifikatorių ir naudojant tokius unikalius objektų identifikatorius, skirtingų tipų objektai siejami tarpusavyje. Kartu su duomenimis pateikiami ir metaduomenys apie tai, kaip skirtingų tipų objektai siejasi tarpusavyje.
Pavyzdžiui miesto tipo objektui „Vilnius“ yra suteiktas unikalus identifikatorius 6868eca7-0ae1-4390-83d0-7af642a62863, o šalies tipo objekto „Lietuva“ duomenų lauko „sostinė“ reikšmė yra objekto „Vilnius“ unikalus identifikatorius 6868eca7-0ae1-4390-83d0-7af642a62863.
Turint tokį brandos lygį, duomenis galima ne tik nuskaityti, bet ir jungti tarpusavyje, o jungiant skirtingus duomenis tarpusavyje atsiveria daugiau galimybių juos naudoti įvairiuose taikymuose.
- 5
Kartu su publikuojamais duomenimis, pateikiami ir metaduomenys apie tai, kaip publikuojami duomenys siejasi su kitais viešaisiais duomenų žodynais (ontologijomis). Pavyzdžiui datos duomenų laukas yra susiejamas su „Dublin Core Metadata Initiative“ publikuojama ontologija, nurodant, kad datos lauko semantinė prasmė yra tokia pati, kaip apibrėžta dcterms:created ontologijoje. Šiuo atveju, nurodoma, kad datos laukas būtent yra tam tikro resurso sukūrimo data.
Kai duomenys yra susieti su išoriniais žodynais, atsiranda galimybė įgyvendinti tokias priemones, kurios veiktų universaliai, nepriklausomai nuo duomenų šaltinio ar duomenų kilmės.
- kanoniniai duomenys#
Kanoniniai duomenys yra tarsi duomenų etalonas, kuris nusako kokios duomenų reikšmės yra teisingos. Pavyzdžiui įmonės pavadinimas gali būti užrašomas įvairiausiomis formomis, pavyzdžiui:
Įmonės kodas
Įmonės pavadinimas
-
UAB "Duomesta"
-
UAB „Duomesta“
-
Duomesta
-
DUOMESTA
-
Uždaroji akcinė bendrovė Duomesta
-
Duomesta, UAB
-
DSTA UAB
Jei duomenų rinkinyje nėra pateiktas įmonės registracijos kodas, tada unikaliai identifikuoti įmonę yra gan sudėtinga.
Tačiau turint autoritetingus kanoninius duomenis:
Įmonės kodas
Įmones pavadinimas
111111111
UAB "Duomesta"
Užduotis unikaliai identifikuoti įmonę pasidaro paprastesnė. Todėl kanoniniai duomenys yra labai svarbūs.
- kodinis pavadinimas#
Pavadinimas, kuriam keliami tam tikri apribojimai.
- manifestas#
Atvirų duomenų manifestas yra DSA lentelių rinkinys, kuriuose aprašyti duomenų šaltiniai ir juose esančių duomenų struktūra.
Žodis manifestas yra kilęs iš programavimo srityje naudojamo termino Manifesto failas, kuriame pateikiami metaduomenys apie programinio paketo sandarą.
Duomenų kontekste, žodis manifestas turėtu būti suprantamas, kaip metaduomenų lentelė apie įvairiuose duomenų šaltiniuose publikuojamus duomenis.
- metaduomenys#
Duomenys apie duomenis yra vadinami metaduomenimis. Pavyzdžiui duomenų struktūros aprašas konkrečiam CSV duomenų failui gali būti vadinamas CSV failo metaduomenimis.
- normalizavimas#
Duomenų normalizavimas yra duomenų struktūros transformavimo procesas taikant taip vadinamas normalines formas, tam kad sumažinti duomenų pasikartojimą.
Plačiau apie tai skaitykite Vikipedijoje.
- prieigos taškas#
Prieigos taškas yra REST API terminas, nurodantis URL kelio dalį iki tam tikro resurso.
Plačiau skaitykite Vikipedijoje.
- REST API#
Representational State Transfer (REST) yra taisyklių ir rekomendacijų rinkinys sirtas web servisams kurti.
Plačiau skaitykite Vikipedijoje.
- web servisas#
Web servisas yra interneto paslauga skirta automatizuotiems robotams. Interneto svetainės dažniausiai yra skirtos žmonėms, tačiau web servisai yra skirti mašinoms, kurios gali komunikuoti viena su kita.
Plačiau skaitykite Vikipedijoje.
- YAML#
YAML yra duomenų serializavimo formatas, kuris skirtas ne tik mašininiam skaitymui, bet su šio formato turiniu tiesiogiai gali dirbti ir žmogus. YAML formato pavyzdys:
container: name: value
YAML yra sukurtas JSON formato pagrindu, siekant palengvinti darbą su JSON serializuotais duomenimis žmonėms. Analogiškas pavyzdys JSON formatu atrodo taip:
{"container": {"name": "value"}}
- viešasis žodynas#
Viešieji žodynai, dar vadinami ontologijomis, šie žodynai dažnai yra gerai dokumentuoti ir skelbiami viešai, jie yra skirti globaliam susietųjų duomenų tinkui kurti (angl. linked data).
- sisteminis pavadinimas#
Sisteminis pavadinimas yra naudojamas objektų identifikavimui ir yra naudojamas URL nuorodose ir visur kitur, kur reikia nurodyti ryšį su objektu, naudojamas to objekto sisteminis pavadinimas.
Sisteminis pavadinimas sudaromas tik iš lotyniškų raidžių ir -_/ simbolių.
Įstaigos ar kitos organizacijos pagrindinis duomenų šaltinis.
- DCAT#
Duomenų katalogo žodynas (angl. Data Catalog Vocabulary) yra standartas skirtas duomenų rinkiniams aprašyti. Aprašant duomenis DCAT standartu reikėtų vadovautis DCAT-AP specifikacijomis.
- DCAT-AP#
DCAT-AP (DCAT Application Profile) yra specifikacija, detalizuojanti DCAT naudojima, nurodant kurios DCAT klasės ir savybės yra privalomos, kurios rekomenduojamos ir kaip jas naudoti.
- dimensija#
Dimensija yra metaduomenų, aprašomų DSA lentelėje, grupė. DSA lentelėje metaduomenys skirstomi į tokias dimensijas:
duomenų rinkinys
resursas
bazė
modelis
savybė
Kiekviena dimensija turi skirtingą metaduomenų detalumo lygį.
Plačiau apie dimensijas: Dimensijos.
Duomenų rinkinys apibrėžia turimus arba pageidaujamus duomenis, reikalingus konkrečios organizacijos, konkrečiai veiklai vykdyti.
Duomenų rinkinys gali būti registras, informacinės sistemos duomenų bazė, interneto svetainės duomenų bazė, skaičiuoklės lentelė, dokumentų katalogas arba duomenys, kurie dar nėra kaupiami, tačiau yra reikalingi tam tikrai veiklai vykdyti.
Duomenų rinkinio fizinė reprezentacija, tai yra patys duomenys yra vadinami distribucija. Duomenų rinkinyje gali būti daugiau nei viena distribucija, jei fiziškai duomenys yra suskaidyti pagal vietos, laiko, detalumo, struktūros elementus, natūralios kalbos ar kitus kriterijus.
Dažnai duomenų rinkinys painiojamas su distribucija. Duomenų rinkinys apibrėžia tam tikrą grupę duomenų, kurie nebūtinai fiziškai egzistuoja, tuo tarpu distribucija yra fiziniai duomenys įeinantys į duomenų rinkinio sudėtį.
Duomenų rinkiniai neskaidomi pagal vietos, laiko, detalumo, struktūros ar kitus kriterijus.
Plačiau apie tai, kaip duomenų rinkiniai aprašomi duomenų struktūros apraše skaitykite skyriuje dataset.
Duomenų rinkinys atitinka dcat:Dataset apibrėžimą.
- distribucija#
Distribucija yra duomenų rinkinio fizinė reprezentacija. Vienas duomenų rinkinys gali būti sudarytas iš kelių distribucijų, tuos pačius duomenis pateikiant skirtingais formatais, suskaidant duomenis pagal laiko, vietos ar kitus kriterijus, tuos pačius duomenis pateikiant skirtingu detalumu arba pateikiant agreguotus duomenis įvairiais pjūviais.
Duomenų struktūros aprašo kontekste, distribucija yra tas pats, kas resource.
Distribucija atitinka dcat:Distribution apibrėžimą.
- bazė#
Bazė arba loginė klasė yra modelių grupė turinčių bendras savybes ir vienodą semantinę prasmę.
Dažnai skirtingų organizacijų veikloje naudojami duomenų rinkiniai turi vienodą semantinę prasmę. Pavyzdžiui, daugelis organizacijų turi naujienų duomenis. Norint visų organizacijų naujienų duomenis aprašyti vieningai, galima pasitelkti vieną bazę, arba vieną duomenų rinkinį, kurio struktūrą naudoja visi kiti rinkiniai. Tai bazė būtent ir būtų struktūros šablonas pagal kurį būtų sudaromos visų kitų analogiškų rinkinių struktūros.
Bazė yra tas pats, kas modelis arba tiksliau modelio šablonas.
Duomenų struktūros aprašo kontekste apie bazę plačiau skaitykite skyriuje base.
- modelis#
Modelis yra gan plati sąvoka turinti daug prasmių, priklausomai nuo konteksto. Šioje dokumentacijoje, modelis yra duomenų struktūros aprašo dalis leidžianti aprašyti duomenis pateiktus įvairiais formatais.
Tiksli modelio prasmė priklauso nuo duomenų šaltinio, kurio duomenys yra aprašomi:
CSV failo atveju, modelis yra CSV faile esanti lentelė,
Excel failo atveju, modelis yra kiekviena lentelė (arba lapas) esanti Excel faile,
SQL duomenų bazių atveju, modelis yra viena duomenų bazės lentelė,
JSON dokumento atveju, modelis yra kiekvienas masyvas esantis JSON dokumente,
XML atveju, modelis yra kiekvienas elementų masyvas esantis XML faile.
Duomenų rinkiniai aprašo konkretaus autoriaus duomenis, skirtingi autoriai gali naudoti tuos pačius duomenis, todėl duomenys skirtinguose rinkiniuose gali dubliuotis. Tuo tarpu modeliai aprašo duomenis pagal jų semantinę prasmę, nepriklausomai nuo autoriaus, tai leidžia apjungti skirtingų autorių naudojamus duomenis, pagal jų semantinę prasmę, modelių pagalba.
DSA lentelėje atitinka
model
. Duomenų modelį atitinkanti fizinė reprezentacija nurodomasource
stulpelyje.source
gali būti duomenų bazės lentelė, CSV failas ar kita, priklauso nuo duomenų šaltinio tipo. Sąsaja su išoriniais žodynais pateikiamauri
stulpelyje. Siejant su išoriniais žodynais, pateikiama nuoroda į rdfs:Class.- savybė#
Duomenų modeliui priklausančių informacinių objektų savybė, pavyzdžiui miesto pavadinimas, šalis kuriai priklauso miestas. DSA lentelėje atitinka
property
. Atitinka rdfs:Property arba lentelės stulpelį.- subjektas#
Subjektas lietuvių kalboje vadinamas veiksniu, duomenų kontekste įvardija objektą apie kurį eina kalba.
Tarkime saknyje „Namas turi stogą“ subjektas yra Namas, todėl, kad kalba eina apie namą.
- objektas#
Vienas duomenų įrašas sudarytas iš savybių ir savybėms priskirtų reikšmių. Informacinis objektas turi turėti unikalų identifikatorių. Atitinka rdfs:Resource arba lentelės vieną eilutę.
Plačiau apie objektą: Objektas.
- žodynas#
Duomenų kontekste, žodynas yra susitarimas, kokiais pavadinimais vadinami objektai ir jų savybės. Dažniausiai kiekvienas duomenų rinkinys turi savo vidinį naudojamą žodyną, visas Lietuvos atvirų duomenų modelis turi savo vidinį žodyną, kuris suvienodina skirtingus duomenų rinkinių naudojamus žodynus. Yra viešieji žodynai, dar vadinami ontologijomis, kurie yra skelbiami viešai ir skirti globaliam susietųjų duomenų tinklui kurti.
Duomenų kontekste, žodynas yra tiesiog modelių ir savybių pavadinimų rinkinys. Skirtingi duomenų šaltiniai dažniausiai naudoja skirtingus žodynus, t.y. naudoja skirtingus modelių ir savybių pavadinimus.
Duomenų struktūros aprašas leidžia skirtinguose duomenų šaltiniuose naudojamus pavadinimus suvienodinti, taip, kad visi šaltiniai naudotų vieningą žodyną.
Vieningo žodyno sudarymas yra gan sudėtinga užduotis, todėl, DSA leidžia prie vieningo žodyno pereiti palaipsniui:
pirmiausia sudaromas vieno duomenų rinkinio žodynas,
kuris palaipsniui transformuojamas į Lietuvos vieningą žodyną,
o Lietuvos vieningas žodynas palaipsniui transformuojamas į globalų žodyną, nurodant sąsajas su išoriniais žodynais ir standartais.
Žodynai sudaromi pasitelkiant vardų erdves.
- API#
Programavimo sąsaja (angl. Application Programming Interface).
Resursas, kuriame saugomi duomenys. Toks resursas tampa duomenų šaltiniu, kai tokius duomenis norima pakartotinai panaudoti, tokiu atveju, iš pakartotinio panaudojimo perspektyvos toks resursas tampa duomenų šaltiniu.
- ETL#
Duomenų ištraukimas, transformavimas ir užkrovimas (angl. Extract Transform Load).
- iteratorius#
Tam tikra funkcija, kuri grąžina keletą elementų, tačiau ne visus iš karto, o po vieną.
- URI#
Universalus resurso identifikatorius (angl. Universal Resource Identifier).
- POSIX#
Universali operacinių sistemų sąsaja (angl. Portable Operating System Interface) - standartas apibrėžiantis operacinių sistemų sąsają, kad skirtingos operacinės sistemos būtų suderinamos tarpusavyje.
- DOS#
- reguliarioji išraiška#
Simbolių seka apibrėžianti tam tikrą šabloną tekste (angl. Regular Expression).
- JSON#
Atviras duomenų formatas (angl. JavaScript Object Notation).
- RDF#
Duomenų modelis sudarytas iš subjekto, predikato ir objekto tripletų (angl. Resource Description Framework).
- IVPK#