Kovo 7–13 d. minime Tarptautines atvirųjų duomenų dienas. Ta proga kalbiname vieną iš 2025 m. skatinimo už reikšmingą indėlį į atvirąjį mokslą konkurso laureatų, Fizikos fakulteto mokslo darbuotoją dr. Mindaugą Šarpį, kuris savo darbu prisidėjo prie 1 petabaito atvirųjų dalelių fizikos duomenų sukūrimo. Kalbamės apie egzotiškų subatominių dalelių paieškas, darbą jau legenda tapusioje Europos branduolinių tyrimų organizacijoje (CERN) ir apie tai, kodėl mokslui nereikia bijoti atvirumo.
Kaip apibūdintumėte savo mokslinių tyrimų sritį, ir kaip atrodo Jūsų, kaip tyrėjo, darbo kasdienybė?
Mokslo sritis, kurioje dirbu pastaruosius dvylika metų – eksperimentinė dalelių fizika. Kalbant konkrečiau, aš tyrinėju pentakvarkus. Tai – dar mažai kam pažįstamos egzotinės dalelės, kurių egzistavimas galutinai įrodytas tik 2015 m. Kalbant apie mano darbo kasdienybę, nemažą jo dalį sudaro programavimas ir didelių duomenų analizė. Taigi, mano darbas tam tikra prasme panašus į duomenų mokslininko; tik tiek, kad mano atliekama analizė siekia aptikti fizikinius reiškinius, o analizuojami duomenys atkeliauja iš fizikos eksperimentų.
Jūs dirbate ne tik Vilniaus universitete, bet ir CERN (Europos branduolinių tyrimų organizacijoje). Beveik kiekvienas yra kažką girdėjęs apie šią organizaciją. Kaip susiformavo legendinė CERN reputacija?
CERN yra unikali vieta, kurioje fundamentaliems tyrimams susitelkė įvairios Europos šalys. 1953 m., kai buvo įkurta organizacija, valstybių narių buvo 12, dabar 23, bet visa Europa ir netgi Amerika prisideda. Apskritai CERN gali egzistuoti tik dėl to, kad ji yra viso pasaulio bendra laboratorija. Daugelio šalių resursų sutelkimas leidžia CERN turėti tokio dydžio ir sudėtingumo infrastruktūrą, kokios jokia atskira valstybė negalėtų pasiūlyti. Pavyzdžiui, CERN priklausantis Didysis hadronų priešpriešinių srautų greitintuvas (Large Hadron Collider, LHC) yra didžiausias žmogaus sukurtas įrenginys istorijoje. Galime tik džiaugtis, kad šis įrenginys tarnauja ne karo pramonei, o fundamentaliems tyrimams, kurie padeda atskleisti visatos kilmę ir sąrangą. Būtent dėl to CERN yra tokia unikali. Tik suvienijus jėgas galima įgyvendinti tokio mastelio projektą.
Beje, kalbėdamas apie resursų sutelkimą, nebūtinai kalbu apie pinigus. Yra universitetų, kurių metinis biudžetas daug didesnis už CERN, bet tiek ekspertinių žinių, infrastruktūros elementų ir inžinerinio išmanymo nėra sutelkta jokioje kitoje pasaulio valstybėje ar institucijoje. CERN pritraukia ne vien dalelių fizikos specialistus: ten reikalingi ir geriausi pasaulyje kriogenikos inžinieriai, nes viskas atšaldoma beveik iki absoliutinio nulio; ten reikia dujų srautus išmanančių inžinierių, nes CERN įrenginiams reikalingi 9 tūkst. kubinių metrų vakuumo, švaresnio už atviro kosmoso vakuumą; taip pat reikalingi specialistai, atsakingi už duomenų centrus ir kompiuterinių procesų optimizavimą. Tokioje unikalioje terpėje žmonės įgyja labai aukštas kompetencijas, o iš to gali atsirasti ir netikėtų dalykų, peržengiančių dalelių fizikos ribas. Geriausias to pavyzdys – saitynas (World Wide Web), kuris atsirado kaip šalutinis CERN veiklos produktas. Be jo dabar nebeįsivaizduojame savo gyvenimo. Dar vienas, naujesnis pavyzdys – pozitronų emisijos tomografija. Ji atsirado paaiškėjus, kad CERN eksperimentų metu atrasti principai gali būti pritaikyti medicinos diagnostikoje.

LHCb magnetas, skirtas dalelių trajektorijoms kreipti. CERN nuotrauka.
Pakalbėkime apie duomenis. Kaip gimsta ir kaip atrodo duomenys, su kuriais dirbate?
Duomenys, su kuriais dirbu, surenkami CERN tyrimų laboratorijoje Ženevoje, Šveicarijos ir Prancūzijos pasienyje. Šios laboratorijos didžiausias instrumentas, Didysis hadronų priešpriešinių srautų greitintuvas, yra įrengtas 100 metrų po žeme, o jam skirtas tunelis kerta tiek Šveicarijos, tiek Prancūzijos teritorijas. Duomenis renka ant greitintuvo išdėstyti detektoriai. Tai didžiulėse požeminėse erdvėse įrengti 6 aukštų pastato dydžio moksliniai aparatai. Skirtingi subdetektoriai, kartais netgi atskiri jų komponentai, turi skirtingas fizikines paskirtis. Kai kurie subdetektoriai yra palyginti nedideli ir matuoja mikronų tikslumu, o kiti yra daugiau nei 100 kvadratinių metrų ploto ir dirba gerokai mažesniu tikslumu. Nepaisant dydžio ir funkcijos skirtumų, visi detektoriai ir subdetektoriai veikia sinchronizuotai, kaip viena visuma. Jie fiksuoja dalelių susidūrimus arba, jei naudotume CERN tyrėjų žargoną, „įvykius“. Tokių įvykių per sekundę įvyksta nuo 40 iki 600 mln. Įdomu tai, kad atskiri įvykiai tarpusavyje visiškai nesusiję, o juose gaunami duomenys yra maksimaliai atsitiktiniai (t. y. iš anksto neįmanoma nuspėti, kas įvyks kiekvieno susidūrimo metu). Dėl šios priežasties CERN stengiasi užfiksuoti kuo daugiau įvykių. Greitintuvas laikomas nuolat įjungtas, ir sustabdomas tik kai reikia jame atlikti kokius nors techninės priežiūros darbus.
Užfiksavus susidūrimo įvykį, nanosekundžių tikslumu užrašomas jo laikas ir jam suteikiamas unikalus identifikacijos numeris. Registruojamas ne tik pats įvykio faktas, bet ir daug kitos skirtingos informacijos – užrašomi įvairūs po susidūrimo aptikti signalai ir vertės. Jais remiantis, vėliau bus galima kelti hipotezes apie susidūrimo metu susidariusias daleles. Tokių vienam susidūrimui papildomai užfiksuotų parametrų gali būti tūkstančiai: vien LHCb detektorius per sekundę sugeneruoja maždaug po 5 terabaitus duomenų. Šviežiai surinkti duomenys siunčiami į duomenų centrus, kur pereina įvairius filtravimo žingsnius. Pagal tai, kiek apdorojimo žingsnių buvo atlikta, CERN skirsto duomenis į keturis lygius.
Kuo šie lygiai skiriasi tarpusavyje?
Pirmo lygio duomenys – tai duomenys, gauti tiesiai iš detektoriaus. Dažnai tai būna analoginiai signalai, kurie tik vėliau suskaitmeninami. Pirmo lygio duomenys yra labai specifiniai ir yra suprantami tik nedaugeliui žmonių.
Antro lygio duomenys – tai pirmieji išvestiniai duomenys, gauti apdorojant detektoriaus signalus. Įsivaizduokite, kad įvykio metu susidariusi dalelė tam tikruose taškuose kirto skirtingas detekcijos plokštumas. Sujungę šiuos taškus gauname dalelės judėjimo trajektoriją, vadinamąjį treką. Taigi, antro lygio duomenyse matomi ne tik kažkokie, rodos, nieko bendro tarpusavyje neturintys signalai, bet ir rekonstruoti dalelių trekai, kurie leidžia daryti pirmąsias prielaidas apie užfiksuotų dalelių rūšį. Toliau naudodami įvairius pažangius algoritmus, padedančius atidengti vis naujus duomenų sluoksnius – tarsi lupdami svogūną – mes palaipsniui aiškinamės, kas iš tiesų įvyko dalelių susidūrimo metu.
Trečio lygio duomenyse dalelės jau rekonstruotos. Tai – analizei paruošti duomenys, kuriuose liko tik išgryninti fizikiniai parametrai. Trečio lygio duomenys vis dar yra labai didelės apimties ir yra pateikiami CERN specifiniais duomenų formatais, bet pasistengęs juos jau galėtų analizuoti net ir su CERN eksperimentais nedirbantis, bet fiziką išmanantis tyrėjas.
Ketvirtą lygį sudaro specialiai apdoroti, dažniausiai mokymo tikslams skirti duomenų rinkiniai. Juose viskas labai paprasta, jie pateikiami plačiai naudojamais formatais, o jiems analizuoti užtenka tokių standartinių įrankių kaip, pavyzdžiui, Python programavimo kalba. Ketvirto lygio duomenys yra tokie išvestiniai, kad jie visai nepanašūs į tai, kas atkeliavo iš detektoriaus. Vis tik net ir tokiais atvejais CERN siekia garantuoti duomenų kilmės atsekamumą, t. y. sudaryti galimybę bet kada atkartoti kelionę nuo pirminių duomenų iki pat galutinio duomenų rinkinio ar juo paremtos diagramos.

CERN duomenų centro juostinė duomenų saugykla. CERN nuotr.
O su kurio lygio duomenimis dirbate Jūs?
Aš dirbu su Large Hadron Collider beauty (LHCb), vieno iš keturių Didžiajame hadronų priešpriešinių srautų greitintuve atliekamų eksperimentų, duomenimis. Dažniausiai tai būna trečio lygio duomenys. Šiuo aspektu nesu kažkuo išskirtinis – dauguma duomenų analize užsiimančių CERN tyrėjų pradeda nuo trečio lygio duomenų, nes juos analizuoti patogiausia. Trečio lygio duomenims analizuoti pakanka nedidelio superkompiuterio ar netgi asmeninio kompiuterio, o antro lygio duomenų apdorojimas turi būti planuojamas iš anksto, nes tam reikalingas visas superkompiuterių tinklas. O prie pirmo lygio duomenų apskritai mažai kas turi prieigą. Tai yra duomenys, gauti tiesiai iš detektorių, prie kurių dirba tik keli šimtai pačioje CERN tiesiogiai už duomenų rinkimo procesą atsakingų inžinierių. Žinoma, prireikus galima gauti prieigą ir prie šių duomenų. Yra netgi su pirmo lygio duomenų analize susijusių sėkmės istorijų. Pavyzdžiui, 2019 m. pasitelkus mašininio mokymosi algoritmus ir išanalizavus tam tikrą kiekį suskaitmenintų detektoriaus signalų, paaiškėjo, kad susidūrimų metu neretai susidaro helio branduoliai. O helis – vienas pagrindinių visatos formavimosi komponentų. Taip analizuojant labai primityvius duomenis buvo gauta svarbių įžvalgų apie visatos pradžią.
Galima numanyti, kad Jūsų nupasakoti procesai reikalauja įspūdingų duomenų saugojimo ir apdorojimo išteklių. Kaip atrodo CERN duomenų infrastruktūra?
Kaip jau užsiminiau, LHCb detektorius generuoja mažiausiai po 5 terabaitus duomenų per sekundę. Atlikus pirminius filtravimo žingsnius, iš tų 5 terabaitų lieka apie 10 gigabaitų per sekundę, bet tai vis tiek yra nemažai, žinant, kad eksperimentai vykdomi praktiškai nuolatos. Iš viso CERN jau surinko apie eksabaitą (1 mln. terabaitų) duomenų. Tokiems duomenų kiekiams suvaldyti reikia milžiniškų resursų. Ženevoje CERN turi du duomenų centrus ir prieigą prie pasaulinio superkompiuterių tinklo – iš viso apie 1,5 mln. kompiuterio branduolių, keliolika tūkst. serverių ir daugybė duomenų saugyklų. Pastarosios naudojamos dviejų tipų: duomenys, kuriuos reikės greitai nuskaityti, laikomi kietuosiuose diskuose, o duomenų atsarginės kopijos, skirtos ilgalaikiam išsaugojimui, laikomos ne tokiose greitose, bet labai atspariose juostinėse saugyklose, aptarnaujamose specialių robotukų. CERN duomenų centrai niekada neišsijungia, jie aprūpinti įvairiomis nuo elektros trikdžių apsaugančiomis priemonėmis. Tam atvejui, jeigu visai nutrūktų elektros tiekimas, yra dyzelio generatoriai, kurie duomenų centrus galėtų palaikyti dvidešimt keturias valandas. Tokios trukmės turėtų pakakti elektros tiekimui atstatyti, nes kad CERN ilgiau nei parai dingtų elektra, turėtų įvykti branduolinis karas, arba kažkokia panaši nelaimė. Bet tada tikriausiai jau niekam neberūpėtų kažkokių dalelių fizikos duomenų praradimas.
Kokia įspūdinga CERN laboratorijoje esanti duomenų infrastruktūra bebūtų, net ir tokių pajėgumų jau nebeužtenka visiems ten sukuriamiems duomenims apdoroti ir suarchyvuoti. Šuo metu CERN vietinė infrastruktūra tesudaro vos trečdalį visų naudojamų pajėgumų. Likę du trečdaliai išteklių paskirstyti po bendradarbiaujančias mokslines institucijas, išsimėčiusias po visą pasaulį. CERN pasaulinis superkompiuterių tinklas (Worldwide LHC Computing Grid, WLCG) yra lyg alternatyvus internetas, skirtas mokslininkams. Jis leidžia dalintis ne tik saugyklų talpomis, o tai leidžia turėti geografiškai nutolusių atsarginių duomenų kopijų, bet ir skaičiavimo pajėgumais, vaizdo plokščių prieiga ir kitais kompiuteriniais resursais. Tarkime, kažkokiam doktorantui iš Vilniaus reikia išanalizuoti petabaitą duomenų. Jis pateikia užsakymą CERN pasauliniam superkompiuterių tinklui. CERN resursų panaudos planavimo programinė įranga apskaičiuoja, į kiek darbų reikia išskirstyti pateiktą užduotį, ir pagal aktualų interneto apkrovimą visame pasaulyje, superkompiuterių apkrovimą konkrečiose vietose ir duomenų replikų išsidėstymą nustato, kuriose iš bendradarbiaujančių institucijų racionaliausia tuos darbus įvykdyti. Gali būti, kad iš Vilniaus užsakyti skaičiavimai bus atliekami kur nors Osakos universitete, į Vilnių parsiunčiant tik kelių kilobaitų apimties atsakymą į pateiktą užklausą. Tai leidžia išvengti didelių duomenų persiuntimo, reikalaujančio daug resursų ir laiko. Taigi, CERN duomenų infrastruktūra peržengia fizinės CERN lokacijos ribas. CERN laboratorija tik yra viso šio organizmo širdis.

Dr. M. Šarpis su VU rektoriumi prof. R. Petrausku prie LHCb detektoriaus
Šiuo metu minime Tarptautines atvirųjų duomenų dienas. CERN aktyviai palaiko atvirojo mokslo judėjimą, o prieš keletą metų atvėrė visuomenei nemažą dalį savo eksperimentų sugeneruotų duomenų. Iš kur kyla CERN atvirumui rodomas palaikymas?
Visa CERN doktrina yra grįsta atvirumu. Kaip jau užsiminiau pokalbio pradžioje, CERN niekam nepriklauso, tai yra ir nuo pat pradžių buvo bendras visų dalyvaujančių valstybių projektas, finansuojamas valstybių narių. Kiekvienas europietis kasmet sumoka maždaug vieno kavos puodelio vertės mokesčių sumą, kad CERN galėtų egzistuoti. Jau kuriant šią organizaciją buvo sutarta, kad tai bus nekomercinis ir nekarinis darinys – pasaulio laboratorija, kurioje vykdomas fundamentalus mokslas, susijęs su visos žmonijos klausimais apie visatą ir medžiagos prigimtį. Istorinis kontekstas, kuriame atsirado CERN, lemia, kad ji gali egzistuoti tik tada, kai viskas yra atvira.
Atveriami ne tik duomenys, bet ir programinis kodas, technologijos. Vyksta aktyvus žinių perdavimas tarp CERN ir verslo. Pavyzdžiui, CERN sukūrė tiksliausią pasaulyje laiko skaičiavimo technologiją White Rabbit. Ji gali datuoti įvykius 25 nanosekundžių tikslumu. Ši technologija atvirai prieinama, o vienas stambiausių jos naudotojų yra finansų kompanija J. P. Morgan & co, kuri ją pritaikė akcijų rinkos skaičiavimams. Kitas pavyzdys būtų ROOT, CERN sukurtas ir palaikomas duomenų analizės įrankių rinkinys, skirtas labai didelės apimties duomenims analizuoti. ROOT leidžia per kelias sekundes apdoroti trilijonus duomenų taškų, o vidutinė lentelių valdymo programa pradeda strigti stulpelių skaičiui peržengus šimtą. Šiuo atžvilgiu ROOT lenkia netgi duomenų analizei naudojamas programavimo kalbas. Dabar šis dalelių fizikos duomenų analizei sukurtas įrankis naudojamas ne tik įvairiuose kituose fizikos tyrimuose, bet ir srityse, kurios apskritai nesusijusios su mokslu, pavyzdžiui, Vokietijos nacionalinėje geležinkelių bendrovėje Deutsche Bahn.
Vis dėlto, nors CERN siekia, kad visi jų sukurti duomenys galiausiai būtų atverti, jiems taikomas embargo periodas. Pirmuosius kelis metus prieiga prie duomenų suteikiama tik šalims narėms, kurios prisideda prie CERN biudžeto. Po to jau duomenys atveriami visam pasauliui.
Dalyvavote rengiant atvėrimui LHCb eksperimento pirmojo ciklo (2011–2012 m.) duomenis, iš viso apie 1 petabaitą jų. Kokius iššūkius reikia įveikti norint atverti tokios apimties duomenų rinkinį?
1 petabaito duomenų parengimas atvėrimui – sudėtingas techninis darbas. Mes turėjome nukopijuoti kiekvieną iš daugiau nei 100 tūkst. failų į atskirą mums suteiktą saugyklą, bet prieš tai kiekvieną failą dar reikėjo surasti (nes LHCb duomenų kopijos išmėtytos po įvairias CERN superkompiuterių tinklui priklausančias institucijas) ir patikrinti jo integralumą. Po to kiekvienas duomenų rinkinys ir kiekvienas atskiras failas turėjo būti aprašytas metaduomenimis. Rankiniu būdu atsirinkti ir aprašyti 100 tūkst. failų būtų užtrukę labai ilgai. Teko sukurti programines priemones, kurios leistų automatizuotai kopijuoti failus, tikrinti integralumą, aprašyti ir kiekvieną sutvarkytą failą su aprašu įkelti į CERN atvirųjų duomenų portalą. Net ir automatizavus daugelį procesų, viskas užtruko apie pusantrų metų. Jeigu mes būtume tiesiog nukopijavę ir kažkur paskelbę tuos 100 tūkst. failų, labai mažai kam iš jų būtų kokios naudos. Kad duomenų atvėrimas turėtų prasmę, reikia juos prieš tai susisteminti, aprašyti, padaryti nuskaitomus mašininiu būdu ir paaiškinti, kaip juos naudoti.
Be laiko sąnaudų ir technologinių kliūčių, didelio kiekio duomenų atvėrimas yra ir finansinis iššūkis. Juk tuos atveriamus duomenis reikia kažkur laikyti, reikia užtikrinti jų priežiūrą. Tarp kitko, CERN duomenų atvėrimui negauna jokių papildomų lėšų, jį finansuoja iš savo biudžeto. Pastaraisiais metais eksperimentų duomenų susikaupė tiek daug, kad per kitą duomenų atvėrimo bangą CERN turės spręsti, ar vis dar racionalu kopijuoti duomenis į atskiras saugyklas prieš juos atveriant. Galbūt pigesnis ir tvaresnis sprendimas būtų sukurti saugią prieigą prie CERN vidiniame tinkle jau egzistuojančių kopijų.

LHCb eksperimente dalyvaujantys tyrėjai detektoriaus fone. CERN nuotr.
Dirbate Vilniaus universitete ir kartu CERN. Ką CERN veikia Lietuvoje arba, tiksliau, ką Lietuva veikia CERN?
Lietuva CERN dar tik žengia pirmuosius žingsnius. Bendradarbiavimas tarp Lietuvos tyrėjų ir CERN užsimezgė per sritis, kuriose buvome labiausiai pažengę – medžiagotyrą, inžineriją. Pirmieji kontaktai radosi iš karto po nepriklausomybės atkūrimo, bet iki visaverčio bendradarbiavimo Lietuvai reikėjo dar pribręsti. Tik 2018 m. Lietuva tapo asocijuota CERN nare. Dar šešerius metus užtruko, kol Vilniaus universiteto Fizikos fakultetas tapo pirmuoju CERN LHCb eksperimente oficialiai dalyvaujančiu institutu. Dabar esame vieni iš daugiau nei 120 pasaulio institutų, prisidedančių prie LHCb eksperimento. Tarp narių yra tokios institucijos kaip Oksfordas, Kembridžas ar Heidelbergas, ir mes LHCb eksperimente su jais esame visiškai lygiateisiai. Mūsų tyrimų grupei priklausantys doktorantai, studentai ir mokslininkai gali nuvykti į bet kurį iš institutų narių, gali tiesiogiai bendradarbiauti su kolegomis, dirbančiais bet kuriame iš jų. Mes ir bendradarbiaujame. Be to, visu pajėgumu atliekame duomenų analizę – turime prieigą prie visų duomenų rinkinių, galime naudotis CERN infrastruktūra ir pasauliniu superkompiuterių tinklu. Nors Vilniaus universitete neturime tokios gilios dalelių fizikos tyrimų tradicijos kaip kai kuriuose kituose eksperimente dalyvaujančiuose institutuose, tačiau atsinešame savo patirtį iš kitų sričių. Galime šviežiomis akimis pažiūrėti į visą procesą. O ir pentakvarkų paieškas be mūsų atlieka vos keli universitetai pasaulyje. Bandome rasti savo nišą, kurioje būtume aktualūs ir galbūt netgi kažkada galėtume tapti lyderiais.
Prieš porą metų grįžote dirbti į Lietuvą. Kaip vertintumėte mokslinių tyrimų duomenų atvėrimo kultūrą Lietuvoje?
Lietuvoje geriausiai išvystytų fizikos disciplinų – medžiagotyros, taip pat su inžinerija susijusių sričių – tyrėjai iki šiol nesukurdavo didelių kiekių duomenų, jiems nereikėjo sukti galvos dėl jų archyvavimo. Tyrimai buvo orientuoti į praktinį pritaikymą. Duomenų niekada nebuvo sukuriama daug, ir jie dažnai būdavo tokie, kuriuos buvo galima greitai sugeneruoti vėl. Tokiame kontekste dalijimasis duomenimis ar jų pakartotinis naudojimas nėra aktualus. Tik dabar mes pradedame eiti į fundamentalesnes sritis, kuriose antriniai duomenys gali būti net labai aktualūs. Šiuo metu jau yra kelios gamtos mokslų šakos, pavyzdžiui kristalografija ar astronomija, kuriose duomenų kiekis yra tapęs spręstinu uždaviniu. Būtent šių šakų atstovai pirmieji pradėjo rūpintis duomenų atvėrimu. Manau, kad artimiausiu metu tokie iššūkiai laukia vis daugiau mokslo sričių. Dabar beveik bet kokios srities tyrimai – nuo socialinių iki tiksliųjų mokslų – gali, arba labai netolimoje ateityje galės, generuoti nemažus kiekius duomenų. Deja, kol kas Lietuvoje nėra sukaupta daug patirties, susijusios su duomenų apdorojimu ar atvėrimu. Investicijų reikės jau vien į infrastruktūros elementus, reikalingus sugeneruotiems duomenis išsaugoti, ką jau kalbėti apie atvėrimą. Duomenų kiekiai tik didės, ir mes turime būti labai gerai tam pasiruošę. Ateityje kils ne tik saugojimo ar atvėrimo, bet ir didelių duomenų analizės, duomenų saugumo, etikos klausimai. Pasiruošę turi būti ir mūsų infrastruktūros, ir teisinė bazė, ir patys mokslininkai. Iš vienos pusės gerai, kad iki šiol nereikėjo tuo rūpintis. Iš kitos pusės, dabar, kai jau reikės, reikės visko iš karto.
Jeigu palygintume duomenų atvėrimo kultūrą Lietuvoje ir kitose šalyse, kuriose Jums teko dirbti, ar rastume daug skirtumų?
Skirtumų tikrai yra. Duomenų atvėrimo reikalavimai moksliniams tyrimams tiek Jungtinėje Karalystėje, tiek Vokietijoje atsirado gerokai anksčiau nei Lietuvoje. Vokietijoje jau nieko nestebina, kad doktorantūros metu surinkti duomenys turi būti aprašyti ir padaryti atvirai prieinami. Tai netgi tikrinama – prieš gaunant diplomą universitetas patikrina, ar grąžinai knygas į biblioteką ir ar atvėrei duomenis. Pas mus tokios ryškios atvirumo tendencijos dar nematyti. Galbūt kai kur duomenys atveriami iš geranoriškumo, bet griežtų reikalavimų juos atverti nėra. Tiesa, Lietuvos mokslo politika yra formuojama vakarietiškos mokslo politikos, kuri aiškiai reikalauja atverti duomenis, pagrindu. Dėl to prieš kelis metus projektų paraiškos formose atsirado klausimai apie duomenų atvėrimą. Kol kas Lietuvoje į juos žiūrima švelniai, esame dar atsargūs, o Vakarų Europoje visa metodika ir visi reglamentai jau įsibėgėję ir puikiai veikia. Vis tik manau, kad ir Lietuvoje ateis laikas, kai duomenų atvėrimo klausimas taps labai aktualus, bent jau tam tikrose mokslo srityse.

Dr. M. Šarpis. VU bibliotekos archyvo nuotr. (fotogr. Ugnius Bagdonavičius)
Vis dar yra nemažai mokslininkų, kurie nusistatę prieš duomenų atvėrimą. Kaip manote, kodėl?
Gali būti įvairių priežasčių. Viena jų – akademinėje erdvėje egzistuojanti konkurencija. Man labai pasisekė, nes aš atstovauju tyrimų sritį, kurioje viskas yra bendra, o konkurencijos beveik nėra. Bet įsivaizduokite mažą kokioje nors ne tokioje bendruomeniškoje srityje dirbančią tyrimų grupę iš Lietuvos. Turėdami ribotus žmogiškuosius išteklius ir lietuvišką biudžetą jie turi konkuruoti su didesniais tyrimų institutais, esančiais Kinijoje, Vokietijoje ar JAV. Galbūt jie surinks labai inovatyvius duomenis, potencialiai suteikiančius pranašumą, bet jiems pritrūks pajėgumų viskam išanalizuoti ir išnaudoti tą potencialą. Atverdami savo surinktus, bet neišanalizuotus duomenis, jie prarastų tą nedidelį konkurencinį pranašumą, kurį buvo sukūrę. Čia panašiai kaip versle – kai kuriais atvejais viešai paskelbti savo intelektinę nuosavybę patartina, kai kuriais nelabai. Mokslas yra visiems bendras, ir neturėtų būti žalinga dalintis savo idėjomis ir rezultatais. Deja, dažnai atsiranda negraži konkurencija, ir tikrai ji ne visada ateina iš Lietuvos pusės. Būtent dėl to dalis mokslininkų priešinasi duomenų atvėrimui, ir juos galima suprasti.
Vis dėlto, esu įsitikinęs, kad jeigu išmoktume savo duomenis tvarkingai sisteminti ir padaryti prieinamus, galiausiai tik išloštume. Blogiausiu atveju, pagerėtų mūsų darbo našumas, o geriausiu atveju, galėtume bendradarbiauti su kitais institutais ir gauti dar geresnių įžvalgų. Beje, būti atviram nereiškia, kad reikia atverti absoliučiai viską nuo aparato iki straipsnio. Prasminga atverti tik tvarkingai paruoštus, suklasifikuotus duomenis. Tiems, kurie dar nesiryžta atverti savo duomenų, pirmas žingsnis atvirumo link galėtų būti duomenų rinkinių aprašų atvėrimas. Atvirai ir skaidriai komunikuodami apie tai, ką mes darome, kokie yra mūsų duomenys, kiek jų yra, galėtume daug geriau įsivertinti, kaip mes atrodome pasauliniame kontekste. Tada galbūt kaip tik išvystytume konkurencinį pranašumą. Pastebėtume, kad kai kuriuos dalykus mes darome geriausiai pasaulyje, tik iki šiol to nežinojome, nes nebuvome pakankamai atviri. Kitas galimas kompromisas – duomenų atvėrimas savo institucijos viduje, padarant juos pasiekiamus bent jau sau patiems. Be viso kito, tai būtų puiki atlikto darbo apskaita, skirta ne kažkokiems auditams, bet kad žinotume, prie ko jau buvo dirbta. Mokslas, kuris nėra atviras ir tvarkingai dokumentuotas, dažnai netyčia replikuoja tuos pačius rezultatus. Kartais netgi pasitaiko, kad tame pačiame institute du mokslininkai dirba prie tos pačios temos, bet kiekvienas sau. O juk jie galėtų bendradarbiauti, ir viskas vyktų daug efektyviau...
Baigiant pokalbį, ko palinkėtumėte Lietuvos mokslo sektoriui?
Linkiu, kad Lietuva taptų vis atviresnė – tiek mokslo komunikacijoje, tiek mokslo politikoje, o vienas to šalutinių poveikių būtų Atvirųjų duomenų atsiradimas. Būdami atviri, mes tik išlošime. Lietuva yra maža šalis. Bendradarbiaudami su kitomis šalimis, nesvarbu ar per CERN, ar kitais būdais, mes gauname daugiau, nei galime duoti. Net ir būdami maža šalis galime į mokslą įnešti prasmingą indėlį, bet jis bus daug prasmingesnis bendrame pasaulinio mokslo paveiksle, nei mums bandant kažką nuveikti izoliuotai. Jeigu toliau skaičiuodami nepriklausomybės metus per artimiausius 5–10 metų tapsime tikrai atviri ir sąžiningi, o dar ir žaisime pasaulinėje lygoje, tai bus geriausias įmanomas scenarijus Lietuvos mokslo sektoriui.
Kalbino dr. Gintė Medzvieckaitė
2026-03-05