Biblioteka Otwarte dane badawcze
- Definicja
- Korzyści udostępniania danych badawczych
- Zasady FAIR
- Plan zarządzania danymi badawczymi
- Plan zarządzania danymi badawczymi - wytyczne
- Repozytoria danych badawczych
- Materiały dodatkowe
- Najważniejsze pojęcia
Definicja
Dane badawcze to wszystkie dane wytworzone podczas projektu badawczego, którego celem było uzyskanie oryginalnych wyników naukowych. Dane badawcze (w zależności od dyscypliny której dotyczą) mogą być bardzo różnorodne, są to np.: dokumenty tekstowe, dane liczbowe, ankiety, kwestionariusze, modele matematyczne, nagrania audio i video, zdjęcia, algorytmy, wyniki symulacji komputerowych, protokoły laboratoryjne, opisy metodologiczne itp.
Najczęściej udostępniane są w postaci tzw. Datasetów, czyli zbiorów stanowiących pewną odrębną całość i zawierających dane powiązane z jedną publikacją, projektem naukowym bądź eksperymentem.
Otwarte dane badawcze to dane dostępne za pośrednictwem Internetu, upowszechniane bez żadnych ograniczeń. Oznacza to, że można je wykorzystywać bez ponoszenia opłat oraz bez istotnych ograniczeń technicznych i prawnych. Dane powinny być tak otwarte, jak to możliwe i na tyle zamknięte, na ile to jest konieczne.
Otwieranie danych daje możliwość weryfikacji wyników oraz powtórnego ich wykorzystania. Należy pamiętać, że udostępnienie danych badawczych nie jest tożsame z opublikowaniem pracy, w której zostały opisane wyniki badań/eksperymentu.
Nie wszystkie zbiory danych mogą posiadać otwarty charakter, w szczególności dotyczy to danych osobowych, komercjalizacji wyników badań oraz bezpieczeństwa narodowego.
Informacja o istnieniu danych zawsze powinna być publicznie dostępna, co pozwala uniknąć duplikacji badań.
Korzyści udostępniania danych badawczych
- lepsza komunikacja i wymiana informacji pomiędzy specjalistami reprezentującymi różne dyscypliny nauki,
- możliwość przeprowadzania analiz opartych o unikalne dane, których nie można ponownie zebrać,
- zwiększenie liczby cytowań zarówno samych danych, jak i publikacji na nich opartych,
- zwiększenie wiarygodności i transparentności naukowca,
- możliwość oceny rzetelności prowadzonych badań,
- możliwość wykorzystania istniejących zasobów i obniżenia kosztów badań,
- pomoc w ocenie parametrycznej jednostki, sprawozdawczości i dorobku naukowców,
- zabezpieczenie dokumentu (każda praca zdeponowana w repozytorium ma swój unikalny identyfikator) oraz możliwość długoterminowego przechowywania prac.
Zasady FAIR
- Findable – możliwe do odnalezienia (łatwo wyszukiwane i znajdowane),
- Accessible – dostępne (np. w repozytorium danych),
- Interoperable – interoperacyjne (opisane w odpowiednim standardzie oraz z zastosowaniem prawidłowej metodologii),
- Reusable – możliwe do ponownego wykorzystania (udostępnione do wielokrotnego użycia na odpowiedniej licencji).
Dataset przygotowany w oparciu o zasady FAIR można zweryfikować przy użyciu narzędzia F-UJI, które służy do programowej oceny FAIR obiektów danych badawczych na poziomie zbioru danych w oparciu o metryki oceny obiektów danych FAIRsFAIR.
Udostępnianie danych badawczych wiąże się z użyciem odpowiedniej licencji. Wyróżniamy następujące licencje danych badawczych:
- CC 0 – przeniesienie do domeny publicznej,
- CC-BY – uznanie autorstwa 4.0 (licencja ta pozwala na kopiowanie, zmienianie, rozprowadzanie, przedstawianie i wykonywanie utworu jedynie pod warunkiem oznaczenia autorstwa, gwarantuje ona najszersze swobody licencjobiorcy).
**********
Więcej o FAIR Data: Inicjatywa FAIRdata.
Plan zarządzania danymi badawczymi
Plan można sporządzić na podstawie dostępnego wzoru. Powinien uwzględniać zasady FAIR oraz odnosić się do następujących elementów:
- opis danych badawczych,
- standardy i metadane,
- trwałe identyfikatory,
- organizacja i przechowywanie danych,
- udostępnianie danych,
- zarządzanie innymi rezultatami badań,
- koszty i zespół zaangażowany w zarządzanie danymi.
**********
Polecane strony:
- NCN udostępnia wytyczne oraz instrukcję odnośnie przygotowania DMP
- DMPTool – narzędzie online służące tworzeniu planów zarządzania danymi wraz z przykładami (dostosowane do wymagań amerykańskich grantodawców)
- DMPonline – kreator planów zarządzania danymi badawczymi zawierający bazę instytucji finansującej naukę z Wielkiej Brytanii
- Data Citation Indeks – narzędzie umożliwiające śledzenie i ocenę cytowań danych naukowych, jest częścią bazy Web of Science, wspiera rozwój otwartych zasobów oraz transparentność danych badawczych
- Google Dataset Search – indeksuje dane przechowywane w repozytoriach, na stronach instytucji i organizacji naukowych
- Checklist for a Data Management Plan – lista kontrolna ułatwiająca sprawdzenie poprawności przygotowanego DMP
- Przewodnik po programie Horyzont Europa
- Annotated Grant Agreement (AGA) – EU Funding Programmes 2021-2027 – umowa o dotację w ramach programu Horyzont Europa
Plan zarządzania danymi badawczymi - wytyczne
Wytyczne do Planu zarządzania danymi badawczymi – Politechnika Morska w Szczecinie
Przykładowy Plan zarządzania danymi badawczymi
Repozytoria danych badawczych
- instytucjonalne (przyjmują dane badawcze od pracowników lub grantobiorców danej instytucji),
- ogólnego przeznaczenia (przyjmują dane badawcze od wszystkich i z każdej dziedziny nauki),
- dziedzinowe (przyjmują dane badawcze z danej dziedziny nauki).
- RepOD – repozytorium Otwartych Danych opracowane przez ICM UW. W ramach działań Platformy Otwartej Nauki archiwizuje i udostępnia wszystkie dane wytworzone, zebrane i opracowane na potrzeby badań naukowych. Przeznaczone dla tzw. małych danych.
- Zenodo – międzynarodowe repozytorium danych badawczych. Umożliwia naukowcom ze wszystkich obszarów wiedzy proste archiwizowanie i dzielenie się opracowanymi przez siebie danymi badawczymi. Przeznaczone dla tzw. małych danych. Opracowane dzięki inicjatywie OpenAIRE i CERN.
- Repozytoria danych badawczych NIH – amerykański National Institutes of Health współtworzy i promuje wiele wyspecjalizowanych repozytoriów danych badawczych, z których wiele zapewnia dostęp do tzw. dużych danych gromadzonych w ramach konkretnych projektów. Witryna internetowa NIH zawiera tabelę opisującą każde repozytorium, podając informacje o stopniu ich otwartości i procedurach umieszczania w nich danych.
- Most Danych – projekt, w ramach którego na Politechnice Gdańskiej powstało instytucjonalne repozytorium otwartych danych badawczych, które będzie służyć nie tylko Politechnice Gdańskiej, ale także członkom konsorcjum: Uniwersytetowi Gdańskiemu i Gdańskiemu Uniwersytetowi Medycznemu. Istnieje możliwość rozszerzenia dostępu do platformy na inne uczelnie w regionie i kraju.
- Mendeley Data – indeksowane repozytorium danych badawczych. Umożliwia przechowywanie, udostępnianie i zarządzanie danymi związanymi z badaniami naukowymi. W ramach repozytorium badacze mogą publikować swoje dane, oraz udostępnianiać innym naukowcom.
- re3data.org (Registry of Research Data Repositories) – to globalna wyszukiwarka repozytoriów danych badawczych. Gromadzi dane badawcze ze wszystkich dyscyplin akademickich. Umożliwia wyszukiwanie repozytoriów według dziedziny wiedzy, kraju oraz typu danych badawczych.
- OpenDOAR – międzynarodowa baza indeksująca biblioteki cyfrowe, repozytoria instytucjonalne i repozytoria danych badawczych. Baza umożliwia wyszukiwanie samych repozytoriów, jak i przeszukiwanie ich zasobów.
- Repository Finder Tool – wyszukiwarka stworzona w ramach projektu: AGU’s Enabling FAIR Data Project. Rozwijana przez zespoły DataCite i re3data.org,
- CoreTrust Seal – strona zawiera informacje o certyfikacji repozytoriów danych, które spełniają najwyższe standardy przechowywania, zarządzania i udostępniania danych. Na stronie znajduje się lista repozytoriów, które otrzymały certyfikat CoreTrustSeal.
Materiały dodatkowe
- Otwarte Dane Badawcze – broszura informacyjna (Politechnika Morska w Szczecinie)
- Praktyczny przewodnik po międzynarodowych uzgodnieniach odnośnie zarządzania danymi badawczymi (Science Europe) – przewodnik polecany przez NCN
- Przewodnik po zarządzaniu danymi badawczymi (CESSDA – Consortium of European Social Science Data Archives)
- Pierwsze kroki w Programie Ramowym Horyzont Europa (Narodowe Centrum Badań i Rozwoju)
- Otwarta nauka w programie Horyzont Europa – umowa grantowa (Otwarta Nauka)
- Przewodnik po programie Horyzont Europa
- Przewodnik po zarządzaniu danymi badawczymi
- Przewodnik po otwartym dostępie i zarządzaniu danymi badawczymi
- Horyzont Europa – kolejny program inwestycyjny UE w zakresie badań naukowych i innowacji 2021-2027
- Selekcja i przygotowanie danych badawczych do udostępniania (CC-BY Wojciech Fenrich)
- Jak korzystać z zasobów w repozytoriach danych (CC-BY Natalia Gruenpeter)
- Prawne aspekty otwierania danych badawczych – poradnik (CC-BY Krzysztof Siewicz, Nikodem Rycko)
- Udostępnianie danych badawczych – zagadnienia prawne (CC-BY Nikodem Rycko)
- Zarządzanie danymi badawczymi (CC-BY Natalia Gruenpeter)
- Dane badawcze w pigułce – poradnik (CC-BY Opracowanie: zespół PPM)
- Coursera – Zarządzanie danymi badawczymi i ich udostępnianie – bezpłatny kurs MOOC prowadzony przez pracowników The University of North Carolina on Chapel Hill i University of Edinburgh
- Navoica – Zarządzanie danymi badawczymi dla naukowców: kurs podstawowy – kurs z zakresu zarządzania danymi badawczymi i ich otwartego udostępniania zgodnie z dobrymi praktykami i wytycznymi instytucji finansujących badania
- Navoica – Zarządzanie danymi badawczymi dla naukowców: kurs średnio zaawansowany – kurs z zakresu zarządzania danymi rozwijający zagadnienia omówione w kursie na poziomie podstawowym, wprowadza w tematykę z zakresu ewaluacji jakości działalności naukowej, cytowania danych badawczych itp.
- Research Data Alliance (RDA) Metadata Standards Catalog – katalog standardów metadanych RDA
- FAIRsharing – wyszukiwarka standardów i metadanych powiązana z repozytoriami dziedzinowymi
- Digital Curation Centre Standards – lista szeroko stosowanych standardów metadanych
Najważniejsze pojęcia
Dataset – zbiór danych zorganizowany w sposób umożliwiający ich analizę i przetwarzanie. Może zawierać różnorodne informacje, takie jak liczby, tekst, obrazy czy dźwięki, zorganizowane w formie tabel, plików lub baz danych.
DMP (Data Management Plan) – zobacz: Plan zarządzania danymi badawczymi.
DOI (Digital Object Identifier) – cyfrowy identyfikator przypisany na stałe do dokumentu elektronicznego, pozwalający na jego odnalezienie w internecie niezależnie od prowadzącego do niego adresu URL.
Embargo – okres, w którym dane badawcze nie mogą być udostępnione publicznie. Zazwyczaj jest on wykorzystywany do uzyskania patentów i/lub innych praw własności intelektualnej z nimi związanych oraz do przygotowywania publikacji naukowych na ich podstawie. Po tym okresie publikacja danych badawczych staje się możliwa.
FAIR – akronim od słów „findable” , „accessible” , „interoperable” i „reusable” definiujący wymagania, które powinny spełniać udostępniane dane badawcze.
Interoperacyjność – cecha danych, które można łączyć z innymi danymi, wykorzystywać w wielu różnych systemach komputerowych i analizować przy użyciu różnorodnego oprogramowania.
Licencja – upoważnienie do korzystania w określony sposób z utworu lub bazy danych. Przedmiotem licencji może być na przykład zbiór danych badawczych.
Licencje Creative Commons – popularne wzory licencji opracowane przez organizację Creative Commons.
Metadane – dane o danych. Zestaw informacji o konkretnym zbiorze danych badawczych. Zawierają informacje o formie i zawartości zasobów, co umożliwia ich wyszukiwanie, identyfikację i zarządzanie. Istnieją ogólne, uniwersalne (np. Dublin Core, Date Cite, DAta Documentation Initiative) i dziedzinowe standardy metadanych.
NCN – Narodowe Centrum Nauki.
ORCID (Open Reserch and Contributor ID) – cyfrowy identyfikator służący do jednoznacznej identyfikacji autorów publikacji naukowych.
Plan zarządzania danymi badawczymi (Data Management Plan – DMP) – formalny dokument opisujący, co stanie się z danymi w trakcie i po zakończeniu projektu badawczego. Ma on charakter „żywego dokumentu”, który może i powinien się zmieniać w miarę zmian zachodzących w innych obszarach projektu badawczego.
Repozytorium – system informatyczny umożliwiający przechowywanie publikacji naukowych lub danych badawczych w celu udostępnienia ich większemu gronu odbiorców.