Zwei Prototypen sollen es sein

Die Hamburgische Bürgerschaft hat am 6.12.2017 der Finanzierung von Hamburg Open Science für 2018 zugestimmt. Das Projekt Forschungsdatenmanagent wurde damit zum 1.1.2018 eingesetzt. Damit konnte das  Onboarding von Projektpersonal – hoffnungsvoll auf den 28.2.18 terminiert – beginnen. Am 23. März konnte die erste Projektsitzung mit fast allen Partner*innen stattfinden.

Für die Universität Hamburg und die TU Hamburg galt es die Zeit bis dahin zu nutzen. Der 18. Januar wurde zum (Mini)Kick-Off-Tag: Beide Universitäten hatten sich verpflichtet, bis zum Herbst 2018 zwei standardgerechte Prototypen für ein institutionelles Forschungsdatenrepositorium aufzubauen, die in die jeweilige Hochschulinfrastruktur eingebunden werden. Diese Bedarf hierfür wurde unter anderem durch zwei Umfragen zum Forschungsdatenmanagement an den beiden Einrichtungen unterstützt.

Einrichtung Jahr Ergebnisse
Universität Hamburg 2015 Wörner, Kai: Auswertung der Professorenumfrage zum Konzept eHumanities 2020+. Hamburg, 2015. https://hdl.handle.net/11858/00-248C-0000-002C-80BB-6
TU Hamburg 2016 Feldsien-Sudhaus, Inken, Rajski, Beate: Digitale Forschungsdaten für die Zukunft sichern: Umfrage zum Umgang mit Forschungsdaten an der TU Hamburg: Auswertung. Hamburg, 2016. https://doi.org/10.15480/882.1326

Grobkonzept

Für die Universität Hamburg und die TU Hamburg wird jeweils ein eigenes Forschungsdatenrepository (FDR) aufgebaut. Dies gewährleistet den Angehörigen der Hochschule eine dauerhafte und verlässliche Speicherung von Forschungsdaten, die dort generiert wurden. Das Repository ist institutionell und nicht disziplinspezifisch ausgerichtet. Es steht damit vor allem für die Forschungsdaten zur Verfügung, für die kein geeigneteres disziplinspezifisches Repository verfügbar ist. Die Daten werden nach den FAIR-Data-Prinzipien gespeichert, um sicherzustellen, dass Daten auffindbar, zugänglich, interoperabel und nachnutzbar sind. Die Daten werden in der Regel Open Access gestellt und mit einer Lizenz für die Nachnutzung versehen. Eine Einschränkung des Zugriffs auf Benutzerkreise bis hin zur reinen Speicherung ohne öffentlichen Zugang ist möglich.

Hamburg Open Sciene: Forschungsdatenrepsoitorien

Eingesetzte Software

Für beide Repositorien soll Open Source Software zum Einsatz kommen:

TUHH: DSpace

DSpace ist ein Open-Source-Softwarepaket für den Betrieb von Repositorien. Ziel ist die Bereitstellung digitaler Inhalte für Endnutzer und die Bereitstellung von Werkzeugen für die Verwaltung und Erhaltung von Inhalten innerhalb der Anwendung. DSpace wurde ursprünglich am MIT entwickelt und ist die am weitesten verbreitete Repository-Softwareplattform (Open Source oder proprietär), mit mehr als 2.000 Installationen weltweit. Die DSpace-Entwicklung wird über die gemeinnützige DuraSpace koordiniert.
An der TUHH wird DSpace bereits für das Open Access Repository eingesetzt. Für den Prototyp wird DSpace mit der Erweiterung DSpace-CRIS (zur Zeit Version 5.8) genutzt. Dies erweitert die eigentliche Repository Software um Komponenten eines Forschungsinformationssystems, so dass z.B. Autorenprofile, Projektinformationen und Organisationseinheiten die Forschungsdaten ergänzen können. Die Forschungsdaten werden in einer eigenen „Sammlung“ abgebildet, an die eigene Metadatendefinitionen und Bearbeitungsworkflows gekoppelt werden können. Dadurch ist eine Abgrenzung von anderen Aufgaben wie Open Access Repository oder Forschungsinformationssystem möglich.
In der Planung muss berücksichtigt werden, dass zurzeit wird DSpace 7 entwickelt wird. DSpace 7 wird eine völlig neue Oberfläche und REST-Schnittstelle erhalten. Bei lokalen Anpassungen ist daher mit einem hohen Aufwand für die Übernahme zu rechnen.

UHH: Zenodo/Invenio

Zenodo ist ein kostenloser Repositoriendienst, der am CERN in Genf betrieben und entwickelt wird. Er basiert auf dem Open-Source Framework Invenio, das ebenso am CERN entwickelt und koordiniert wird. Für den Prototyp des FD-Repositoriums wird die Codebasis von Zenodo verwendet und an die Bedürfnisse für den Betrieb an der Universität Hamburg angepasst. Das Team des Zentrums für nachhaltiges Forschungsdatenmanagement ist aktiv an der Entwicklung einer Invenio RDM (Research Data Management)-Version beteiligt, mit der die Zenodo-Funktionalität leichter an individuelle Bedarfe angepasst werden kann. Technische Spezifikationen und weitere Informationen finden sich unter https://invenio.readthedocs.io/en/latest/ bzw. https://zenodo.readthedocs.io/en/latest/index.html.

Metadatenschema

Die Forschungsdatenrepositoren der Universität Hamburg und der Technischen Universität Hamburg sollen der Ablage verschiedenster Primärdaten aller an der jeweiligen Hochschule vertretenen Fächer dienen. Sie sind kein Ersatz oder Konkurrenz für fachspezfische Repositorien. Daraus ergibt sich für die Erfassung der Metadaten die Notwendigkeit eines allgemeinen, übergreifenden Metadatenschemas. Hierfür steht das DataCite Metadaten Schema zur Verfügung. Es enthält ist eine Liste der wichtigsten Metadateneigenschaften, die für eine genaue und konsistente Identifizierung einer Ressource für Zitierfähigkeit und Abruf notwendig sind.

DataCite Metadata Working Group. (2017). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.1. DataCite e.V. https://doi.org/10.5438/0014.

Forschungsdaten werden bei DataCite durch ein standardisiertes Metadatenformat beschrieben. 19 Eigenschaften (Properties) können durch detaillierte Eigenschaften (DataCite Properties) spezfiziert werden. Die Erfassung der Eigenschaften ist unterschiedlich verbindlich (Obligation):

  • Mandatory (M) – Sind verpflichtend, wenn Forschungsdaten nach dem DataCite-Standard beschrieben werden
  • Recommended (R) – Empfohlen, wenn die Ressource sicher gefunden, zitiert und verlinkt werden soll
  • Optional (O) – Nicht zwingend notwendig, erhöhen aber den Detailgrad der Beschreibung
Verpflichtende Felder
ID Property Obligation
1 Identifier (with mandatory type sub-property) M
2 Creator (with optional family name, given name, name identifier and affiliation sub-properties) M
3 Title (with optional type sub-properties) M
4 Publisher M
5 PublicationYear M
10 ResourceType (with mandatory general type description sub-property) M
Empfohlene und optionale Felder
ID Property Obligation
6 Subject (with scheme sub-property) R
7 Contributor (with optional family name, given name, name identifier and affiliation sub-properties) R
8 Date (with type sub-property) R
9 Language O
11 AlternateIdentifier (with type sub-property) O
12 RelatedIdentifier (with type and relation type sub-properties) R
13 Size O
14 Format O
15 Version O
16 Rights O
17 Description (with type sub-property) R
18 GeoLocation (with point, box and polygon sub-properties) R
19 FundingReference (with name, identifier, and award related sub-properties) O

Für detaillierte Eigenschaften, kontrolliertes Vokabular und Anwendungsbeispiele ist die DataCite Metadata Schema Documentation die Referenz

Gemeinsames Datenschema

Beide Repositorien wenden den DataCite Metadata Standard an. Der Detaillierungsgrad ist abhängig von den spezifischen Anforderungen der Forschenden der beiden Universitäten und den Informationen, die über die Forschungsdaten vorliegen. Hier wird die Projektlaufzeit mit den Anwenderworkshops kontinuierlich zur Optimierung genutzt.

Der Stand wird in diesem Repository dokumentiert.