8.6 Datenarchivierung
Neben der Datenspeicherung steht die
Datenarchivierung als weiterer notwendiger Schritt im
Forschungsdatenlebenszyklus. Während die Datenspeicherung vor allem die
Speicherung der Daten während des laufenden Arbeitsprozesses in der Projektlaufzeit
umfasst, wie sie in den bisherigen Abschnitten dieses Kapitels behandelt
wurden, beschäftigt sich die Datenarchivierung damit, wie die Daten nach
Abschluss des Projekts so nachnutzbar wie möglich zur Verfügung gestellt werden
können. Oft wird begrifflich nochmals zwischen der Datenaufbewahrung in einem
Repositorium und der Datenarchivierung im Sinne einer Langzeitarchivierung
(kurz „LZA“) unterschieden. An vielen Stellen, so auch in den „Leitlinien zur
Sicherung guter wissenschaftlicher Praxis“ der DFG aus dem Jahr 2019
(„Leitlinie 17: Archivierung“) werden beide Begriffe jedoch äquivalent
gebraucht. Wenn im Folgenden von Aufbewahrung oder Datenaufbewahrung die Rede
ist, ist die Aufbewahrung von Daten in einem Forschungsdatenrepositorium gemeint.
Wird jedoch von Datenarchivierung gesprochen, ist damit eine
Langzeitarchivierung intendiert. Die Unterschiede beider Varianten sind Thema
dieses Abschnitts.
Mit der Datenaufbewahrung in einem
Forschungsdatenrepositorium geht im Grunde meist eine Veröffentlichung der
produzierten Daten einher. Eine solche Veröffentlichung kann und muss im Fall
von sensiblen Daten, wie etwa personenbezogenen Daten, auch zugangsbeschränkt
geschehen. Gemäß der guten wissenschaftlichen Praxis müssen Repositorien
sicherstellen, dass die publizierten Forschungsdaten für mindestens zehn Jahre
aufbewahrt und zur Verfügung gestellt werden, anschließend ist die
Verfügbarkeit jedoch nicht mehr notwendigerweise gegeben, wird aber dennoch
meistens weiter gewährleistet. Sollten Daten nach dieser
Mindestaufbewahrungsfrist auf Entscheidung des Betreibers aus dem Repositorium
entfernt werden, muss der Verweis auf die Metadaten weiter vorhanden bleiben.
Repositorien werden meistens in drei unterschiedliche Arten unterteilt:
Institutionelle Repositorien, Fachrepositorien und fachübergreifende bzw.
generische Repositorien. Eine vierte eher spezifische Variante sind sogenannte
Software-Repositorien, in denen Software bzw. reiner Softwarecode
veröffentlicht werden kann. Diese sind üblicherweise auf jeweils eine
Programmiersprache ausgelegt (z. B. PyPI für die
Programmiersprache „Python“).
Institutionelle Repositorien umfassen all jene Repositorien,
die durch meist staatlich anerkannte Institutionen bereitgestellt werden. Dazu
können Universitäten, Museen, Forschungseinrichtungen oder andere Einrichtungen
gehören, die ein Interesse daran haben, Forschungsergebnisse oder andere
Dokumente von wissenschaftlicher Bedeutung der Öffentlichkeit zur Verfügung zu
stellen. Im Rahmen der „Leitlinien zur Sicherung guter wissenschaftlicher
Praxis“ der DFG (2019) wird offiziell gefordert, dass die Forschungsdaten, die
einem wissenschaftlichen Werk zugrunde liegen, mindestens „in der Einrichtung,
wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt“
werden müssen. (DFG 2019, S. 22) Beachten Sie außerdem vor der Veröffentlichung
Ihrer Daten die Hinweise in der Forschungsdaten-Leitlinie
der Frankfurt UAS und suchen Sie frühzeitig Kontakt zum
Forschungsdatenreferenten, um zu besprechen wie und wo Sie die Daten veröffentlichen können, um
gemäß der guten wissenschaftlichen Praxis zu handeln. Auch wenn Sie ihre Daten
bereits in einem Journal veröffentlicht haben, ist es häufig möglich, diese
auch an Ihrer Einrichtung zu veröffentlichen. Fragen Sie dazu beim Verlag an
oder schauen Sie in Ihren Vertrag.
Neben der Veröffentlichung im
institutionellen Repositorium können Sie Ihre Daten auch zusätzlich in
einem fachspezifischen Repositorium publizieren. Gerade die
Veröffentlichung in einem renommierten fachspezifischen Repositorium kann stark
zur Steigerung Ihrer wissenschaftlichen Reputation beitragen. Um zu erfahren,
ob für Ihren Forschungsbereich ein passendes fachspezifisches Repositorium
vorhanden ist, lohnt sich die Suche über den Repositorien-Index „re3data“.
Sollte kein passendes Repositorium dabei
sein, ist die letzte Möglichkeit die Veröffentlichung in einem großen,
fachübergreifenden generischen Repositorium. Eine kostenlose
Variante bietet der von der Europäischen Kommission finanzierte Dienst Zenodo.
Gebührenpflichtige Dienste zur Veröffentlichung von Daten bieten für den
deutschen Raum RADAR und international figshare.
Die am häufigsten verwendete Variante stellt im europäischen Raum vermutlich
Zenodo dar. Achten Sie bei einer eventuellen Veröffentlichung auf Zenodo
darauf, ihre Forschungsdaten auch einer oder mehrerer Communities zuzuordnen,
die in gewisser Weise eine Fachspezifik innerhalb dieses generischen Angebots
widerspiegeln.
Unabhängig davon, wo Sie ihre Daten
letztendlich veröffentlichen, achten Sie immer darauf zusätzlich zu den Daten
auch eine beschreibende "Metadatendatei" mit zu veröffentlichen, in
welcher die Daten beschrieben werden und der Kontext der Datenerhebung
dargelegt ist (siehe Kapitel 4). Schauen Sie bei der Auswahl Ihres bevorzugten
Repositoriums auch darauf, ob dieses in irgendeiner Weise zertifiziert ist (z.
B. CoreTrustSeal). Ob ein Repositorium
zertifiziert ist, ist bei „re3data“ direkt ersichtlich.
Je älter Daten werden, desto
wahrscheinlicher ist es bei den heutigen sich rasant weiter entwickelnden
digitalen Möglichkeiten, dass diese Daten zukünftig womöglich nicht mehr
geöffnet, gelesen oder verstanden werden können. Gründe dafür gibt es einige:
Es fehlt die benötigte Hardware und/oder Software oder wissenschaftliche
Methoden haben sich so stark verändert, dass Daten jetzt auf andere Arten und
Weisen mit anderen Parametern erhoben werden. Moderne Rechner und Notebooks verzichten
beispielsweise mittlerweile fast immer auf ein CD- oder DVD-Laufwerk, wodurch
diese Speichermedien nicht mehr flächendeckend genutzt werden können. Die
Langzeitarchivierung zielt daher darauf ab, die langfristige Nutzung von Daten
über einen nicht näher bestimmten Zeitraum hinweg über die Grenzen von
Medienverschleiß und technischen Neuerungen sicherzustellen. Das umfasst sowohl
die Bereitstellung der technischen Infrastruktur als auch organisatorische
Maßnahmen. LZA verfolgt dabei den Erhalt der Authentizität, Integrität,
Zugänglichkeit und Verständlichkeit der Daten.
Um eine langfristige
Archivierung von Daten zu ermöglichen, ist es wichtig, dass die Daten mit für
die LZA relevanten Metainformationen versehen werden wie beispielsweise der
verwendeten Erhebungsmethode, Hardware des Systems, mit dem die Daten erhoben
wurden, Software, Codierung, Metadatenstandards samt Version, möglicherweise
einer Migrationshistorie usw. (siehe Kapitel 4). Darüber hinaus sollten die
Datensätze soweit möglich den FAIR-Prinzipien entsprechen (siehe Kapitel 5).
Dazu zählt auch, die Daten vorzugsweise in nicht-proprietären, offen
dokumentierten Datenformaten abzuspeichern und auf proprietäre Datenformate zu
verzichten. Offene Formate müssen seltener migriert werden und zeichnen sich
durch eine längere Lebensdauer und höhere Verbreitung aus. Achten Sie außerdem
darauf, dass die zu archivierenden Dateien unverschlüsselt, patentfrei und
nicht komprimiert sind. Dateiformate können prinzipiell verlustfrei,
verlustbehaftet oder sinnhaft konvertiert werden. Eine verlustfreie
Konvertierung ist in der Regel vorzuziehen, da so alle Informationen bestehen
bleiben. Werden allerdings geringere Dateigrößen bevorzugt, müssen oft
Informationsverluste in Kauf genommen werden. Wenn Sie z. B. Audiodateien wie
WAV in MP3 konvertieren, gehen durch die Komprimierung Informationen verloren
und die Tonqualität verschlechtert sich. Allerdings ergibt sich durch die
Umwandlung eine geringere Dateigröße.
Die folgende Tabelle
gibt eine aktuelle Einschätzung der Fachstelle Forschungsdatenmanagement und
Datenerhalt an der ETH Zürich (ETH-Bibliothek) zur Eignung von häufig
verwendeten Datenformaten. Diese Tabelle basiert auf Erfahrung sowie einer
ausführlichen Auswertung von Empfehlungen und Richtlinien internationaler
Einrichtungen mit Archivierungsauftrag. In der vierten Spalte stehen ggf. Empfehlungen
zur Konvertierung in geeignetere Formate. Falls eine Konvertierung zwar möglich
ist, aber mit einem geringeren Funktionsumfang oder mit Informationsverlust
einhergeht, wird empfohlen, die Daten in beiden Formaten abzulegen. Wenn es
nicht möglich ist, ein empfohlenes Dateiformat zu verwenden, sind die Daten
voraussichtlich 10 Jahre später nicht mehr nutzbar.
Dateiart
|
Empfohlen
|
Bedingt geeignet
|
Nicht geeignet
|
Text
|
• .pdf (bevorzugte
Subtypen 2b und 2u)
• Unformatierter Text (.txt
oder Quellcode, usw.) kodiert als ASCII, UTF-8 oder UTF-16 mit Byte Order
Mark (BOM)
• XML (inklusive XSD/XSL/XHTML, etc.; Schema & Buchstabenkodierung
inklusive)
|
• .pdf mit
eingebetteten Fonts
• Unformatierter Text (.txt,
.asc, .c, .h, .cpp, .m, .py, .r usw.) kodiert nach ISO 8859-1
• .rtf
• HTML und XML (ohne externe Inhalte)
• .docx
• .pptx
• LaTeX und TeX (inkl. lizenzfreie Softwarepakete mit Spezialfonts und
resultierendes PDF)
• .odm, .odt, .odg, .odc, .odf
|
• .doc
• .ppt
|
Spreadsheets
und Tabellen
|
• .csv
|
• .xlsx
• .odm, .odt, .odg, .odc, .odf
|
•.xls, .xlsb
Konvertierung: .xlsx
|
Rohdaten
und Workspace
|
|
• Unformatierter
Text (ASCII-kodiert)
• .sdd
• .mat ab v7.3 MAT-Datei
• .nc, .cdf
• .h5, .hdf5, .he5
|
• .mat (binär)
Konvertierung: .h5, .hdf5, .he5
• .RData
Konvertierung: .h5, .hdf5, .he5 (mit dem Paket
rhadf)
|
Rastergrafik
(Bitmap)
|
• .tif (unkomprimiert, möglichst
TIFF 6.0+)
• .png (unkomprimiert)
• .jp2 (verlustfreie
Komprimierung)
• .dng
|
• .tif (komprimiert)
• .gif
• .bmp
• .jpg
• .jp2 (verlustbehaftete
Komprimierung)
|
|
Vektorgrafik
|
• .svg
|
|
• .indd, .ait
• .eps
• .psd
|
CAD
|
• .dwg
• .dxf
• .x3d, .x3dv, .x3db
|
|
|
Ton, Audio
|
• .wav (unkomprimiert,
pulse-code moduliert)
|
• .mp4
• .mp3
|
|
Video1
|
• .mkv
|
• .mpg, .mpeg
• .mp4
• .avi
• .mj2, .mjp2
|
• .wmv
• .mov
|
1Neben dem Dateiformat (bzw.
Containerformat) spielen auch der verwendete Codec und die Kompressionsart eine
wichtige Rolle.
Tab. 8.3: Empfohlene
und nicht empfohlene Datenformate nach Dateityp
(Quelle: ETH Zürich,
ETH-Bibliothek Archivtaugliche Dateiformate, vereinfacht und kommentiert durch HeFDI, CC-BY 4.0)
Für Dateiformate, die entweder nicht in den Empfehlungen auftauchen oder als
nicht geeignet bezeichnet werden, ist zunächst zu prüfen, ob als Alternative
ein Format aus der Empfehlungsliste genutzt werden kann.
Um den Umgang mit
Daten, insbesondere Daten in nicht empfohlenen Dateiformaten, zu erleichtern und
einen möglichst langen Erhalt der Nutzbarkeit zu ermöglichen, empfiehlt es
sich, eine sogenannte README-Datei zusammen mit den Daten abzulegen. In dieser
einfachen Textdatei wird der Kontext der Erstellung der Daten beschrieben, v.
a. mit welcher Software (inkl. Version) die Daten erstellt wurden, sowie
Informationen zu bestimmten Einstellungen von Messinstrumenten, Codierung, und
alle weiteren Hinweise, die helfen können, später Rückschlüsse zu ziehen, wie
die Daten genutzt werden können.
Es erhöht die Chancen
auf langfristige Nutzbarkeit, wenn eingebettete Objekte (wie z. B. Abbildungen,
Tabellen, etc.) zusätzlich als separate Datei abgelegt werden.
Bei der Konvertierung
empfiehlt es sich, die Qualität des Ergebnisses sorgfältig visuell zu
überprüfen, beispielsweise bei Texten insbesondere die Formeln, Sonderzeichen,
Umlaute, speziellen Schriftarten.
Weiterführende Links
Anleitung zum Konvertieren von .docx zu .pdf
Vortrag: Der PDF/A-Standard und seine verschiedenen
Versionen
Einen erweiterten
Überblick finden Sie auf forschungsdaten.info. Wenn Sie sich weiter vertiefen wollen,
werden Sie auf der Webseite von NESTOR - dem deutschen Kompetenznetzwerk für die
Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen fündig.
Unter NESTOR - Thema finden Sie aktuelle Kurzartikel
aus der Praxis, so z. B. zu den Formaten .tiff oder .pdf. Wenn Sie diese und
weitere Übersichten nebeneinanderlegen, werden Sie feststellen, dass die
Empfehlungen zu Dateiformaten voneinander abweichen. Wir verfügen noch nicht
über ausreichend Erfahrungen auf diesem Gebiet. Ein weiterer guter Weg ist es,
bei Unsicherheiten zu Formaten bei einem - soweit vorhanden - Fachdatenzentrum
oder einem Forschungsdatenverbund anzufragen. Wollen Sie Ihre Daten dort
ablegen, empfiehlt sich diese Vorgehensweise umso mehr. Sie werden dann
möglicherweise feststellen, dass Ihre Daten auch dann genommen werden, wenn das
gewählte Datenformat unter dem Aspekt der LZA nicht die erste Wahl ist.
Repositorien oder Forschungsdatenzentren arbeiten wissenschaftsnah und versuchen
immer auch einen Umgang mit Formaten zu finden, die in den jeweiligen
Fachdisziplinen weit verbreitet sind, z. B. mit Exceldateien. Als Beispiel
dafür, können Sie sich die Vorgaben des Verbunds Forschungsdaten Bildung anschauen.
Um ggf. selbst eine Entscheidung treffen
zu können, welche Formate für Ihr Vorhaben in Frage kommen, gibt es eine Reihe
von Kriterien, die Sie bei der Auswahl beachten sollten (nach
Harvey/Weatherburn 2018: 131):
- Ausmaß der Verbreitung des Datenformats
- Abhängigkeit von anderen Technologien
- Öffentliche Zugänglichkeit der
Dateiformat-Spezifikationen
- Transparenz des Dateiformats
- Metadatenunterstützung
- Wiederverwendbarkeit/Interoperabilität
- Robustheit/Komplexität/Rentabilität
- Stabilität
- Rechte, die die Datenbewahrung erschweren können
LZA nutzt zum momentanen Zeitpunkt zwei
Strategien zur langfristigen Datenerhaltung: Emulation und Migration. Unter
Emulation versteht man, dass auf einem aktuellen, modernen System ein häufig
älteres System nachgebildet wird, was in möglichst allen Aspekten das alte
System imitiert. Programme, die dies leisten, bezeichnet man als Emulatoren.
Ein prominentes Beispiel hierfür ist etwa DOSBox, welches es ermöglicht, auf
aktuellen Rechnern ein altes MS DOS-System samt nahezu aller Funktionalitäten
abzubilden und somit Software für dieses System zu verwenden, was mit einem
aktuelleren System höchstwahrscheinlich nicht mehr möglich ist.
Als Migration oder Datenmigration
bezeichnet man das Überführen von Daten auf ein anderes System oder einen
anderen Datenträger. Im Bereich der LZA soll so erreicht werden, dass die Daten
auf dem zu übertragenden System weiter ausgelesen und angeschaut werden können.
Hierfür ist es notwendig, dass die Daten mit dem Datenträger auf dem sie
ursprünglich erhoben wurden, nicht untrennbar verknüpft sind. Denken Sie daran,
dass auch Metadaten migriert werden müssen!
Bei der Wahl eines geeigneten
Speicherortes für die Langzeitarchivierung sollten Sie folgende Punkte
beachten:
- Technische Anforderungen – Der Dienstleister sollte eine Strategie
zur Daten-konvertierung, Migration und/oder Emulation verfolgen. Darüber
hinaus sollte in regelmäßigen Abständen eine Kontrolle der Lesbarkeit der
Dateien sowie eine Virenprüfung durchgeführt werden. Alle Schritte sollten
dokumentiert werden.
- Siegel für vertrauenswürdige
Langzeitarchive – Für
die Beurteilung, ob ein Langzeitarchiv vertrauenswürdig ist, wurden
verschiedene Siegel entwickelt z. B. das nestor-Siegel, welches auf Grundlage der DIN 31644 „Kriterien
für vertrauenswürdige digitale Langzeitarchive“ entwickelt wurde, ISO 16363 oder das CoreTrustSeal.
- Kosten –
Der Betrieb von Servern ebenso wie die Umsetzung der technischen Standards
sind mit Kosten verbunden, daher ist das Angebot mancher Dienstleister
kostenpflichtig. Der Preis hängt vor allem von der Datenmenge ab.
- Zugänglichmachung der Daten – Vor der Wahl des Speicherortes sollte man sich
die Frage stellen, ob die Daten zugänglich sein oder nur abgelegt werden
sollen.
- Langlebigkeit des Dienstleisters – Wirtschaftliche und politische Faktoren
haben Einfluss auf die Langlebigkeit der Dienstleister
Zusammenfassend lässt sich folgendes
sagen: Die hier aufgelisteten Informationen zur LZA haben für Sie vor allem
einen theoretischen Wert und nur einen bedingten Handlungswert. Wenn Sie in
einem zertifizierten Repositorium veröffentlichen, sind Sie gut beraten. Achten
Sie vor allem darauf, dass bei einer vertrauenswürdigen Einrichtung zu tun und
informieren Sie sich bei dieser Einrichtung bereits im Voraus zu Möglichkeiten
oder Planungen hinsichtlich einer LZA. Die hier aufgelisteten Aspekte für eine
gute LZA können Sie zur Formulierung möglicher Fragen an die Einrichtungen
nutzen. Dadurch sollten ausreichende Voraussetzungen für die LZA gegeben sein.