Chemie zu machen ist manchmal recht anstrengend. Viel leichter ist es, nur über sie zu reden. Dies tat auch der für seine Aphorismen bekannte Naturforscher Georg Christoph Lichtenberg (1742 – 1799).
Waagrecht: 1. Lange als unteilbar ...
Von Wiley-VCH zur Verfügung gestellt
Jeder Chemiker produziert Forschungsdaten, egal ob er Substanzen synthetisiert, Spektren aufnimmt oder sich mit der Theorie befasst. Die dabei entstandenen Daten muss jeder Forscher erfassen und dokumentieren, um von den Ergebnissen berichten und nachweisen zu können, dass sie reproduzierbar sind. Doch wie weit ist die chemische Community in der Digitalisierung dieser Forschungsdaten? Die erste Umfrage des Konsortiums NFDI4Chem gibt Antworten.
Ein Kerngedanke beim Aufbau der nationalen Forschungsdateninfrastruktur (NFDI) ist, sie entlang der Bedürfnisse der Nutzer zu entwickeln, also nachfrageorientiert. Um den Bedürfnissen der chemischen Gemeinschaft bestmöglich gerecht zu werden, führt das Konsortium NFDI4Chem (Kasten S. 22) dazu regelmäßig Umfragen durch. Bei der Umfrage Ende letzten Jahres haben Wissenschaftler aller Karrierestufen, und zwar hauptsächlich Doktoranden, Postdoktoranden und Professoren aller klassischen Fachrichtungen der Chemie aus Deutschland teilgenommen. Eine kurze Auswertung aller Daten steht im NFDI4Chem-Proposal3), die ausführliche Version ist in Druck.4) Die Daten der Umfrage sind im Daten-Repositorium der Universität Hannover veröffentlicht.5)
Um den Stand der Digitalisierung in Erfahrung zu bringen, ist es zunächst wichtig zu verstehen, wie Forscher heute ihre Daten erfassen. Dazu betrachtet unsere Studie 541 Antwortsätze von Teilnehmern aus Deutschland.
Das NFDI4Chem-Konsortium besteht aus Datenproduzenten und -nutzern aus universitärer und außeruniversitärer Forschung, Infrastruktureinrichtungen und Fachgesellschaften wie der Gesellschaft Deutscher Chemiker (GDCh), der Bunsen-Gesellschaft und der Deutschen Pharmazeutischen Gesellschaft. Die Vision des Fachkonsortiums Chemie NFDI4Chem in der nationalen Forschungsdateninfrastruktur (NFDI) ist, dass alle wichtigen Schritte in der chemischen Forschung digitalisiert werden,1) von der Erzeugung der Daten im Labor bis zu deren Veröffentlichung unter Fair-Datenstandards2) (Findable, Accessible, Interoperable, Reuseable). Hierbei unterstützt NFDI4Chem Wissenschaftler aller Disziplinen der Chemie im akademischen Bereich bei ihren Bemühungen, Forschungsdaten zu sammeln, zu speichern, zu verarbeiten, zu analysieren, zu teilen und wiederzuverwenden. NFDI4Chem wird dazu bereits vorhandene Infrastrukturen verbinden und weitere Werkzeuge und digitale Dienste für ein umfassendes Forschungsdatenmanagement (FDM) entwickeln.
Ein weiteres zentrales Ziel von NFDI4Chem ist, einen kulturellen Wandel in der Chemie in Richtung Digitalisierung voranzutreiben. Dies will das Konsortium erreichen, indem es in der Gemeinschaft Kompetenzen im Forschungsdatenmanagement schafft, die Fair-Prinzipien bewusst macht sowie allgemeine Mindestinformationsstandards zur Dokumentation von Forschungsdaten entwickelt. Data Literacy ist daher bereits in der Ausbildung zu vermitteln. Der Schwerpunkt von NFDI4Chem liegt auf Daten für Moleküle und Reaktionen, einschließlich der Daten für deren experimentelle und theoretische Charakterisierung.
Sicherlich nutzen die meisten von uns immer noch das klassische, handgeschriebene Laborjournal. Aber ist dies noch zeitgemäß? 518 Teilnehmern der Studie haben Fragen zum Stand der Technik in der Datenerfassung beantwortet. Davon gab etwa die Hälfte (53 Prozent) an, dass sie von Anfang an digitale Daten generieren, während 38 Prozent der Befragten die Daten weiterhin analog erfassen und diese erst später im Datenanalyseprozess digitalisieren.
162 der Teilnehmer antworteten detailliert auf eine offene Frage, welche Daten sie nicht digital erzeugen und welche Prozesse damit verbunden sind. Hierbei erwähnten sie häufig die Dokumentation von Versuchsdurchführungen in Papierlaborbüchern, die insbesondere analog erfasste Daten und Metadaten wie Syntheseplanung, Einwaage, Probenvorbereitung enthalten, zudem Geräteparameter und visuelle Beobachtungen während des Experiments, also pH-Wert, Temperatur, Druck, Gasfluss oder Farbänderungen. Darüber hinaus dokumentieren die Forscher Daten aus der Elementaranalyse, Kinetikdaten, Retentionsfaktoren aus der Dünnschichtchromatographie, Titrationsdaten, Mikroskopiedaten oder Elektropherogramme häufig analog. Während der Datenanalyse, insbesondere in der Spektrenauswertung, erfassen sie abgeleitete Daten oft nicht digital, darunter NMR-Kopplungskonstanten sowie chemische Verschiebungen und deren Zuordnungen.
Die Teilnehmer berichten davon, dass sie Daten aus digitalen Geräten wie IR-Spektrometern, Gaschromatographen oder Massenspektrometern ausdrucken und später manuell wieder eingeben müssen. Die Gründe hierfür variieren von alten Geräten bis zu proprietärer Gerätesoftware ohne Möglichkeiten, die Daten zu exportieren.
460 Studienteilnehmer beantworteten, welche Daten sie speichern und wie sie sie archivieren. 61 Prozent speichern generell alle Daten entlang des Datenlebenszyklus. 17 Prozent speichern sowohl Rohdaten als auch verarbeitete und analysierte Daten. Lediglich 4,3 Prozent geben an, nur Rohdaten zu behalten. 7,1 Prozent speichern Rohdaten und analysierte Daten, und 3,9 Prozent speichern nur Rohdaten und verarbeitete Daten.
14 Prozent gaben an, Daten von nicht reproduzierbaren oder nicht analysierbaren Experimenten oder Messungen – mit Vorsicht – zu löschen. Bei diesen Fragen waren Mehrfachantworten möglich.
Bei der Entscheidung, wie und wo die Daten archiviert werden sollen, können weniger als die Hälfte (45 Prozent) der Befragten auf Regeln und Empfehlungen in ihren Instituten oder Arbeitsgruppen verweisen. Wenn Regeln existieren, reichen diese von standardisiertem Forschungsdatenmanagement bis zu allgemeinen Empfehlungen für den Umgang mit Daten.
Die Verfügbarkeit von Rohdaten in Kombination mit wichtigen Metadaten zu ihrer Entstehung steigert die Reproduzierbarkeit und spätere Wiederverwendbarkeit der Daten. Jedoch ist bisher die Beschreibung von Daten mit Metadaten das Manko in der Datenverwaltung. Manuell ist es meist zeitaufwendig und kommt nur wenig der eigenen Forschung zugute, sondern eher dem Arbeitskreis und zukünftigen Nutzern.
In der Umfrage gaben weniger als die Hälfte (46 Prozent) der 460 Befragten an, ihre gesammelten Daten mit Metadaten zu beschreiben (Abbildung 1a). Davon beantworteten 211 der Studienteilnehmer weitere Fragen darüber, wie sie Metadaten generieren. Ein Großteil (68 Prozent) gibt an, dies manuell durchführen zu müssen (Abbildung 1b), lediglich 15 Prozent der Befragten nutzen Software-Tools, die das Annotieren von Metadaten erleichtern. 17 Prozent der Teilnehmer arbeiten zumindest teilweise mit einer Kombination aus manueller und softwaregestützter Beschreibung der Forschungsdaten mit Metadaten.
Die in diesem Kontext am häufigsten genannten Metadaten sind die Probenbeschreibung (37 Prozent) und die Methode der Datenerfassung (31 Prozent), beides Metadaten, die für die Reproduzierbarkeit entscheidend sind.
Eine Lösung, das Beschreiben der Forschungsdaten mit Metadaten zu vereinfachen, bieten elektronische Laborbücher (ELN). Diese ersetzen zunehmend das Laborbuch aus Papier und eignen sich dazu, Datenverwaltungsprozesse zu vereinfachen und Metadaten zu erfassen, zu verwalten und zu standardisieren. Dennoch geben nur 17 Prozent der 452 Befragten an, überhaupt ein ELN zu verwenden, obwohl ihnen als Antwortmöglichkeiten neben kommerziellen und Open-Source-Produkten auch Wikis, Cloud-Laufwerke, Word und Excel als ELN angeboten wurde.
Die Deutsche Forschungsgemeinschaft (DFG) fordert, dass Wissenschaftler ihre Forschungsdaten in der eigenen Einrichtung oder in einer fachlich einschlägigen, überregionalen Infrastruktur für mindestens zehn Jahre nach den Regeln der guten wissenschaftlichen Praxis archivieren. Dies ist notwendig, um die Daten zu einem späteren Zeitpunkt reproduzieren zu können. Aber wie sieht es in der Praxis aus?
Die langfristige Speicherung der Forschungsdaten ist für alle wissenschaftlichen Projekte wichtig. Dabei sind 82 Prozent der 349 Studienteilnehmer der Meinung, die Regeln der guten wissenschaftlichen Praxis der DFG umsetzen zu können, während 11 Prozent der Befragten Probleme bei der Befolgung der Regeln angeben. 7 Prozent machten dazu keine Angaben.
Fast alle (99 Prozent) der 448 Befragten speichern ihre Daten nach Projektende dauerhaft. Dabei nutzen 95 Prozent dezentrale Speicherinfrastrukturen wie einen Arbeitsgruppen-, Instituts- oder Universitätsserver, einen Cloud-Dienst oder ein Datenrepositorium. Mit 8,7 Prozent verlassen sich nur wenige auf eher unzuverlässige Langzeitspeicher wie lokale PCs, DVDs, USB-Sticks oder externe Festplatten. Nur 13 Prozent der Teilnehmer nutzen Datenrepositorien (Mehrfachantworten möglich).
Ein wichtiger Schlüsselschritt für eine erfolgreiche Zusammenarbeit in der Forschung ist das Teilen von Daten – ob innerhalb einer Arbeitsgruppe oder mit Externen. Fragen rund um den Datenaustausch beantworteten 448 Teilnehmer der Studie (Abbildung 2). Davon nutzen 80 Prozent einen Arbeitsgruppen- oder Institutsserver, um Daten innerhalb der Arbeitsgruppe zu teilen. Lediglich 22 Prozent der Teilnehmer verwenden zumindest teilweise eine Art von Cloud-Dienst.
Traditionelle Medien wie E-Mail (56 Prozent) und USB-Sticks (40 Prozent) sind bei Datenaustausch in der direkten persönlichen Umgebung besonders beliebt, während moderne Infrastrukturen wie elektronische Laborbücher dazu eher weniger (18 Prozent) genutzt werden. Datenrepositorien wie nmrshiftdb26) nutzen lediglich 12 Prozent der Befragten.
Beim Datenaustausch mit Externen zeigt sich ein etwas anderes Bild (Abbildung 2): Hier teilen Chemiker die Daten vor allem per E-Mail, wie 65 Prozent der 448 Studienteilnehmer angaben. Anders als intern spielen bei der externen Datenverbreitung Arbeitsgruppen- oder Institutsserver fast keine Rolle. 80 Prozent nutzen sie für das interne Teilen von Daten, 14 Prozent, wenn sie Daten mit Externen teilen.
Auch tragbare Medien wie USB-Sticks verlieren an Bedeutung, 24 Prozent nutzen sie bei externem Datenaustausch. Datenrepositorien nutzten nahezu unverändert 12 Prozent.
Eine Laborinfrastruktur mit ELNs verwenden nur 10 von 448 Befragten (2,2 Prozent), um Daten mit der Außenwelt zu teilen. 39 Prozent der Befragten verstehen unter Datenaustausch die Veröffentlichung als Supporting Information oder als Datenveröffentlichung. Bemerkenswerterweise geben 10 Prozent der Teilnehmer an, dass sie ihre Daten überhaupt nicht außerhalb ihrer Gruppe teilen.
Wenn Daten geteilt wurden, ist der nächste logische Schritt, dass ein andere Forscher die Daten weiterverwertet. So steigt die Effizienz in der Forschung, da nicht alle Daten neu generiert werden müssen. Auch als Vergleich können Daten anderer Forscher die eigene Forschung unterstützen und ergänzen. Publizierte und offen zugängliche Daten sind eine Chance für die Chemie. Sie können mit weiteren Daten kombiniert, in neue Forschungsfragen eingebunden oder mit anderen Methoden analysiert werden und so zu neuen Erkenntnissen führen.
Die wissenschaftliche Reputation eines Wissenschaftler steigt, wenn ein anderer seine Daten zitiert. Aber wie ist es um die Bereitschaft zur Wiederverwendung von Daten in der Gemeinschaft bestellt?
Von 439 Befragten haben 62 Prozent Daten mindestens einmal von einem Kollegen desselben Instituts oder derselben Arbeitsgruppe (49 Prozent) oder von einem Kollegen eines anderen Instituts (32 Prozent), aus einem Datenarchiv (15 Prozent) oder aus einer Textveröffentlichung (33 Prozent) wiederverwendet. Lediglich 11 Prozent der Forscher nutzen ausschließlich Daten aus der eigenen Gruppe oder Instituts. Nur 5,0 Prozent der Befragten gaben an, den Daten anderer nicht zu vertrauen.
Chemiker vertrauen also nicht nur den Daten aus der eigenen Umgebung, und die chemische Community strebt an, Daten wiederzuverwerten.
Die Umfrage zeigt viele Punkte, an denen das Konsortium NFDI4Chem ansetzen wird. Vielen Forschern sind die Herausforderungen des Forschungsdatenmanagements bereits bewusst, aber erst durch die neuen Smart-Lab-Anwendungen werden sie die Werkzeuge an der Hand haben, um Daten effizient zu verarbeiten, mit Metadaten zu versehen und für Datenpublikationen aufzubereiten. NFDI4Chem ist am 1. Oktober gestartet, und die Initiative wird ihre Ansätze, die neuen Entwicklungen und nächsten Schritte kontinuierlich mit der chemischen Community diskutieren.
Diesen Beitrag haben Oliver Koepler, Johannes Liermann, Florian Schön und Sonja Herres-Pawlis verfasst. Koepler, Leibniz-Informationszentrum Technik und Naturwissenschaften TIB, hat den Aufbau des NFDI4Chem-Konsortiums koordiniert und ist gemeinsam mit Christoph Steinbeck, Uni Jena, dessen Sprecher. Liermann, Universität Mainz, ist Cosprecher des NFDI4Chem-Konsortiums. Seine jahrelange Beschäftigung mit der Qualität publizierter NMR-Daten brachte ihn dazu, sich bei NFDI4Chem zu engagieren. Schön ist seit September Postdoc an der RWTH Aachen im Arbeitskreis von Herres-Pawlis und betreut bei NFDI4Chem unter anderem Metadaten-Studien. Herres-Pawlis ist Cosprecherin des NFDI4Chem-Konsortiums. Sie leitet den Lehrstuhl für bioanorganische Chemie an der RWTH Aachen und bearbeitet seit 2009 chemische Workflows und Forschungsdaten.
Weniger als ein Fünftel der Chemiker nutzt ein elektronisches Laborbuch.
Wenn Forscher ihre Daten noch analog speichern und manuell erfassen, liegt das oft an fehlenden Werkzeugen.
Sind Forschungsdaten mit Metadaten wie Methoden oder Informationen über die Proben verknüpft, sichert das die Reproduzierbarkeit der Ergebnisse.
Grundsätzlich sind Chemiker offen, Daten zu teilen und Daten anderer Forscher wiederzuverwenden.
Wenn Sie ein registrierter Benutzer sind, zeigen wir in Kürze den vollständigen Artikel.