Lesen und lesen lassen: Text- und Data-Mining in lizenzierten Ressourcen der UBL

Stellen Sie sich vor, ein gefährliches Virus bricht aus.

Meldungen über Neuinfektionen häufen sich und Sorge macht sich in der Bevölkerung breit. Unter Zeitdruck suchen Wissenschaftlerinnen und Wissenschaftler nach einer Gegenstrategie – und stehen zunächst vor einem Berg an Fachliteratur, der unmöglich in kurzer Zeit zu lesen ist.

Ansicht des Kapsids (Proteinhülle) des Zika-Virus (David Goodwill / Wikimedia Commons, CC-BY 4.0, unverändert)

So geschah es im vergangenen Jahr beim Ausbruch des Zika-Virus in Südamerika. Der Chemiker und Open-Science-Aktivist Peter Murray-Rust konnte zeigen: Für einen ersten Überblick ist es nicht nötig, hunderte wissenschaftliche Fachartikel zu lesen. Es ist besser, sie lesen zu lassen – von einer Software, die Informationen aus Texten extrahiert. Welche Themen tauchen im Kontext von Zika auf? Lässt sich die Verbreitung des Virus eindämmen oder gibt es Ansätze zur Therapie der Krankheit?

Dies ist nur ein Beispiel für eine Methode namens Text-Mining. Je nachdem, wie strukturiert die durchsuchten Quellen vorliegen, spricht man auch von Data-Mining oder allgemein von Text- und Data-Mining (TDM). TDM wird in nahezu allen Forschungsbereichen angewandt. (In diesem Artikel von Bastian Drees finden Sie viele weitere Beispiele und Details.) Forschende, die mit der Methode des TDM arbeiten, sind immer auf den uneingeschränkten Zugang zu Texten und Daten angewiesen. In der Praxis ist das kein Problem bei gemeinfreien Werken oder Open-Access-Publikationen. Komplexer ist die Rechtslage bei aktueller wissenschaftlicher Fachliteratur, wo der Zugang durch Lizenzierung erworben werden muss: Manche Lizenzverträge erlauben TDM, manche nicht. Erst die Novellierung des deutschen Urheberrechtsgesetzes, die im März 2018 in Kraft tritt, sieht eine allgemeine Erlaubnis von TDM unter gewissen Einschränkungen vor (Gesetzentwurf, §60d).

Auf dieser Seite erhalten Sie bis dahin Auskunft darüber, ob unsere Lizenzen die Erlaubnis zu TDM beinhalten. Benötigen Sie Informationen zu den genauen Nutzungsbedingungen dieser Bestände oder Unterstützung beim Zugriff, so wenden Sie sich bitte an das Open Science Office.


Nachtrag, 2.3.2018:

Die erwähnte Übersicht darüber, welche unserer Lizenzen die Erlaubnis zu TDM enthalten, ist seit dem 1. März 2018 nicht mehr online, weil sie nach der UrhG-Änderung nicht mehr notwendig ist. An ihrer Stelle finden Sie stattdessen einige Hinweise, was Forschende beim TDM in lizenzierten Ressourcen beachten sollten.

Stephan Wünsche

Dr. Stephan Wünsche ist an der Universitätsbibliothek Leipzig Referent am Open Science Office und unter anderem für die Themen Forschungsdatenmanagement und Forschungsinformation zuständig. Außerdem ist er Fachreferent für Musik.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert