Mit dem Zweiten recherchiert man besser

Schreibtisch auf dem eine weiße Tasse mit einer Mainzelmännchen-Gravur steht. Auf der dazugehörigen Schachtel steht die Aufschrift "Verwöhnprogramm" in einem orangenen Kreis.

Unter dem Namen „Aufbau einer Suchoberfläche zur Erschließung und Erforschung der Daten aus dem Fernseh-Produktionsarchiv des ZDF“ ging ein neues Pilotprojekt der UB Leipzig Ende 2021 an den Start.


Das Projekt Aufbau einer Suchoberfläche zur Erschließung und Erforschung der Daten aus dem Fernseh-Produktionsarchiv des ZDF wird von der Deutschen Forschungsgemeinschaft (DFG) mit einer Laufzeit von zwei Jahren gefördert. Drei Mitarbeiter*innen, darunter die Autorin des Beitrags, arbeiten aktuell im Projekt. Das Portal wird aus rechtlichen Gründen allerdings nur Wissenschaftler*innen der Kommunikations- und Medien- und Filmwissenschaft zur Verfügung stehen.


Warum das Ganze? Nun, der Zugang zu den Produktionsarchiven der deutschen Rundfunkanstalten ist für die Forschung bisher eher schwierig. Auch wenn es seit einigen Jahren Regelungen für den einheitlichen Zugang zu den Archiven gibt, müssen Anfragen jeglicher Art an das jeweilige Archiv gerichtet werden. Eigenständige Recherche zumindest in den Metadaten der Archive ist bisher nicht möglich. Genau das soll mit Hilfe des Projekts geändert werden.

Martine Karwath und Daniel Vogt (UBL) bei der Arbeit am ZDF-Produktionsarchiv

Wenn es den Forschenden eigenständig möglich ist, in den Sendungsmetadaten der Rundfunkanstalten zu recherchieren, können einige Fragen selbstständig beantwortet und Anfragen zur Sichtung bestimmter Sendungen bei den Rundfunkarchiven konkreter gestellt werden. Zudem können mit verfügbaren Daten unterschiedliche sozialwissenschaftliche Fragestellungen untersucht werden – z. B. wenn man die Beiträge des heute journals analysiert.

Gestartet wurde mit etwa zwei Dutzend ersten Testdatensätzen, die verschiedene Jahrzehnte des ZDF-Produktionsarchivs abdecken. Es ließ sich an diesen ersten Datensätzen erahnen, was für eine Fülle an Informationen in den Metadaten steckt. Schnell wurde deutlich, weshalb das Archiv von den Mitarbeiter*innen des ZDF als „lebendes Archiv“ bezeichnet wird. An den frühen Daten der 1960er und 1970er sieht man, dass sie mit dem begrenzten Platz von Karteikarten auskommen mussten. Im Laufe der 1980er Jahre wurden Computer zur Dateneingabe eingeführt. Dies erleichterte die Arbeit und bot die Möglichkeit, mehr Informationen zu den Sendungen aufzunehmen als bisher.

Screenshot einer Suchanfrage auf der Plattform, weißer Text vor blauem Hintergund. Zu sehen ist die Stichwortsuche nach "SOKO" und verschiedene Auswahlkriterien, um die Suche zu verfeinern. Als erstes Ergebnis ist zu sehen "SOKO Köln: Kinder aus gutem Hause".
Einblick in die aktuelle Werkstattfassung der Plattform: Suchmaske

Um auszuprobieren, wie eine Suchoberfläche mit den Daten arbeiten könnte, wurde Ende Dezember 2021 eine Demoversion der Plattform „aus dem Boden gestampft“. Außerdem wurden die Testdaten ersten Bearbeitungen unterzogen. Die Datenstruktur sollte auf zwei Ebenen vereinfacht werden: zum einen Verschachtelungen reduzieren und zum anderen die eher ZDF-spezifischen Feldnamen verallgemeinern. Dafür dient das EBUCore, welches von der European Broadcasting Union (die vielleicht als Organisatorin des Eurovision Song Contest bekannt ist) entwickelt wurde. Es handelt sich dabei um ein Vokabular für Metadaten, um die vielfältigen Produktionen des Rundfunks in ihrer Bandbreite einheitlich zu beschreiben. Es hat sich bisher als sehr passend erwiesen und bietet die Grundlage, im weiteren Verlauf und eventuellen Anschlussprojekten, die Daten in einem Linked-Data-Format vielfältig für die Forschung und Wissenschaft nutzbar zu machen.

Durch den Werkstattcharakter der Demoplattform stand und steht das Ausprobieren technischer Möglichkeiten im Vordergrund. Es werden moderne Software-Plattformen eingesetzt, um eine leistungsfähige Suchmaschine mit einer komfortablen Benutzeroberfläche zu verbinden.

Die aus dem ZDF-Produktionsarchiv eingespielten Metadaten werden gleichzeitig für den Suchindex aufbereitet und in ein Linked-Open-Data-Format umgewandelt. Dafür wird die Software Apache Spark verwendet.

Screenshot einer Ergebnisliste auf der neuen Plattform. Zu sehen sind die ersten vier Treffer für die Suche nach "Sportstudio".
Einblick in die aktuelle Werkstattfassung der Plattform: Ergebnisliste

Das Suchsystem Elasticsearch kann in kürzester Zeit Volltext-Suchanfragen beantworten und es sind erste Schritte getan worden, um noch komplexere Fragen auszuwerten. Ermöglicht werden soll dies mit Hilfe eines Graphenservers, der entsprechende Abfragen im SPARQL-Format verarbeiten kann. Hierbei steht das Projekt allerdings erst am Anfang der Entwicklung, weshalb technisch noch einiges offen ist und ausprobiert werden soll. In jedem Fall soll zur Erstellung jeglicher Suchanfragen eine vielseitige Benutzungsoberfläche zur Verfügung gestellt werden, die auf dem heute weit verbreiteten Webframework React basiert.

Neben dem Team, das an der UBL das Portal und die Datenstruktur entwickelt, gibt es auch beim ZDF eine Arbeitsgruppe, die für das Gelingen unerlässlich ist. Denn beim ZDF selbst müssen rechtliche Fragen geprüft werden – die Daten des Produktionsarchivs waren ja ursprünglich nur für interne Zwecke erstellt worden. So muss intern abgestimmt werden, welche Daten im Portal landen dürfen und daneben technische und inhaltliche Fragen mit dem Team in Leipzig abgestimmt werden.

Zwei Personen sitzen an einem Schreibtisch mit Blick Richtung zwei Bildschirme.
So könnte es aussehen, wenn Forschende zukünftig das ZDF-Produktionsarchiv nutzen.

Für das Jahr 2023 stehen weitere spannende und auch große Schritte für das Projekt an: Die Demo und das Datenmodell sollen in einem ersten Workshop mit der Fach-Community des Fachinformationsdienst (FID) für Kommunikations-, Medien- und Filmwissenschaft adlr.link auf ihre Funktionalität und Schlüssigkeit geprüft werden, damit nicht an den Bedürfnissen der Forschenden vorbei entwickelt wird. Erste Schritte stehen an, um dem Ganzen ein professionelles Design zu verpassen und dadurch die Usability zu verbessern. Die Seite soll neben Suchfunktionen und anderen Features auch mit allen notwendigen und hilfreichen Texten über die Nutzung bestückt werden.

Martine Karwath

Martine Karwath ist Koordinatorin des Projekts "Aufbau einer Suchoberfläche zur Erschließung und Erforschung der Daten aus dem Fernsehproduktionsarchiv des ZDF" an der Universitätsbibliothek Leipzig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert