KI: Ein Traum oder Alptraum für die Bibliothek?

Performante Hardware, effiziente Algorithmen, große Datenmengen: Drei Faktoren, die zur rasanten Entwicklung im Bereich der Künstlichen Intelligenz in den letzten Jahren beigetragen haben.

Das Prinzip der Künstlichen Intelligenz (KI) gleicht einem Traum, der durch große Sprachmodelle (Large Language Models, LLM) erfüllt wird: diese können alle Bücher lesen, und sie tun dies in der Art eines seltsamen Spiels. Sie lesen den Anfang eines Satzes, verdecken das Ende und versuchen das nächste Wort zu raten und sie wiederholen dies milliardenfach. Das Ergebnis ist ein Modell von Sprache, welches dieses Spiel weiter führen möchte, auch mit der Beteiligung anderer, die eine Anfrage – ein Prompt – formulieren.

Beschreibung Titelbild: Performante Hardware, effiziente Algorithmen, große Datenmengen: Drei Faktoren, die zur rasanten Entwicklung im Bereich der Künstlichen Intelligenz in den letzten Jahren beigetragen haben.

Nun können mithilfe von KI beliebige Texte geschrieben werden. Man kann (fast) alle Fragen stellen und bekommt eine wahrscheinlich plausible Antwort.

Man kann:

  • Definitionen nachschlagen,
  • bessere Formulierungen finden,
  • Dokumente zusammenfassen,
  • ein Excel-Makro oder eine Python-Funktion schreiben lassen,
  • eine Visualisierung für die eigenen Daten für eine Publikation erstellen,
  • inhaltliche Kritik anfordern,
  • Interviews transkribieren,
  • Bilder generieren, annotieren oder abwandeln, aber auch
  • Marktforschung betreiben,
  • Dialoge erfinden oder
  • Texte stilistisch einfärben lassen.

Die Liste lässt sich weiterführen und durch  Beispiele aus verschiedenen Disziplinen ergänzen (in der Forschung werden große Sprachmodelle als multi-task learners bezeichnet).

Die Chatform täuscht leicht über die Tatsache hinweg, dass jedes generierte Wort (oder Token) vom Modell erraten wird. Die Antworten (die doch nur Vervollständigungen sind) sind somit möglicherweise korrekt, inkorrekt oder etwas dazwischen. Der Aufwand der Überprüfung, durch die Nutzenden, kann beträchtlich sein. Ein Verständnis für die Grenzen dieser Technologie zu entwickeln ist eine Voraussetzung für deren produktive Nutzung.

Der erste Chatbot stammt aus dem Jahr 1966 und wurde am MIT von Joseph Weizenbaum vorgestellt. Der Bot trug dem Namen ELIZA und arbeitete mit einfacher Mustererkennung. Der Screenshot zeigt eine Beispielinteraktion mit einer ELIZA-Anmutung.
Der erste Chatbot stammt aus dem Jahr 1966 und wurde am MIT von Joseph Weizenbaum vorgestellt. Der Bot trug den Namen ELIZA und arbeitete mit einfacher Mustererkennung. Der Screenshot zeigt eine Beispielinteraktion mit einer ELIZA-Anmutung.
Große Sprachmodelle lassen sich lokal auf dem eigenen Computer betreiben. Der Screenshot zeigt beispielhaft die Open Source Desktop Applikation Jan.AI in Verbindung von dem open-weights LLM “nemotron-3-nano” von NVIDIA, gerade ein Prompt zum Textsatzsystem LaTeX vervollständigend (als Hardware diente hier ein 2025 erschienener Mini-PC).
Große Sprachmodelle lassen sich lokal auf dem eigenen Computer betreiben. Der Screenshot zeigt beispielhaft die Open Source Desktop Applikation Jan.AI in Verbindung von dem open-weights LLM “nemotron-3-nano” von NVIDIA, gerade ein Prompt zum Textsatzsystem LaTeX vervollständigend (als Hardware diente hier ein 2025 erschienener Mini-PC).

Als Bibliothek begleiten wir Studierende, Lehrende und Forschende bei dem Umgang mit dieser Technologie: Wir bieten Schulungen zu Recherchen und dem wissenschaftlichen Arbeiten mit KI an, aber auch offene Räume und Formate, um sich über konkrete Einsatzmöglichkeiten oder Anwendungsprobleme auszutauschen – für alle, die sich an der Universität Leipzig mit dem Thema KI beschäftigen oder mehr darüber wissen und sich einen kritischen Blick erarbeiten möchten.

Es gilt, neben der allgemeinen Nutzung auch Dinge zu beachten, die in der Phase hoher oder auch übersteigerter Erwartungen leicht untergehen. Der Ressourcenaufwand ist groß: Digitalität und damit auch KI ist nicht nur virtuell, sondern braucht Rohstoffe: Silizium, Kobalt, Kupfer, Mangan, Gold, Seltenerdmetalle und viele weitere Rohstoffe – laut einer Schätzung benötigen 2 kg Computer rund 800 kg Rohstoffe. Auch benötigen die Betriebsräume Energie: Es wird erwartet, dass die Leistungsaufnahme der Data Center durch den Bedarf im Bereich KI sich allein in Deutschland in der nächsten Dekade verdoppelt.

Ebenso groß sind die Kosten sowie der Einsatz vielfältiger sichtbarer und unsichtbarer menschlicher Arbeit, die in die Verbesserung der Modelle fließt. Die Grenze zwischen Datendiebstahl und fair use wird im Rahmen einer Vielzahl von Klagen und Gerichtsprozessen kontinuierlich verhandelt.

Während der Nutzung ist jeder Prompt ein intellektueller Akt, ein kostbares Gut – noch mehr in einer Zeit zunehmend automatisiert erstellter Inhalte. Modelle können kollabieren, wenn sie mit dem eigenen Output trainiert werden. Dementsprechend wichtig ist authentischer, verifizierter Input. Teile des Internet und auch kulturelle Einrichtungen leiden unter einer erhöhten Serverlast, ausgelöst durch Bots diverser KI-Applikationen.

Die Bestände in Bibliotheken sind sehr wertvoll, materiell und ideell, und wichtig ist, dass die Inhalte auch kuratiert werden. Das drückt sich aus in der Erwerbung, in der Digitalisierung, in der Erhaltung von Dokumenten und Artefakten, in den Katalogen und Indizes. Diese Funktion ist Grundlage des Vertrauens, die wir auch im Bereich KI weiterführen wollen – in der Prüfung von Verlagsinhalten, dem Testen von Einbindungen von KI in Dienstleistungen, die wir als Bibliothek durch Dritte beziehen, oder in der Konzeption von Angeboten, die Vorteile von KI nachhaltig nutzen, ohne das Vertrauen zu gefährden, mit dem unsere Einrichtung und ihre Dienstleistungen jeden Tag genutzt werden.

Im Austausch mit anderen erschließen wir das weite Feld der Künstlichen Intelligenz: Auf dem Bibliothekskongress im Juni 2025 in Bremen (im Rahmen des FID Media), im Austausch mit anderen wissenschaftlichen Bibliotheken in Deutschland wenn es um Weiterbildungsangebote geht, oder mit KI Research Labs, wenn wir über Datensätze in der Bibliothek diskutieren, beispielsweise Sammlungen freier bibliographischer Metadaten und Abstracts für common pile.

Multimodale Modelle können mehr als Text verarbeiten, z. B. Bilder in bibliographische Metadaten umwandeln, soweit die relevanten Informationen im Bild vorhanden sind (einen Identifier konfabuliert das Modell der Form halber hinzu). Im Beispiel vier Fotos einer Publikation aus dem Offenen Magazin, konvertiert zu textuellem MARC mit dem Modell Qwen 2.5VL 72B Instruct von Alibaba (Aliyun), gehostet im Rechenzentrum des GWDG in Göttingen.
Multimodale Modelle können mehr als Text verarbeiten, z. B. Bilder in bibliographische Metadaten umwandeln, soweit die relevanten Informationen im Bild vorhanden sind (einen Identifier konfabuliert das Modell der Form halber hinzu). Im Beispiel vier Fotos einer Publikation aus dem Offenen Magazin, konvertiert zu textuellem MARC mit dem Modell Qwen 2.5VL 72B Instruct von Alibaba (Aliyun), gehostet im Rechenzentrum des GWDG in Göttingen.
Datenextraktion aus Dokumenten ohne Cloud-Services. Im Bild rechts eine Tabelle, Schreibmaschinenschrift, mit ökonomischen Indikatoren aus der Publikation “Foreign Economic Trends and Their Implications for the United States” von 1984; links die extrahierten Daten im Markdown-Format. Nutzung eines Mini-PC, mit einem multimodalem, open-weights Modell (qwen3-vl).
Datenextraktion aus Dokumenten ohne Cloud-Services. Im Bild rechts eine Tabelle, Schreibmaschinenschrift, mit ökonomischen Indikatoren aus der Publikation “Foreign Economic Trends and Their Implications for the United States” von 1984; links die extrahierten Daten im Markdown-Format. Nutzung eines Mini-PC, mit einem multimodalem, open-weights Modell (qwen3-vl).

Die offene Forschung und Entwicklung im Bereich KI ist eines der Leitmotive unserer Bibliothek. Während kommerzielle Anbieter gemessen an bestimmten Metriken führend sind, so gibt es sich schnell entwickelnde Alternativen. Im September 2025 lud die Gesellschaft für wissenschaftliche Datenverarbeitung in Göttingen (GWDG) zu einem Treffen zum Thema “KI für alle Hochschulen” ein, an dem wir uns als Universitätsbibliothek beteiligt haben. Ziel ist der Aufbau einer unabhängigen, offenen Grundinfrastruktur für KI-Anwendungen und viele dieser Basisdienste sind schon heute über Academic Cloud nutzbar: Chat auf Basis offener Modelle, Audio-Transkription oder Bildgenerierung. Diese Angebote für die wissenschaftliche Community in Deutschland werden rege genutzt: über 700.000 Personen aus über 400 wissenschaftlichen Einrichtungen haben diese Angebote bereits ausprobiert.

Mit den KI-Tools der Academic Cloud stehen der deutschen Wissenschaftscommunity leistungsfähige, open-weights Modelle zur Verfügung. Im Bild Qwen QwQ-32B, ein sogenanntes Reasoning-Modell, herausgegeben vom chinesischen Alibaba (Aliyun). Die Modelle werden vom GWDG in einem Rechenzentrum in Göttingen gehostet.
Mit den KI-Tools der Academic Cloud stehen der deutschen Wissenschaftscommunity leistungsfähige open-weights Modelle zur Verfügung. Im Bild Qwen QwQ-32B, ein sogenanntes Reasoning-Modell, herausgegeben vom chinesischen Alibaba (Aliyun). Die Modelle werden vom GWDG in einem Rechenzentrum in Göttingen gehostet.
Neuronale Netze können Dokumente segmentieren und erkennen Buchstaben, Wörter, Sätze, Formeln aber auch Tabellen und Bilder mit hoher Präzision. Im Bild “docling”, ein Open Source Projekt von IBM Research Rüschlikon, links: original, rechts: segmentierte Seite (Satzebene).
Neuronale Netze können Dokumente segmentieren und erkennen Buchstaben, Wörter, Sätze, Formeln aber auch Tabellen und Bilder mit hoher Präzision. Im Bild “docling”, ein Open Source Projekt von IBM Research Rüschlikon, links: original, rechts: segmentierte Seite (Satzebene).

Den Aufbau und die Nutzung offener Infrastruktur für KI sehen wir als eine unserer Kernaufgaben. Sie führt fort, was die Bibliothek technologisch mit anderen Projekten im Bereich Open Source seit Jahren verfolgt: Unabhängigkeit, Transparenz, Nachnutzbarkeit und Kollaboration auf der technischen Ebene – aber auch Schutz von Daten und Schonung von Ressourcen. In diesem Sinne werden wir bedarfsorientiert einzelne Anwendungsszenarien entwickeln, testen, dokumentieren und über Ergebnisse berichten.

Wenn Sie Fragen oder Anregungen haben, die dieses Thema betreffen, dann schauen Sie gern bei einem unserer Workshops vorbei oder melden Sie sich bei unseren Kolleg*innen im Team KI an der UB Leipzig unter info@ub.uni-leipzig.de.

Lassen Sie uns diese Zukunft gemeinsam erkunden!

Martin Czygan

Martin Czygan ist Mitarbeiter im Bereich Digitale Dienste der Universitätsbibliothek Leipzig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert