Aus Anlass der GNDCon 2.0 im Juni 2021, habe einige Kollegen der Deutschen Nationalbibliothek ein Dashboard gebaut, um die fast 9 Millionen Datensätze der gemeinsamen Normdatei etwas greifbarer und übersichtlicher zu machen.

Hier geht es direkt zum Dashboard

Datenmassen

Einen Gesamtabzug der Titeldaten der DNB und der GND haben wir nach verschiedenen Kriterien gefiltert. Das klingt einfacher, als es ist, weil die Menge der Daten sich nicht mit herkömmlichen Mitteln verarbeiten lässt. Mein Kollege Niko Wagner hat dazu ein spezielles Tool programmiert. Sein Pica-Parser braucht nur wenige Minuten, um die enormen Datenmengen zu durchsuchen und die gewünschten Daten als übersichtliche und leichter zu verarbeitende CSV-Dateien zu extrahieren.

Visualisierung

Unser Dashboard bietet allgemeine Informationen zur gesamten GND: welche Satzarten wie häufig vorkommen, welche Entitäten am häufigsten verwendet werden, in welchem zeitlichen Verlauf die Daten seit den 1970er-Jahren in die GND und ihre Vorläufer kamen.

Wordcloud
Wordcloud mit GND-Sachbegriffen

Außerdem kann man nach den einzelnen Satzarten filtern und sich zusätzliche Widgets anzeigen lassen, z. B.

  • eine Karte der häufigsten Wirkungsorte
  • eine Word-Cloud der zuletzt verwendeten Sachbegriffe
Karte
Karte mit Wirkungsorten von GND-Personen

Offene Daten

Die zugrundeliegenden Daten sind unter CC0-Lizenz frei verfügbar. Die Skripte für die Datenverarbeitung das Dashboard selbst sind ebenfalls frei bei GitHub einzusehen.

Hintergrund: Was ist die Gemeinsame Normdatei

Die Gemeinsame Normdatei (GND) enthalt normierte Personen, Körperschaften, Geografika, Sachschlageworte und weitere Normdaten. Sie stammt ursprünglich aus der Bibliothekswelt und wird in der Deutschen Nationalbibliothek (DNB) gehostet. Kultureinrichtungen, die die Normbegriffe der GND verwenden, können so Namen, Institutionen und geografische Orte eindeutig identifizieren.

Ein Beispiel: bei »Berlin« denken die meisten an die deutsche Hauptstadt. Tatsächlich gibt es aber in Nordamerika etliche Plätze mit demselben Namen. Wer die deutsche Hauptstadt und nicht einen der anderen Orte meint, kann sich auf den Normdatensatz von Berlin beziehen und in einem Katalog oder einer Publikation den GND-Identifier 4005728-8. Der Name ist nun eineindeutig identifizert.

Seit einigen Jahren nutzen nicht nur Bibliotheken diese Normdaten sondern immer mehr auch Museen, Archive, Forschungseinrichtungen. Es wird dadurch immer leichter möglich, die Datenbestände und Sammlungen der einzelnen Einrichtungen miteinander zu verbinden.