Skip to content

Soldatenbriefe

Marius Hug edited this page Jun 3, 2022 · 4 revisions

Vorlage

Die Datenbasis für die Konvertierung und Integration des gesamten Soldatenbrief-Korpus bestand aus einer docx-Datei. Diese enthielt in einer einspaltigen Tabelle insgesamt 170 Briefe. Desweiteren wurde eine docx-Datei übergeben, die ebenfalls in einer Tabelle (7-spaltig) als Verzeichnis der untersuchten Texte die zugehörigen Metadaten enthielt.

Workflow

Infrastruktur

Für die kollaborative Arbeit an den Daten wurde ein GitHub-repository angelegt: https://github.com/deutschestextarchiv/soldatenbriefe.

Das Repository enthält neben einer README und LICENSE verschiedene Unterordner:

  • attic: Ausgangsdateien
  • data: die einzelnen Dateien des Korpus
  • scripts: Skripte, Tools und Metadaten

Erstellung eines DTABf-konformen TEI-Headers für das gesamte Korpus

Auf Basis vorheriger Kurationsprojekte wurde eine Datei soldatenbriefe-header.xml im DTA-Basisformat (DTABf) erstellt, die all diejenigen Einträge enthält, die für alle Einzeltexte innerhalb des Korpus gültig sind. Das sind z. B. die an der Korpusbereitstellung beteiligten Personen und Institutionen, die Transkriptionsrichtlinien, die Lizenz, die Sprache und Textgattungszuordnung.

Vorbereitung der Kuration

Zunächst wurden die beiden zur Verfügung gestellten docx-Dateien (Korpus und Metadaten) transformiert. Die Korpus-Datei, aus der händisch die Inhalte aus der Tabelle extrahiert wurden, wurde mit dem Tool OxGarage nach TEI P5 konvertiert. Das die Metadaten enthaltene Quellenverzeichnis wurde (manuell) in ein Excel-Sheet transformiert, und anschließend als CSV (delimiter: |) gespeichert.

Kuration

  1. metadata.csv

    Damit die Metadaten später skriptbasiert den einzelnen Briefen zugeordnet werden konnten, mussten die hier zeilenweise vorliegenden Einträge evaluiert und ggfs. korrigiert werden. Die Qualitätssicherung kann entweder direkt in einer Software für Tabellenkalkulation erfolgen oder auf der Kommandozeile mit dem Werkzeug csvtool.

  2. soldatenbriefe.xml

    Die Kuration der einzelnen Briefe erfolgte nach den Richtlinien des Deutschen Textarchivs (DTA) mit dem Ziel, die finalen Dateien in einem TEI P5/XML-Format analog zum Basisformat des DTA (DTABf) bereitstellen zu können. Dazu wurden die aus dem automatisierten Konvertierungsworkflow gewonnen Elemente evaluiert und ggfs. angepasst. In Einzelfällen und bei uneindeutigen Auszeichungen geschieht das auch in Rücksprache mit den Verantwortlichen der Transkription.

Die finale Struktur der kuratierten Datei entspricht dann folgendem Aufbau:

<TEI>
  <teiHeader>
    ... 
    <!-- sehr rudimentär, der eigentliche Header wird separat (s.o.) generiert -->
  <teiHeader>
  <text>
    <body>
      <div type="letter" n="1">
        <head><supplied>...</supplied></head><lb/>
        <p>...</p>
        <p>...</p>
      </div>
      <div type="letter" n="2">
        ...
      </div>
      ...
    </body>
  </text>
</TEI>

Korpus-Bau

Die einzelnen Briefe wurden per Skript aus der kuratierten XML-Datei extrahiert und jeweils als eigene Datei gespeichert. Jede Datei bekommt einen projektspezifischen TEI-Header, der dann noch – ebenfalls skriptbasiert – mit den werkspezifischen Angaben (Autor, Titel, Datum etc.) aus metadata.csv angereichert wurde.

Qualitätssicherung

Wohlgeformtheit

Überprüfung, ob alle Dateien wohlgeformt sind:

xmlstarlet val -b data/*.xml

Validität

Überprüfung, ob die Dateien nach TEI_all oder ggfs. DTABf valide sind:

jing scripts/tei-all.rng data/*.xml
jing scripts/basisformat.rng data/*.xml

Publikation

GitHub

Die für die Entstehung des Korpus verwendeten Dateien (Textdaten, Metadaten und Skripte) wurden als Repository in GitHub veröffentlicht.

Die beim Daten-Ingest abgefragten Informationen dienen zur (auch maschinenlesbaren) Beschreibung des Textkorpus im Rahmen der README-Datei. Außerdem wird daraus die Landingpage (s. u.) gespeist. Die Dokumentation des Workflows erfolgt auf der GitHub-Wikiseite.

Das Textkorpus wird innerhalb der DWDS-Infrastruktur als Spezialkorpus „Historische Textsammlung“ veröffentlicht. Das DWDS bildet den „deutschen Wortschatz von 1600 bis heute“ ab und garantiert größtmögliche Sichtbarkeit für die im Text+-Kontext bereitgestellten Sammlungen. Außerdem stehen dadurch verschiedene Entwicklungen zur Präsentation und Analyse der Textdaten zur Verfügung. Für alle Forschungsdaten wird als Voraussetzung für die anschließende Durchsuchbarkeit eine automatische Normalisierung vorgenommen. Die Dateien werden indiziert und ggfs. in das Metakorpus „Historische Korpora“ mit aufgenommen. Es werden verschiedene Derivate zur Verfügung gestellt: TCF, CMDI, Dublin Core. Und schließlich können die Texte mit DiaCollo, den Wortverlaufskurven sowie weiteren externen Tools analysiert werden.

Zenodo

Die enge Verzahnung von GitHub und Zenodo (siehe dazu https://genr.eu/wp/cite/) ermöglicht die Veröffentlichung eines finalen Daten-Releases inkl. DOI-Vergabe.