-
Notifications
You must be signed in to change notification settings - Fork 2
Soldatenbriefe
- Titel: Soldatenbriefe des 18. und 19. Jahrhunderts
- Umfang: 170 Briefe
- Sprache: (Früh-)Neuhochdeutsch
- Textgattung: Gebrauchsliteratur/Brief
- Kontakt: Dr. Marco Neumann
- Text+ User-Story: https://www.text-plus.org/en/research-data/user-story-508/
-
Kuration/Konvertierung:
- BBAW/Text+
- Christian Thomas, Frank Wiegand, Marius Hug
- Lizenz: CC BY-SA 4.0
Die Datenbasis für die Konvertierung und Integration des gesamten Soldatenbrief-Korpus bestand aus einer docx-Datei. Diese enthielt in einer einspaltigen Tabelle insgesamt 170 Briefe. Desweiteren wurde eine docx-Datei übergeben, die ebenfalls in einer Tabelle (7-spaltig) als Verzeichnis der untersuchten Texte die zugehörigen Metadaten enthielt.
Für die kollaborative Arbeit an den Daten wurde ein GitHub-repository angelegt: https://github.com/deutschestextarchiv/soldatenbriefe.
Das Repository enthält neben einer README und LICENSE verschiedene Unterordner:
Auf Basis vorheriger Kurationsprojekte wurde eine Datei soldatenbriefe-header.xml
im DTA-Basisformat (DTABf) erstellt, die all diejenigen Einträge enthält, die für alle Einzeltexte innerhalb des Korpus gültig sind. Das sind z. B. die an der Korpusbereitstellung beteiligten Personen und Institutionen, die Transkriptionsrichtlinien, die Lizenz, die Sprache und Textgattungszuordnung.
Zunächst wurden die beiden zur Verfügung gestellten docx-Dateien (Korpus und Metadaten) transformiert. Die Korpus-Datei, aus der händisch die Inhalte aus der Tabelle extrahiert wurden, wurde mit dem Tool OxGarage nach TEI P5 konvertiert. Das die Metadaten enthaltene Quellenverzeichnis wurde (manuell) in ein Excel-Sheet transformiert, und anschließend als CSV (delimiter: |
) gespeichert.
-
metadata.csv
Damit die Metadaten später skriptbasiert den einzelnen Briefen zugeordnet werden konnten, mussten die hier zeilenweise vorliegenden Einträge evaluiert und ggfs. korrigiert werden. Die Qualitätssicherung kann entweder direkt in einer Software für Tabellenkalkulation erfolgen oder auf der Kommandozeile mit dem Werkzeug
csvtool
. -
soldatenbriefe.xml
Die Kuration der einzelnen Briefe erfolgte nach den Richtlinien des Deutschen Textarchivs (DTA) mit dem Ziel, die finalen Dateien in einem TEI P5/XML-Format analog zum Basisformat des DTA (DTABf) bereitstellen zu können. Dazu wurden die aus dem automatisierten Konvertierungsworkflow gewonnen Elemente evaluiert und ggfs. angepasst. In Einzelfällen und bei uneindeutigen Auszeichungen geschieht das auch in Rücksprache mit den Verantwortlichen der Transkription.
Die finale Struktur der kuratierten Datei entspricht dann folgendem Aufbau:
<TEI>
<teiHeader>
...
<!-- sehr rudimentär, der eigentliche Header wird separat (s.o.) generiert -->
<teiHeader>
<text>
<body>
<div type="letter" n="1">
<head><supplied>...</supplied></head><lb/>
<p>...</p>
<p>...</p>
</div>
<div type="letter" n="2">
...
</div>
...
</body>
</text>
</TEI>
Die einzelnen Briefe wurden per Skript aus der kuratierten XML-Datei extrahiert und jeweils als eigene Datei gespeichert. Jede Datei bekommt einen projektspezifischen TEI-Header, der dann noch – ebenfalls skriptbasiert – mit den werkspezifischen Angaben (Autor, Titel, Datum etc.) aus metadata.csv
angereichert wurde.
Überprüfung, ob alle Dateien wohlgeformt sind:
xmlstarlet val -b data/*.xml
Überprüfung, ob die Dateien nach TEI_all
oder ggfs. DTABf valide sind:
jing scripts/tei-all.rng data/*.xml
jing scripts/basisformat.rng data/*.xml
Die für die Entstehung des Korpus verwendeten Dateien (Textdaten, Metadaten und Skripte) wurden als Repository in GitHub veröffentlicht.
Die beim Daten-Ingest abgefragten Informationen dienen zur (auch maschinenlesbaren) Beschreibung des Textkorpus im Rahmen der README
-Datei. Außerdem wird daraus die Landingpage (s. u.) gespeist. Die Dokumentation des Workflows erfolgt auf der GitHub-Wikiseite.
Das Textkorpus wird innerhalb der DWDS-Infrastruktur als Spezialkorpus „Historische Textsammlung“ veröffentlicht. Das DWDS bildet den „deutschen Wortschatz von 1600 bis heute“ ab und garantiert größtmögliche Sichtbarkeit für die im Text+-Kontext bereitgestellten Sammlungen. Außerdem stehen dadurch verschiedene Entwicklungen zur Präsentation und Analyse der Textdaten zur Verfügung. Für alle Forschungsdaten wird als Voraussetzung für die anschließende Durchsuchbarkeit eine automatische Normalisierung vorgenommen. Die Dateien werden indiziert und ggfs. in das Metakorpus „Historische Korpora“ mit aufgenommen. Es werden verschiedene Derivate zur Verfügung gestellt: TCF, CMDI, Dublin Core. Und schließlich können die Texte mit DiaCollo, den Wortverlaufskurven sowie weiteren externen Tools analysiert werden.
Die enge Verzahnung von GitHub und Zenodo (siehe dazu https://genr.eu/wp/cite/) ermöglicht die Veröffentlichung eines finalen Daten-Releases inkl. DOI-Vergabe.