Skip to content

Data Submission Handout

Christoph Broschinski edited this page Sep 22, 2016 · 21 revisions

Minimal requirements

  • The data contains an academic institution's expenditures on a per-article basis for publishing in fee-based Open Access journals
  • The data should be made available in a machine-readable, platform independent format (CSV[https://en.wikipedia.org/wiki/Comma-separated_values]).
  • The data is provided under an Open-Data-Commons license to ensure public access and reusability.
  • A contact person is designated at the contributing institution.

Data set

Der Datensatz baut auf bereits etablierte Melderoutinen an den einzelnen Einrichtungen im Rahmen der Publikationsfonds auf. Dies gilt insbesondere für Universitäten, die zusätzliche Förderungen durch die DFG im Rahmen des Programms Open Access Publizieren erhalten.

Der Datensatz besteht aus verteilten Tabellen der beitragenden Einrichtungen. Um die Ausgaben vergleichbar zu machen, werden die Verlags- und Zeitschriftentitelansetzungen mittels automatischer Anreicherungsverfahren in einer Tabelle disambiguiert. Durch die Anreicherung der Nachweise mit Informationen z.B. aus dem disziplinären Repository Europe PubMed Central sollen weitere Variablen wie Datum der Einreichung, Volltextversionen oder Lizenz sukzessive ergänzt werden.

Datenschema

Jede Variable (Pflichtfelder und optionale Felder) bildet eine Spalte, und pro Artikel wird eine Zeile verwendet.

Sie finden eine Übersicht des Open-APC-Datenschemas im Wiki und ein Muster für die Datenablieferung im Ordner /data/template.

Wenn ein Wert nicht verfügbar ist, machen Sie dies bitte mit NA kenntlich.

Pflichtfelder

Folgende Variablen sind obligatorisch:

institution — Name der Universität oder außeruniversitären Forschungseinrichtung

period — Jahr der Rechnungsbezahlung

euro — Rechnungsbetrag inklusive Rabatte und Steuern, die den Hauhalt der bezahlenden Einrichtung belastet. Besondere Vereinbarungen mit Verlagen, etwa Vorauszahlmodelle mit Rabatten, werden im Datensatz nicht gesondert erfasst. Diese können aber in der Selbstdarstellung des Publikationsfonds in Form einer README als Teil der Datenbereitstellung erläutert werden

doi — Digital Object Identifier

is_hybrid — Wurde der Artikel in einer subskriptionspflichtigen Zeitschrift veröffentlicht? Angabe FALSE oder TRUE.

Optionale Felder

Bei Veröffentlichungen, die über keine keine DOI verfügen, sind die folgenden optionalen Felder ebenfalls anzugeben.

publisher — Verlag

journal_full_title — Titel der Zeitschrift

issn — International Standard Serial Numbers

url — URL zum Artikel

Veröffentlichung

Im Sinne der Sichtbarkeit und Nachnutzung wird der Datensatz über GitHub verfügbar gemacht. Die Registrierung ist kostenfrei.

Bei Fragen und Problemen können Sie sich an openapc at uni-bielefeld.de wenden.

GitHub-Workflow: Hinzufügen einer neuen Institution

Um Daten einer weiteren Institution hinzuzufügen, sind die folgenden Schritte nötig:

  1. Kopie des Open-APC-Repository erstellen
  2. einen neuen Ordner für die Institution anlegen
  3. Daten in diesem Ordner ablegen
  4. Kopie des lokal veränderten Repository auf GitHub veröffentlichen
  5. per Pull Request die Aufnahme in die Datensammlung der Open APC Initiative beantragen

Fork Ausgangsrepository: (Einführung Fork)

Erstelle eine lokale Kopie:

$ git clone https://github.com/YOURUsername/unibiAPC.git

Füge die APC Tabelle hinzu:

$ cd unibiAPC/data
$ mkdir YOURfolder

Kopiere die csv-Tabelle in den Ordner YOURfolder und lade sie in GitHub hoch.

$ git add unibiAPC/data/YOURfolder/
$ git commit -m "APC fees paid at my Uni from 2012 until 2014"
$ git push origin master

Überführe die Dateien in das Ausgangsrepository

Um die Dateien in das Ausgangsrepository hinzuzufügen, nutze die Pull Request Funktionalität.

GitHub-Workflow: Aktualisieren Ihrer Daten

Um bereits existierende Daten einer Institution zu aktualisieren bzw. zu ergänzen, sind die folgenden Schritte nötig:

  1. Lokales Repository auf den aktuellen Stand des Open-APC-Repository bringen
  2. Daten im Ordner der eigenen Institution verändern
  3. Kopie des lokal veränderten Repository auf GitHub veröffentlichen
  4. per Pull Request die Aufnahme in die Datensammlung der Open APC Initiative beantragen

Anreicherung

Nach dem Pull Request werden die Daten in das Ausgangsrepository aufgenommen. Durch DOI Content Negotiation werden Verlags- und Zeitschriftentitelansetzung normalisiert und die ISSNs hinzugefügt. Wenn kein Nachweis in CrossRef besteht, gilt die Ausgangsbezeichnung.

Weitere Anreicherungsschritte umfassen:

  • PMID und PMCID mittels Europe PubMed Central Anfrage
  • Abgleich mit dem Web of Science und Speicherung der Datenbankidentnummer UT

Lizenz

Derzeit findet folgende Lizenz Anwendung:

Datasets are made available under the Open Database License: http://opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/

Contributor

Alle Beiträgerinnen und Beiträger werden namentlich genannt.

Nachnutzung

Anwendungsbeispiele wie Visualisierungen oder Beispielauswertungen sollen die Nachnutzung motivieren. Mögliche weitere Kandidaten: