-
Notifications
You must be signed in to change notification settings - Fork 118
Data Submission Handout
- The data contains an academic institution's expenditures on a per-article basis for publishing in fee-based Open Access journals
- The data should be made available in a machine-readable, platform independent format (CSV).
- The data is provided under an Open Data Commons license to ensure public access and reusability.
- A contact person is designated at the contributing institution.
The data set is composed of the contributing institutions's distributed tables. Journal titles and publisher names are imported from CrossRef via automated enrichment routines to make expenditures comparable. Additional metadata is collected from services like Europe PubMed Central or the DOAJ.
The data set is made available on GitHub.
Every schema field is represented by a table column and every article conforms to a single table row.
The OpenAPC data schema is described here. This contribution from Leipzig University is an example of a table which conforms to the schema.
These variables must be present in every contribution:
institution
— Top-level organisation which covered the fee
period
— Year of APC payment
euro
— The final amount that was paid in Euro, including VAT and all additional fees. The OpenAPC dataset does not explicitly track special reasons which might influence prices, like prepayment discounts, central billing agreements or individual waivers. However, institutions are encouraged to give details on such circumstances in a README file which can be added to their individual data folders (see below).
doi
— Digital Object Identifier
is_hybrid
— Should be TRUE if the article was published in a subscription-based Journal ('hybrid journal'), FALSE if the journal was fully Open Access.
If the article does not have a DOI assigned, these 4 fields have to be given as well:
publisher
— The publisher
journal_full_title
— Title of the journal
issn
— International Standard Serial Number
url
— A URL linking to the article full text
There are two ways to provide OpenAPC with your data:
- Sending a mail to
openapc at uni-bielefeld.de
- Initiating a pull request on GitHub. This process works as follows:
The following steps are required if an institution wants to add data for the first time:
- Register a user account on GitHub if you don't have one already
- Create a fork of the original OpenAPC repository
- Clone the fork on your local machine
- Create a new folder for your institution in the
data
directory - Copy the data you want to add (tables, README) into the folder
- Push your changes back to GitHub
- Create a pull request and wait for the OpenAPC maintainer to accept it.
Steps 3 — 6 can be executed on your machine as follows (requires a command line as it is part of Linux/MacOS)
Create local clone:
$ git clone https://github.com/YOURUsername/openapc-de.git
Add a new instituional folder:
$ cd openapc-de/data
$ mkdir YOURfolder
Add your csv
-table(s) and an optional README file to the folder:
$ cp YOURdata.csv openapc-de/data
Add/commit the data and push it back to GitHub:
$ git add openapc-de/data/YOURfolder/
$ git commit -m "APC fees paid at my Institution from 2012 until 2014"
$ git push origin master
Finally create a pull request to make it possible for OpenAPC to include your new data.
Um bereits existierende Daten einer Institution zu aktualisieren bzw. zu ergänzen, sind die folgenden Schritte nötig:
- Lokales Repository auf den aktuellen Stand des Open-APC-Repository bringen (Details dazu hier)
- Daten im Ordner der eigenen Institution verändern
- Kopie des lokal veränderten Repository auf GitHub veröffentlichen
- per Pull Request die Aufnahme in die Datensammlung der Open APC Initiative beantragen
Nach dem Pull Request (bzw. der Einreichung per Mail) werden die Daten vom OpenAPC-Projekt zunächst normalisiert und angereichert. Üblicherweise wird dazu zu jeder hochgeladenen CSV-Datei eine angereicherte Variante in ihrem Verzeichnis abgelegt, gekennzeichnet durch das Suffix _enriched
im Dateinamen. Nach der Anreicherung werden die Daten in den OpenAPC-Datensatz aufgenommen, der anschließend eine neue Versionsnummer erhält.
Die Anreicherungsschritte umfassen:
- Verlags- und Zeitschriftentitelansetzung, Hinzufügen von ISSN- und Lizenzinformationen (CrossRef)
- Bestimmung von PMID und PMCID (Europe PubMed Central)
- Abgleich mit dem Web of Science und Speicherung der Datenbankidentnummer
ut
- Abfrage, ob die Zeitschrift im DOAJ verzeichnet ist
- Hinzufügen einer möglich Linking-ISSN
Derzeit findet folgende Lizenz Anwendung:
Datasets are made available under the Open Database License: http://opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/
Alle Beiträgerinnen und Beiträger werden namentlich genannt.
Neben der dynamisch aktualisierten Startseite des GitHub-Repositorys (basierend auf R Markdown) betreibt OpenAPC außerdem einen OLAP-Server zur zielgerichteten Datenabfrage sowie darauf aufbauend eine Website mit Treemap-Visualisierungen der gesammelten APC-Daten.
Mögliche weitere Anwendungsfälle:
- Standardisierte Reportingskripte mittels R
- Sichtbarmachung mittels des Europe PMC External Link Service
Mit freundlicher Unterstützung der Arbeitsgruppe Elektronisches Publizieren der Deutschen Initiative für Netzwerkinformation (DINI), der Deutschen Forschungsgemeinschaft und dem Bundesministerium für Bildung und Forschung.
Inhalte sind lizenziert unter CC BY 4.0.
- Handreichung Dateneingabe (englisch)
- Mitmachen
- Daten zitieren
- Protokolle und Arbeitsstände
- Datenschema (englisch)
- Versionierung (englisch)
- Handreichung Dateneingabe Transformationsverträge (DEAL-Wiley) (englisch)
- Handreichung Dateneingabe Transformationsverträge (DEAL-Wiley und -Springer-Nature) ab Berichtsjahr 2020
- OAPK-Daten