Skip to content

Commit

Permalink
Update documentation
Browse files Browse the repository at this point in the history
  • Loading branch information
Scherzan committed Jan 24, 2024
1 parent 5adff07 commit a74c927
Show file tree
Hide file tree
Showing 21 changed files with 1,170 additions and 134 deletions.
2 changes: 1 addition & 1 deletion .buildinfo
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# Sphinx build info version 1
# This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
config: 1f96af5230716d2422dc9aa43c3eb2a9
config: e7bdab744ab5b27101eb5ee7fc2e5a03
tags: 645f666f9bcd5a90fca523b33c5a78b7
Binary file not shown.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
69 changes: 69 additions & 0 deletions _sources/besonderheiten.ipynb
Original file line number Diff line number Diff line change
@@ -0,0 +1,69 @@
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Besonderheiten\n",
"\n",
"###### Welche Arten von synthetischen Daten gibt es?\n",
"```{figure} images/Arten_SD.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"Synthetische Daten unterscheiden sich nach dem Grad der Wiedergabetreue.\n",
"```"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"###### Was macht den Einsatz von synthetischen Daten spannend?\n",
"\n",
"1. Synthetische Daten sehen aus und fühlen sich an wie echte Daten.\n",
"\n",
"```{figure} images/bilder_anon.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```\n",
"<br/><br/>\n",
"2. Synthetische Daten enthalten keine personenbezogenen Informationen, da sie aus zufälligen Zahlen generiert werden.\n",
"\n",
"```{figure} images/ctgan_architecure.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"Beispiel für die Architektur eines Neuronalen Netzes zur Generierung von synthetischen Daten aus Zufallszahlen. Quelle: https://datacebo.com/blog/interpreting-ctgan-progress/\n",
"\n",
"```"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "synthcollection",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.9.17"
},
"orig_nbformat": 4
},
"nbformat": 4,
"nbformat_minor": 2
}
134 changes: 134 additions & 0 deletions _sources/diff_privacy_sd_gan.ipynb
Original file line number Diff line number Diff line change
@@ -0,0 +1,134 @@
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Synthetische Daten mit KI\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{dropdown} Sind synthetische Daten ohne Gefahren teilbar? Nach aktueller DSGVO eigentlich ja, ...\n",
"aber es besteht das Risiko, durch Fehler im Generierungsprozess, gegen die DSGVO zu verstoßen.\n",
"```"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Dadurch ergibt sich ein Bedarf an Regulierung und einheitlichen Standards für die Nutzung von synthetischen Daten.\n",
"\n",
"```{admonition} Bestehende Regulierungen \n",
"Arbeitsgruppe der Synthetic Data Industry Connections der IEEE Association erarbeitet Vorschlägen zu Privatsphärestandards und Qualitätsstandards bei KI-generierten synthetischen Daten.\n",
"```{figure} images/iee_sa.png\n",
"---\n",
"figclass: boxed\n",
"width: 50%\n",
"---\n",
"```\n",
"\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{dropdown} Risikofrei? Nein, ...\n",
"\n",
"aber wir können Differential Privacy in den Generierungsprozess integrieren,\n",
" der die eingehaltene Privatsphäre im synthetischen Datensatz kontrolliert. \n",
"```\n",
"\n",
"```{admonition} Forschungsergebnisse \n",
"Challenge der National Institute of Standards and Technology mit DP-Algorithmen zur Generierung synthetischer Daten. (GAN-Version belegte Platz 5.)\n",
"```{figure} images/NIST_challenge.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{admonition} Platz 1 \n",
"```{figure} images/nist1.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{dropdown} Platz 2\n",
" \n",
"```{figure} images/nist2.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{dropdown} Platz 3\n",
" \n",
"```{figure} images/nist3.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{dropdown} Platz 4\n",
" \n",
"```{figure} images/nist4.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"```{admonition} Platz 5 \n",
"```{figure} images/nist5.png\n",
"---\n",
"figclass: boxed\n",
"width: 100%\n",
"---\n",
"```"
]
}
],
"metadata": {
"language_info": {
"name": "python"
},
"orig_nbformat": 4
},
"nbformat": 4,
"nbformat_minor": 2
}
4 changes: 2 additions & 2 deletions _sources/einleitung.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,7 @@
"Was sind synthetische Daten?\n",
"\n",
"```{admonition} Definition\n",
"Synthetische Daten sind künstlich erzeugte Werte, die in ihrer Gesamtheit die Struktur und statistischen Eigenschaften einer Datenstichprobe aus real gemessenen Werten nachbildet.\n",
"Synthetische Daten sind künstlich erzeugte Werte, die in ihrer Gesamtheit die Struktur und statistischen Eigenschaften einer Datenstichprobe aus real gemessenen Werten nachbilden.\n",
"```\n",
"\n",
"Synthetische Daten sind per Definition generierte Daten, die eine Modellierung (Approximation der Verteilung) der echten Datengrundlage erfordern. \n",
Expand Down Expand Up @@ -571,7 +571,7 @@
"### Struktur und Aufbau von Datensätzen veranschaulichen\n",
"\n",
"1. Versuchsdaten für Softwaretesting \n",
"2. Datenbeispiele zur Verprobung von Konzepten, Forschungsvorhaben und Produktvorstellungen auf Arbeitsebe\n",
"2. Datenbeispiele zur Verprobung von Konzepten, Forschungsvorhaben und Produktvorstellungen auf Arbeitsebene\n",
"\n",
"::::{grid}\n",
":gutter: 3\n",
Expand Down
33 changes: 19 additions & 14 deletions _sources/intro.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,26 +2,31 @@

🛠️ Arbeitsversion - Work in progress !

Ein Wiki zu synthetischen Daten und Differential Privacy und deren Anwendung in der Verwaltung.

Schau rein, wenn du ... :
Dieses Wiki zu synthetischen Daten und Differential Privacy richtet sich an Data Product Engineers und Analysten, die unter strengen Datenschutzvorgaben datengetriebene Produkte entwickeln wollen. Das Wiki erklärt strukturiert wie synthetische Daten lösungsorientiert eingesetzt werden können und vermittelt einen verantwortungsvollen Umgang mit Qualität und Datenschutz. Wer Vorerfahrung mitbringt und einfach nach einer Toolbox zur Generierung von synthetischen Daten sucht, findet im zweiten Abschnitt einige Anleitungen.

- neugierig bist.
- Praxisbeispiele und tatsächliche Anwendungen in der Verwaltung sehen möchtest.
- nicht ganz überzeugt bist, dass synthetische Daten sinnvoll sind.
- skeptisch bist, dass statistische Eigenschaften von Daten nachbildbar sind.
- zweifelst, dass synthetische Daten datenschutzkonform sein können.
- eine Anleitung für DIY-Daten suchst.

## Mit dem Buch zurecht kommen:
Die deutsche Verwaltung bietet eine typische Entwicklungsumgebungen mit datenschutzrechtlich schwierigen Organisationsstrukturen. Die Gegebenheiten und Hürden dieses Umfeldes dienen als Praxisbeispiele und Illustration in diesem Buch. Darüber hinaus richtet sich das Buch an alle, die ...

Als Newbee: Das Buch versucht alle, unabhängig der Vorerfahrungen, mitzunehmen. Code-Beispiele ergänzen den Inhalt und können als Illustration verstanden oder übersprungen werden.
Als Code afine Person: Hoffentlich finden sich ein paar Copy-Paste-Beispiele, die deine eigenen Anwendungen bereichern.
Als Pro: Wahrscheinlich wirst du eher Punktuell durch das Buch navigieren und eventuell ein oder zwei Tools oder Quick Links nutzen.

Ungeachtet deiner Erfahrungsstufe freue ich mich über dein Feedback und deine Gedanken, wie das Buch verbessert werden kann. Schreib mir gerne Kommentare oder direkte Nachrichten an [email protected].
- neugierig sind.
- Praxisbeispiele und tatsächliche Anwendungen von synthetische Daten sehen möchten.
- nicht ganz überzeugt sind, dass synthetische Daten sinnvoll sind.
- skeptisch sind, dass statistische Eigenschaften von Daten nachbildbar sind.
- zweifeln, dass synthetische Daten datenschutzkonform sein können.
- eine Anleitung für DIY-Daten suchen.

## Zu mir:
## Mit dem Buch zurecht kommen

**Als Newbee:** Das Buch versucht alle, unabhängig der Vorerfahrungen, mitzunehmen. Code-Beispiele ergänzen den Inhalt und können als Illustration verstanden oder übersprungen werden.

**Als Code afine Person:** Hoffentlich finden sich ein paar Copy-Paste-Beispiele, die deine eigenen Anwendungen bereichern.

**Als Pro:** Wahrscheinlich wirst du eher Punktuell durch das Buch navigieren und eventuell ein oder zwei Tools oder Quick Links nutzen.

Ungeachtet deiner Erfahrungsstufe freue ich mich über dein Feedback und deine Gedanken, wie das Buch verbessert werden kann. Schreib mir gerne Kommentare oder direkte Nachrichten an [email protected].

## Zu mir

Während meines Studium wurde mir die Möglichkeit geschenkt, für eine fortschritliche Verwaltung die Potenziale von synthetischen Daten zu erschließen. Neugierig und mit der Hoffnung eine gute Lösung für mehr Datenaustausch im öffentlichen Sektor zu finden, vertiefte ich mich in die Welt der synthetischen Daten. Das Buch fasst den entstandenen, kleinen Cosmos, hoffentlich gewinnbringen, für euch zusammen.

Expand Down
25 changes: 0 additions & 25 deletions _sources/navigation.md

This file was deleted.

3 changes: 0 additions & 3 deletions _sources/notes.md

This file was deleted.

Loading

0 comments on commit a74c927

Please sign in to comment.