This repository has been archived by the owner on Mar 12, 2023. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Erste_Schritte_in_R-DOZENTENFASSUNG.Rmd
518 lines (337 loc) · 9.38 KB
/
Erste_Schritte_in_R-DOZENTENFASSUNG.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
---
title: "Erste Schritte in R"
author: "Norman Markgraf"
date: "Sommersemester 2019/20"
output:
pdf_document: default
word_document: default
subtitle: Düsseldorf (Tagesstudium) - Dozentenfassung!
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(mosaic)
```
## Vorlesung vom 26.03.2019
Dieses Dokument muss die Endlung ".Rmd" haben!
Zu Beginn einer jeden Vorlesung müssen wir zuerst Mosaic starten. Das geht wie folgt:
```{r}
library(mosaic)
```
In R sind interne Datensätze vorhanden, u.a. der Datensatz "Alcohol", den man aber erst sieht, wenn man hin freischaltet:
```{r}
data(Alcohol)
```
Möchte mensch die ersten Einträge im Datensatz sehen, so geht das mit:
```{r}
head(Alcohol) # Die ersten Beobchtungen
```
Die letzten Einträge in dem Datensatz können wir mit dem folgenden Befehl erhalten:
```{r}
tail(Alcohol) # Die letzten Beobachtungen
```
Wir interessieren uns zuerst nur für die Werte aus Deutschland. Wir "filtrieren" dazu den Datensatz wie folgt:
```{r}
Alcohol.Ger <- Alcohol %>% filter(country == "Germany")
```
Falls wir uns nur für das Jahr 2008 interessieren könnten wir wie folgt filtern:
```{r}
Alcohol.2008 <- Alcohol %>% filter(year == 2008)
```
Wir können also einzelne Beobachtungen "filtern"!
Falls wir uns nur noch für das Jahr 2008 interessieren sind alle anderen Spalten als die Spalten der Länder und der Alkoholmengen für uns uninteressant. Also erzeugen wir und eine neue Tabelle "Alcohol.2008" in der nur das nötigste enthalten ist.
Dazu "filtern" wir das Jahr 2008 herraus und "selektieren" die Spalten country und alcohol:
```{r}
Alcohol.2008 <- Alcohol %>% # Ich bin nur ein Kommentar!!! ;-)
filter(year == 2008) %>% # Nur das Jahr 2008 ist von Interesse
select(country, alcohol) # Nur Land und Alkoholverbrauch!
```
Wir sortieren einmal die Daten nach dem Alkoholverbrauch, mit dem Befehl "arrange()":
```{r}
Alcohol.2008.sort <- Alcohol.2008 %>%
arrange(alcohol)
```
Vielleicht interessiert doch eher der "Rang", das können wir wie folgt hinzufügen. Dazu "mutieren" wir den Datensatz mit dem Befehl `mutate()` und erzeugen so eine neue Spalte:
```{r}
Alcohol.2008.rank <- Alcohol.2008 %>%
mutate(rank = rank(alcohol)) # Neue Spalte "rank" mit dem Rang hinzufügen!
```
Und auf welchem Rang steht nun Deutschland?
```{r}
Alcohol.2008.rank %>%
filter(country == "Germany")
```
Wie sieht das mit Deutschland, Österreich, Schweiz, Spanien, Griechenland und Groß-Britanien im Vergleich aus?
```{r}
Alcohol.2008.rank %>% filter(
country == "Germany" |
country == "Austria" |
country == "Switzerland" |
country == "Spain" |
country == "Greece" |
country == "United Kingdom"
)
```
Wie speichert R das intern ab?
```{r}
str(Alcohol)
```
Und was hat R an Daten erkannt und wie?
```{r}
inspect(Alcohol)
```
## Vorlesung vom 09.04.2019
Zuerst laden wir das Paket "mosaic":
```{r}
library(mosaic)
```
Und dann laden wir die "tipping" Daten:
```{r}
download.file("https://goo.gl/whKjnl", destfile = "tips.csv")
```
Danach laden wir den Datensatz in den Speicher unter dem Namen "tips"!
```{r}
tips <- read.csv2("tips.csv")
```
Wir müssen noch gridExtra laden:
```{r}
library(gridExtra)
```
Ein Blick auf die Daten im Datensatz "tips":
```{r}
str(tips)
```
Ein erstes Diagramm in R:
```{r}
plot1 <- gf_bar( ~ sex, data=tips)
plot2 <- gf_barh( ~ sex, data=tips)
grid.arrange(plot1, plot2, nrow=1)
```
```{r}
prop( ~ sex, # prop liefter den Anteilswert
success = "Female", # success = "Female" bedeuten nur der Frauen!
data=tips) # Daten aus dem Datensatz tips
```
Die *absolute* Häufigkeit:
```{r}
tally( ~ sex, data=tips)
```
Die *relative* Häufigkeit:
```{r}
tally( ~ sex,
format = "proportion",
data=tips)
```
Wenn wir wissen wollen, ob das Verhalten sowohl bei Lunch als auch bei Dinner das selbe ist, dann müssen wir die Daten "gruppieren":
```{r}
gf_bar( ~ sex | time,
data=tips)
```
Wie sehen die Zahlen aus?
Die *absoluten* Häufigkeiten:
```{r}
tally( ~ sex | time, data=tips)
```
Die *relativen* Häufigkeiten:
```{r}
tally( ~ sex | time, format="proportion", data=tips)
```
Raucher je Wochentag;
Lösung A:
```{r}
tally( ~ smoker | day, format = "proportion", data=tips)
```
Lösung B
```{r}
tally( ~ day | smoker, format = "proportion", data=tips)
```
### Übung 31
```{r}
gf_histogram( ~ tip, bins= 10, data=tips)
```
## Vorlesung vom 23.04.2019
### Offene Übung 54
Mosaic noch einmal laden und
```{r}
library(mosaic)
tips <- read.csv2("tips.csv")
```
```{r}
gf_histogram( ~ total_bill | smoker, data=tips)
gf_boxplot( total_bill ~ smoker, data=tips)
favstats( total_bill ~ smoker , data=tips)
```
### Offene Übung 55
```{r}
gf_point(tip ~ total_bill | smoker, data=tips)
tips %>%
group_by(smoker) %>%
summarise(cor(tip ~ total_bill))
```
Übung 65
```{r}
xpnorm(75, mean=60, sd=10) # Gabi
xpnorm(275, mean=250, sd=25) # Klaus
```
## Der Münzwurf als Simulation
```{r}
set.seed(2009)
muenzvrtlg <- do(100) * rflip(n=10)
gf_bar( ~ heads, data=muenzvrtlg) %>%
gf_labs(title = "Simulierter Münzwurf von n=10 Münzen mit 100 Wiederholungen")
muenzvrtlg <- do(1000) * rflip(n=10)
gf_bar( ~ heads, data=muenzvrtlg) %>%
gf_labs(title = "Simulierter Münzwurf von n=10 Münzen mit 1.000 Wiederholungen")
muenzvrtlg <- do(10000) * rflip(n=10)
gf_bar( ~ heads, data=muenzvrtlg) %>%
gf_labs(title = "Simulierter Münzwurf von n=10 Münzen mit 10.000 Wiederholungen")
```
## Vorlesung vom 06.05.2019
Wir laden am Anfang das Paket mosaic und die Tipping-Daten:
```{r}
library(mosaic)
tips <- read.csv2("tips.csv")
```
Frauenanteil der Rechnungszahler*innen:
Kennzahlen:
```{r}
tally( ~ sex, format="proportion", data=tips)
```
Graphische Darstellung:
```{r}
gf_percents( ~ sex, data=tips)
```
Wir simulieren nun die Nullverteilung, also die Verteilung die dadurch entsteht, dass wir die $H_0$ als WAHR annehmen:
```{r}
set.seed(2009) # Zufallszahlengenerator auf einen Startwert setzen!
Nullvtlg <- do(10000+0) *
rflip(n= nrow(tips))
gf_histogram( ~ prop, data=Nullvtlg)
```
Wie berechnen wir nun den Anteilswert / p-Wert?
```{r}
propdach <- prop( ~ sex, data=tips, success = "Female")
propdach
```
Quantile für extreme Werte in der Verteilung unter der $H_0: \pi = 0.5$ also bei 50%:
```{r}
quantile( ~ prop, data=Nullvtlg, probs=c(0.025, 0.975))
```
Da der Wert `r propdach` nicht im Intervall von `r quantile( ~ prop, data=Nullvtlg, probs=c(0.025, 0.975))` liegt, ist es **kein** üblicher Wert. (Die $H_0$ wackelt!)
Im klassischen Test sieht das wie folgt aus:
```{r}
binom.test( ~ sex, # Variablbe die wir untersuchen wollen.
p = 0.5, # hypothetische Wert der p_0 also der 50% Frauenanteil
success = "Female", # Welcher Anteil soll bestimmt werden?
alternative = "two.sided", # ein UNGERICHTETER Test!!
data=tips
)
```
## Bootstrap-Verteilung für den Rechnungsmittelwert
```{r}
Bootvltg <- do(10000) *
mean( ~ total_bill, data=resample(tips))
gf_histogram( ~ mean, data=Bootvltg)
```
Das 95%-Bootstrap-KI:
```{r}
quantile( ~ mean, probs=c(0.025, 0.975), data=Bootvltg)
```
## Vorlesung vom 07.05.2019 (Teil 1)
Wir laden am Anfang das Paket mosaic und die Tipping-Daten:
```{r}
library(mosaic)
tips <- read.csv2("tips.csv")
```
Der t-Test für die Nullhypothese: $H_0: \pi \leq 15$:
```{r}
t.test(
~ total_bill,
mu=15,
alternative="greater",
data=tips
)
```
## Übung 95
Der t-Test für die Nullhypothese: $H_0: \pi \leq 19.5$ vs. $H_A: \mu > 19.5$:
```{r}
t.test(
~ total_bill,
mu=19.5,
alternative="greater",
data=tips
)
```
```{r}
set.seed(2009)
Nullvtlg <- do(10000)*
diffprop(sex ~ shuffle(time), success="Female", data=tips)
```
```{r}
diff.stipro <- diffprop(sex ~ time, success="Female", data=tips)
gf_histogram(~ diffprop, data=Nullvtlg) %>%
gf_vline(xintercept = diff.stipro)
```
```{r}
prop( ~ abs(diffprop) >= abs(diff.stipro), data=Nullvtlg)
```
## Vorlesung vom 7.5.2019 (Teil 2)
```{r}
cor(tip ~ total_bill, data=tips)
```
## Vorlesung vom 21.5.2019
Zuerst laden wir die Tipping-Daten und laden Mosaic:
```{r}
library(mosaic)
tips <- read.csv2("tips.csv")
```
## Offene Übung 138:
Wir sollen die Rechnungshöhe als Funktion der Anzahl Personen sowie der Tageszeit modellieren:
$$total\_bill_i = \beta_0 + \beta_1 * size_i + \beta_2 \cdot timeLunch_i + \epsilon_i$$
Dazu erstellen wir das folgende lineare Modell in R:
```{r}
erglmUeb <- lm(total_bill ~ size + time, data=tips)
summary(erglmUeb)
```
Mit den Werten aus der linearen Regression ergibt sich dann:
$$total\_bill_i = 6.3766 + 5.4817 \cdot size_i - 2.4284 \cdot timeLunch_i + \epsilon_i$$
Das Modell lässt sich wie folgt darstellen:
```{r}
plotModel(erglmUeb)
```
```{r}
set.seed(2009)
Bootvtlg <- do(10000) * lm(total_bill ~ size + time, data = resample(tips))
confint(Bootvtlg)
```
##
```{r}
erglmIdee <- lm(tip ~ total_bill * smoker, data=tips)
summary(erglmIdee)
```
```{r}
predict(erglmIdee, newdata=data.frame(total_bill = 50, smoker="No"), interval="prediction")
```
## Übung 139
```{r}
(TRUE | FALSE) & (FALSE)
```
## Offene Übung 141
```{r}
tips %>%
filter(time == "Dinner" & smoker == "Yes") %>%
select(tip) %>%
inspect()
```
## Übung 142
```{r}
tips %>%
mutate(rel_tip = tip / total_bill) %>%
filter(rel_tip > 0.1) %>%
nrow()
```
```{r}
tips %>%
mutate(rel_tip_good = (tip / total_bill) > 0.1) %>%
filter(rel_tip_good == TRUE) %>%
nrow()
```