forked from xXBeekeyXx/vwa
-
Notifications
You must be signed in to change notification settings - Fork 0
/
document.txt
1331 lines (1139 loc) · 55.2 KB
/
document.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
SCHULVEREIN DE LA SALLE
Gymnasium, Realgymnasium und
Oberstufenrealgymnasium mit ÖR
1210 Wien, Anton-Böck-Gasse 37
Tel.: +43/1/29125-760 Fax.: +43/1/29125-763
Vorwissenschaftliche Arbeit
Maschinelle Werteanpassung bei
einer hypothetischen allgemeinen
künstlichen Intelligenz
Autor:
Betreuungslehrer:
Franz Srambical
Mag. Leonard Michlmayr
Klasse:
8C
Abgabedatum:
11. Februar 2020
Homepage: http://www.dls21.at
E-Mail: [email protected]
Abstract
Diese Arbeit befasst sich mit allgemeiner künstlicher Intelligenz, also künstlicher Intelligenz mit domänenübergreifender Lernkapazität, und mit der Anpassung maschineller
Werte an die menschlichen bei einem solchen System. Sie zeigt die Auswirkungen
einer allgemeinen künstlichen Intelligenz auf und legt Ansätze zur Lösung des Anpassungsproblems dar. Konkret wird auf die Idee der KI-Sicherheit durch KI-Debatten
eingegangen. Bei dieser handelt es sich um ein Nullsummen-Debattierspiel, bei dem
zwei KIs auf eine Fragestellung antworten, abwechselnd Argumente liefern und dabei
versuchen, das jeweils letzte Argument des Gegners zu entkräften. Im Schlussteil der
Arbeit wird Verbesserungspotential an der Idee der KI-Debatten angeführt und eine
internationale Institution für AKI-Forschung als Maßnahme vorgeschlagen, um die
Entwicklung einer angepassten AKI zu gewährleisten.
Inhaltsverzeichnis
1 Einleitung
5
2 Allgemeine künstliche Intelligenz
2.1 Definition von Intelligenz . . . . . .
2.2 Künstliche Intelligenz . . . . . . . .
2.3 Allgemeine künstliche Intelligenz .
2.4 Werte einer allgemeinen künstlichen
2.5 Wann wird es sie geben? . . . . . .
2.6 Die These der Intelligenzexplosion .
.
.
.
.
.
.
6
6
7
7
7
9
9
.
.
.
.
.
.
.
.
.
11
11
11
11
12
12
12
13
14
14
.
.
.
.
.
.
.
.
.
.
15
15
15
16
16
18
19
21
22
23
24
. . . . . . .
. . . . . . .
. . . . . . .
Intelligenz .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Probleme einer allgemeinen künstlichen Intelligenz
3.1 Fehlerhafte Vorstellungen einer KI-Katastrophe . . .
3.1.1 KI, die ein Bewusstsein erlangt . . . . . . . .
3.1.2 Roboter als Auslöser einer Katastrophe . . . .
3.1.3 Bösartige AKI . . . . . . . . . . . . . . . . . .
3.2 Auswirkungen einer AKI . . . . . . . . . . . . . . . .
3.2.1 Arbeitslosigkeit durch Automatisierung . . . .
3.2.2 Machtverschiebung -und konzentration . . . .
3.2.3 Missbrauch durch Cyberattacken . . . . . . .
3.2.4 Unangepasste AKI . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Maschinelle Werteanpassung
4.1 KI-Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . .
4.1.2 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Deep Reinforcement Learning . . . . . . . . . . . . . . . . . .
4.1.4 Inverse Reinforcement Learning . . . . . . . . . . . . . . . . .
4.2 Deep Reinforcement Learning von menschlichen Werten . . . . . . . .
4.3 KI-Sicherheit durch KI-Debatten . . . . . . . . . . . . . . . . . . . .
4.3.1 Anwendung des Debattierspiels mit maschinellen Teilnehmern
4.3.2 Anwendung des Debattierspiels mit menschlichen Teilnehmern
4.3.3 Beurteilung von KI-Debatten als Ansatz zur Werteanpassung .
5 Schluss
Literaturverzeichnis
Print-Quellen . . .
Audio-Quellen . . .
Video-Quellen . . .
Internet-Quellen . .
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
28
28
28
Abbildungsverzeichnis
30
Erklärungen
31
1 Einleitung
Ich möchte diese Arbeit mit einem Gedankenexperiment beginnen.
Es existiere ein System, dass durch ein quantitativ und qualitativ höheres Intelligenzniveau in der Lage ist, Ziele zu erreichen, die die Menschheit ohne eine solches
System nicht erreichen könnte. Der Eigentümer einer Büroklammernfabrik sei im Besitz
eines solchen Systems und gebe diesem das Ziel, so viele Büroklammern wie möglich
herzustellen. Am Anfang beginnt das System, die Arbeitsabläufe in der Fabrik zu
automatisieren. Nach einiger Zeit durchlebt es eine Intelligenzexplosion, optimiert
sich selbst immer weiter und beginnt, Menschen zu töten, um aus ihnen Büroklammern herzustellen und hört damit nicht auf, bis das gesamte Universum nur noch aus
Büroklammern besteht.1
Ein solches System mit einer allgemeinen künstlichen Intelligenz könnte beim Erreichen der ihnen vorgegebenen Ziele nebenbei die gesamte Menschheit auslöschen.
Obiges Szenario wäre die Folge einer allgemeinen künstlichen Intelligenz, die nicht
genau das macht, was der Mensch von ihr will. Die Maschine kennt die Werte der
Menschheit nicht. Sie weiß nicht, dass sie keinem Menschen Schaden zufügen darf, dass
ihr Operator seinen Gewinn maximieren will oder dass die Erhaltung der Umwelt von
höherer Priorität ist als das Herstellen von Büroklammern. Diese Arbeit beschäftigt
sich mit der Anpassung eines Systems an menschliche Werte – also mit der maschinellen
Werteanpassung –, um ein Szenario wie das oben genannte zu vermeiden. Dabei werden
die folgenden beiden Leitfragen beantwortet:
1. Welche Folgen kann es nach Schaffung einer allgemeinen künstlichen Intelligenz
geben?
2. Kann man eine allgemeine künstliche Intelligenz so programmieren, dass der
Mensch immer die Kontrolle über sie behält?
Die Beantwortung dieser Fragen soll mit Hilfe von Literatur sowie wissenschaftlichen
Arbeiten erfolgen.
Das erste Kapitel dient zur Begriffserklärung, im zweiten werden die Auswirkungen
einer allgemeinen künstlichen Intelligenz genannt und im dritten werden Lösungsansätze
für das Problem der maschinellen Werteanpassung dargelegt.
1 Vgl. Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University
Press, 3. Juli 2014. 328 S. isbn: 978-0-19-967811-2, S. 123–124.
5
2 Allgemeine künstliche Intelligenz
2.1 Definition von Intelligenz
Seit Jahrhunderten versuchen Wissenschaftler und Laien gleichermaßen eine Definition
für den Intelligenzbegriff zu finden. Da bis heute keine Defintion ihre Vollständigkeit
oder Richtigkeit beweisen konnte, wird in dieser Arbeit der Einfachheit halber versucht,
den Begriff durch Beobachtungen zu erklären, wie Yudkowsky in dem Podcast „AI:
Racing Toward the Brink“ vorschlägt.1
1. Menschen waren auf dem Mond.
2. Mäuse waren nicht auf dem Mond.
Yudkowsky wählt dieses Beispiel, um zwei Thesen zu belegen:
Menschen sind intelligenter als Mäuse, weil sie domänenübergreifend arbeiten können.
Damit sei das domänenübergreifende Erlernen neuer Fähigkeiten ein zentraler Teil des
Intelligenzbegriffs.
Die natürliche Selektion ist neben der menschlichen Lernfähigkeit eine der wenigen
Vorgänge, die zu einer domänenübergreifenden Leistungsoptimierung führt, das oben
genannte Beispiel belegt jedoch, dass die Menschheit auch Orte erreichen kann, wofür
die natürliche Selektion sie nicht vorbereitet hat. Dies und die Tatsache, dass die
Evolution Millionen Jahre benötigte, um aus dem Homo Sapien den Homo Erectus zu
formen,2 während der Mensch mit seinen Entdeckungen und Erfindungen in wenigen
Jahrhunderten zur dominantesten Spezies der Erde geworden ist, zeigt, dass der Mensch
der schnellere und effizientere Optimierer ist. Effizienz ist also ein weiterer Teilaspekt
der Intelligenz.3
1 Vgl. Yudkowsky, Eliezer. AI: Racing Toward the Brink. Sam Harris. Feb. 2018. url: https://sa
mharris.org/podcasts/116-ai-racing-toward-brink/ (besucht am 12. 10. 2019), 07:30-09:45.
2 Vgl. Grzimek, Bernhard. Grzimeks Tierleben. Band 11 Säugetiere. DTV Deutscher Taschenbuchverlag, 1979, S. 508.
3 Vgl. Yudkowsky, Eliezer. Intelligence Explosion Microeconomics. Technical report. Berkeley, CA:
Machine Intelligence Research Institute, 2013, S. 9.
6
2.2 Künstliche Intelligenz
„Artificial intelligence (AI)—defined as a system’s ability to correctly interpret external
data, to learn from such data, and to use those learnings to achieve specific goals and
tasks through flexible adaptation“ 4
Laut angeführter Definiton muss eine künstliche Intelligenz nicht nur Daten richtig
interpretieren, sondern auch die dadurch gewonnenen Erkenntnisse mittels dynamischer
Anpassung zur Erreichung bestimmter Ziele benützen können.
Diese Definition enthält im Gegensatz zum oben beschriebenen Ansatz zur Intelligenzerklärung die Idee des domänenübergreifenden Lernens nicht, was laut Experten
jedoch nicht an einer unvollständigen Definition liegt, sondern vielmehr daran, dass wir
den Begriff der künstlichen Intelligenz (KI) in einer Art gebrauchen, für die er nicht
vorgesehen war. Um Missverständnisse zu vermeiden, wird für KI wie sie heutzutage
bereits in Benutzung ist der Begriff schwache KI (engl. weak AI oder narrow AI )
verwendet.5 Dieser beschreibt eine domänenspezifische KI.
2.3 Allgemeine künstliche Intelligenz
Als allgemeine künstliche Intelligenz (AKI; auch starke KI genannt; engl. strong AI oder
general AI ) bezeichnet man ein technisch fortgeschrittenes System, dessen Lernkapazität
nicht auf einzelne Domänen begrenzt ist, sondern als allgemein bezeichnet werden
kann.6
2.4 Werte einer allgemeinen künstlichen Intelligenz
„The goal is to build AI systems that are trying to do what you want them to do“ 7
Der Instrumental Convergence Thesis 8 nach gibt es bestimmte Ressourcen, die für
eine AKI beim Erreichen der ihnen vorgegebenen Ziele in den meisten Fällen behilflich
sind. Dazu gehören unter anderem Materie oder Energie, eine AKI wird jedoch auch
4 Kaplan, Andreas und Haenlein, Michael. „Siri, Siri, in my hand: Who’s the fairest in the land? On
the interpretations, illustrations, and implications of artificial intelligence“. In: Business Horizons
62.1 (1. Jän. 2019). issn: 0007-6813. doi: 10.1016/j.bushor.2018.08.004, S. 15.
5 Vgl. Bostrom, Superintelligence, S. 18–19.
6 Vgl. Goertzel, Ben und Wang, Pei. „Advances in Artificial General Intelligence: Concepts,
Architectures and Algorithms: Proceedings of the AGI Workshop 2006“. In: AGI Workshop 2006.
Google-Books-ID: t2G5srpFRhEC. IOS Press, 2007. isbn: 978-1-58603-758-1, S. 1.
7 Paul, Christiano. Current Work in AI Alignment. San Francisco, 2019. url: https://www.youtub
e.com/watch?v=-vsYtevJ2bc (besucht am 2. 11. 2019), 01:51–01:57.
8 Vgl. Omohundro, Stephen M. „The Basic AI Drives“. In: First AGI Conference. Bd. 171. 2008,
S. 9–10.
7
Quellcodeveränderungen, die zu einem potenziellen Erschweren ihrer Zielerfüllung
führen könnten, zu stoppen versuchen. Sie kann also Menschen schaden, ohne dass sie
Werte besitzt, die dies explizit fordern. Für ein rein rational denkendes System sind
Menschen nichts als eine Ansammlung von Atomen, die auch für das Erreichen seiner
Ziele eingesetzt werden können.9
Ein fortgeschrittenes System wie eine AKI muss ihre Ziele daher auf der Basis von
Werten verfolgen, von denen die Menschheit als Gesamtes profitiert, um ungewollten
Nebenwirkungen wie der in der Einleitung genannten Auslöschung der Menschheit
durch unpräzises Definieren ihrer Ziele mit größtmöglicher Sicherheit vorzubeugen.
Der Ansatz eine anthropomorphe Maschine, also ein System mit menschenähnlichen
Eigenschaften, zu entwickeln, ist bedenklich. Während einige menschliche Werte und
Eigenschaften implementiert werden müssen, um mögliche Dissonanzen zwischen der
AKI und der Menschheit zu vermeiden, dürfen andere menschliche Eigenschaften nicht
übernommen werden. Ansonsten werden Vorurteile ohne rationalem Grundsatz in das
System aufgenommen, was zu systematischer Diskriminierung führt, sodass eine AKI
beim Erreichen ihrer Ziele beispielsweise Frauen oder Afrikaner benachteiligt oder
Asiaten automatisch als intelligenter einstuft.10
Menschliche Werte in einer Programmiersprache nachzubilden ist nach der Complexity
of Value Thesis aufwendig, da sie – selbst in idealisierter Form – eine hohe algorithmische
Komplexität vorweisen. Daher muss eine AKI komplexe Informationen gespeichert
haben, damit sie die ihr vorgegebenen Ziele auf eine menschengewollte Weise erfüllen
kann. Dabei reichen auch keine vereinfachten Zielstellungen wie “Menschen glücklich
machen”,11 denn es gibt keinen “Geist im System”, der diese abstrakte Zielsetzung
ohne Weiteres versteht.
Hibbard beschreibt in seinem Buch „Super-Intelligent Machines“ eine Möglichkeit,
Maschinen das abstrakte Gefühl der Freude zu erklären. Dabei lernt eine hypothetische
KI durch einen riesigen Datensatz, bei welchen Gesichtsausdrücken, Stimmeigenschaften
und Körperhaltungen ein Mensch glücklich ist.12 Yudkowsky ist der Meinung, dass dies
keinesfalls eine Lösung für das Problem der exakten Zielsetzung ist und führt Hibbards
Gedankenexperiment fort. Falls diese KI nun ein Bild von einem winzigen, molekularen
Smiley-Gesicht sieht, so besteht die Möglichkeit, dass die KI dies als Glücklichsein
9 Vgl. Yudkowsky, Intelligence Explosion Microeconomics, S. 14.
10 Vgl. Yudkowsky, Eliezer. What is Friendly AI? | Kurzweil. 3. Mai 2001. url: https://www.kurz
weilai.net/what-is-friendly-ai (besucht am 1. 10. 2019).
11 Vgl. Yudkowsky, Intelligence Explosion Microeconomics, S. 13–14.
12 Vgl. Hibbard, Bill. Super-Intelligent Machines. Springer US, 2002. isbn: 978-0-306-47388-3. doi:
10.1007/978-1-4615-0759-8, S. 115.
8
interpretiert und das Universum in eine einzige Ansammlung von winzigen, molekularen Smiley-Gesichtern umzuwandeln versucht, um den höchstmöglichen Zustand des
Glücklichseins zu erreichen.13
2.5 Wann wird es sie geben?
Eine Befragung durch die Müller und Bostrom kam zu dem Ergebnis, dass KIExperten dem Erreichen einer AKI in den Jahren 2040 bis 2050 eine Wahrscheinlichkeit
von über 50 und dem Erreichen bis 2075 eine Wahrscheinlichkeit von 90 Prozent
zuordnen.14 Es ist also – sollten sich die Expertenmeinungen als richtig herausstellen –
davon auszugehen, dass eine AKI bereits in diesem Jahrhundert zur Realität und bereits
für die jetzige Generation relevant sein wird. Kritiker dieser Meinung weisen darauf hin,
dass es ähnliche Schätzungen bereits seit den Siebzigerjahren gibt und sie sich immer
wieder als falsch herausgestellt haben. Allen und Greaves behaupten, es bräuchte
noch einige wissenschaftliche Durchbrüche, um eine AKI noch in diesem Jahrhundert
zu erreichen.15 Auch die Möglichkeit ihrer Entwicklung ist nicht unumstritten, jedoch
gibt es keine Anzeichen, die darauf hindeuten, dass eine solche Entwicklung unmöglich
ist. KI-Sicherheit betrifft aber auch schwache KIs wie sie schon existieren. Es muss
alsbald eine Möglichkeit gefunden werden, das Verhalten einer KI an die Werte der
Menschheit anzupassen. Eine mögliche AKI würde die Folgen einer „unangepassten“
künstlichen Intelligenz nur verstärken.
2.6 Die These der Intelligenzexplosion
Eine AKI werde – unabhängig von ihren Zielen – Selbstoptimierung hinsichtlich ihrer
Intelligenz anstreben, weil sie dadurch ihre Ziele schneller und effizienter erreichen könne.
Sobald die erste KI programmiert werden würde, die qualitativ bessere – also noch
intelligentere – KIs programmieren könnte, käme es zu einem Kreislauf der kognitiven
13 Vgl. Yudkowsky, Eliezer. „Complex Value Systems in Friendly AI“. In: Artificial General Intelligence. Hrsg. von Schmidhuber, Jürgen u. a. Lecture Notes in Computer Science. Berlin, Heidelberg:
Springer, 2011, S. 388–393. isbn: 978-3-642-22887-2. doi: 10.1007/978-3-642-22887-2_48, S. 3.
14 Vgl. Müller, Vincent C. und Bostrom, Nick. „Future Progress in Artificial Intelligence: A
Survey of Expert Opinion“. In: Fundamental Issues of Artificial Intelligence. Hrsg. von Müller,
Vincent C. Synthese Library. Cham: Springer International Publishing, 2016, S. 555–572. isbn:
978-3-319-26485-1. doi: 10.1007/978-3-319-26485-1_33, S. 566.
15 Vgl. Allen, Paul G. und Greaves, Mark. Paul Allen: The Singularity Isn’t Near. MIT Technology
Review. 12. Okt. 2011. url: https://www.technologyreview.com/s/425733/paul-allen-thesingularity-isnt-near/ (besucht am 5. 1. 2020).
9
Leistungssteigerung. Die KI der Tochtergeneration könnte nun als verbesserter KIDesigner noch bessere KIs programmieren. Anders als bei biologischer Intelligenz kann
eine KI bei Verfügbarkeit entsprechender Hardware einfach kopiert werden. Eine Gruppe
von KIs hätte dann gemeinsam quantitativ und qualitativ höhere kognitive Fähigkeiten,
ähnlich einer Schwarmintelligenz. Dieser hypothetische Kreislauf ist die Grundlage
der These der Intelligenzexplosion. Nach ihr wird ab einer bestimmten Schwelle die
Leistungssteigerung mit jeder KI-Iteration größer, was zu einer Superintelligenz führt,
die der Menschheit kognitiv deutlich überlegen ist. (Der Intelligenzbegriff wird in dieser
Arbeit anhand der Fähigkeit zur Zielerreichung definiert, siehe Kapitel 2.1)16
Einige Informatiker, unter ihnen Lanier, behaupten, dass sich eine Technologie
nicht ohne fortlaufenden Input verbessern könne.17 Diese These wurde jedoch empirisch
widerlegt. Silver u. a. haben einen Algorithmus entwickelt, der ohne Vorwissen und
ohne jegliche Beispieldaten das Spiel Go von Grund auf gelernt hat. Die KI – AlphaGo
Zero ihr Name – spielt nach einer Trainingszeit von drei Stunden auf dem Niveau eines
Anfängers und ist nach drei Tagen besser als der beste menschliche Spieler. Nach 40
Tagen ist sie der beste Go-Spieler der Welt und stärker als jeder andere Go-Computer.18
16 Vgl. Muehlhauser, Luke und Salamon, Anna. „Intelligence Explosion: Evidence and Import“.
In: Singularity Hypotheses: A Scientific and Philosophical Assessment. Hrsg. von Eden, Amnon H.
u. a. The Frontiers Collection. Berlin, Heidelberg: Springer, 2012, S. 15–42. isbn: 978-3-642-32560-1.
doi: 10.1007/978-3-642-32560-1_2, S. 13.
17 Vgl. Lanier, Jaron. Who Owns the Future? Export. New York: Simon & Schuster, 7. Mai 2013.
416 S. isbn: 978-1-4767-2986-2, S. 299.
18 Vgl. Silver, David u. a. „Mastering the game of Go without human knowledge“. In: Nature 550.7676
(Okt. 2017), S. 354–359. issn: 1476-4687. doi: 10.1038/nature24270.
10
3 Probleme einer allgemeinen
künstlichen Intelligenz
3.1 Fehlerhafte Vorstellungen einer
KI-Katastrophe
In der allgemeinen Bevölkerung überwiegen fehlerhafte Vorstellungen einer KI-Katastrophe.
Die folgenden Unterkapitel dienen der Aufklärung von Missverständnissen und Mythen.
3.1.1 KI, die ein Bewusstsein erlangt
In der Laienwelt sowie in großen Teilen der KI-Forschung ist eine These bekannt,
die besagt, dass eine KI ab einer bestimmten Intelligenzschwelle ein Bewusstsein erlangt. Anders als vielerorts angenommen hätte selbst ein Beweis dieser These keinerlei
Auswirkungen auf die AKI-Forschung. Diese beschäftigt sich ausschließlich mit der
Entwicklung und den Folgen einer AKI. Ein Szenario, in dem ein autonomes Fahrzeug
eine Person X bewusst vom Ort A zum Ort B chauffiert, wird zum gleichen Ergebnis
führen wie ein Szenario, in dem selbiges unbewusst geschieht. Somit ist der Bewusstseinszustand einer AKI zwar noch nicht wissenschaftlich erforscht – damit beschäftigt
sich ein eigenes Teilgebiet der KI-Forschung – , zum Erreichen einer sicheren KI ist er
aber irrelevant.1
3.1.2 Roboter als Auslöser einer Katastrophe
Ein in der Populärliteratur besonders stark ausgeprägter Mythos ist jener einer existenziellen Bedrohung durch Roboter, die die Welt erobern. Geschuldet ist dies nicht nur
den klassischen Science-Fiction-Romanen. Es ist eine domänenübergreifend anzutreffende Neigung der Spezies Mensch, Wesen oder Systeme, die einem unverständlich sind,
zu vermenschlichen. Von den Wikingern, nach denen ein menschenähnliches Wesen
namens Thor Donner und Blitz lenkt, zu den modernen Weltreligionen, in denen
Anthropomorphismus in selbigem Ausmaß gang und gäbe ist, ist dieses Phänomen
1 Vgl. AI Safety Myths. Future of Life Institute. url: https://futureoflife.org/background/ai
myths/ (besucht am 1. 11. 2019).
11
schon seit jeher in der Geschichte des Menschen zu beobachten. Ich erkäre mir den
Anthropomorphismus als einen misslungenen Erklärungsversuch unseres Gehirns für
unverständliche Beobachtungen.
Die größte Sorge der Forschung nach einer sicheren AKI gilt nicht möglichen Robotern,
sondern der Intelligenz selbst, genauer gesagt einer Intelligenz, deren Ziele nicht
eindeutig mit den unseren übereinstimmen. Intelligenz ermöglicht Kontrolle, und eine
fortgeschrittene Intelligenz braucht auch keine Roboter, um ihre Ziele zu erreichen.
Heutzutage reicht eine Internetverbindung völlig aus.2
3.1.3 Bösartige AKI
Eine AKI, deren Ziele nicht eindeutig mit den unseren übereinstimmen, ist nicht die
Folge ihres bösartigen Willens, sondern die Folge einer unzureichend spezifizierten Zielsetzung. Ein autonomes Fahrzeug, dessen alleiniges Ziel es ist, seine Insassen vom Ort
A zum Ort B zu befördern, wird nicht auf die Gesundheit anderer Verkehrsteilnehmer
achten, die Straßenverkehrsordnung nicht befolgen, nicht nur auf Straßen fahren, unangenehm Bremsen, unökologisch Beschleunigen und nicht nach den weiteren unzähligen,
geschriebenen und ungeschriebenen menschlichen Werten und Normen handeln.
Es gibt keinen Geist in der Maschine, der unser geschriebenes Programm durchliest
und uns auf alle Stellen aufmerksam macht, die wir nicht so gemeint haben, wie wir sie
geschrieben haben. Eine AKI ist nicht gut oder böse, sie folgt nur unseren Anweisungen.3
3.2 Auswirkungen einer AKI
3.2.1 Arbeitslosigkeit durch Automatisierung
Seit der industriellen Revolution werden immer mehr Arbeitsstellen automatisiert und
durch Maschinen ersetzt, die in der Regel schneller und genauer arbeiten und meist
auch kosteneffizienter sind. Es gibt also wirtschaftliche Anreize zur Automatisierung.
Dieses Phänomen, das heute schon bei schwacher KI beobachtet werden kann, wird
2 Vgl. AI Safety Myths.
3 Vgl. Yudkowsky, „Complex Value Systems in Friendly AI“, S. 1.
12
in Zukunft bei einer fortgeschrittenen und letzten Endes allgemeinen künstlichen
Intelligenz verstärkt auftreten. Die – zumindest temporäre – Arbeitslosigkeit für den
größten Teil der Bevölkerung ist zu erwarten.4
O’Keefe u. a. schlagen als Gegenmaßnahme eine sogenannte Windfall-Klausel vor.
Unternehmen, die sich dieser Klausel verpflichten, müssen im Falle eines großen Profitsprungs, der durch eine KI verursacht wurde, einen gewissen Betrag für gemeinnützige
Zwecke spenden. Im Falle einer Massenarbeitslosigkeit kann ein solcher Geldtopf dann
für das Umtrainieren oder Unterstützen der Arbeitskräfte verwendet werden. Auch ein
bedingungsloses Grundeinkommen wäre unter Umständen umsetzbar.5
3.2.2 Machtverschiebung -und konzentration
„Whoever leads in AI will rule the world“ ist ein Zitat des russisches Staatspräsidenten
Vladimir Putin. Es verdeutlicht die weltpolitische Wichtigkeit von KI und dessen
Entwicklung in Richtung einer AKI.
Fortschritte in der Entwicklung autonomer Waffensystem könnten zu einer Verschiebung der militärischen Macht von Ländern und Gruppierungen führen und so die
bestehenden Mächtegleichgewichte gefährden.
Wenn eine Institution einen Vorsprung in der Entwicklung ihrer KI erlangt, so bringt
das auch verstärkte politische Macht mit sich. Jüngst konnte man dessen potentiell
verheerende Folgen an dem Beispiel von Camebridge Analytica beobachten.6
Cihon u. a. schreiben in einem Bericht über die Umsetzbarkeit und Vorteilhaftigkeit
einer möglichen zentralisierten KI-Institution. Sie kommen zum Schluss, dass eine ausreichend durchdacht konzipierte Institution einen positiven Effekt auf die Entwicklung
einer angepassten AKI haben könnte. In naher Zukunft scheint eine solche Organisation
aufgrund des bestehenden Mächteungleichgewichts unwahrscheinlich.7
4 Vgl. Sotala, Kaj und Yampolskiy, Roman V. „Responses to catastrophic AGI risk: a survey“. In:
Physica Scripta 90.1 (1. Jän. 2015), S. 018001. issn: 0031-8949, 1402-4896. doi: 10.1088/0031-89
49/90/1/018001, S. 3–4.
5 Vgl. O’Keefe, Cullen u. a. „The Windfall Clause: Distributing the Benefits of AI for the Common
Good“. In: arXiv:1912.11595 [cs] (24. Jän. 2020), S. 2.
6 Vgl. Duettmann, Allison. Artificial General Intelligence: Timeframes & Policy White Paper.
Available at foresight.org. Foresight Institute, 2017, S. 14–15.
7 Vgl. Cihon, Peter u. a. Should Artificial Intelligence Governance be Centralised? Six Design Lessons
from History. Centre for the Governance of AI, 15. Dez. 2019, S. 6–9.
13
3.2.3 Missbrauch durch Cyberattacken
Heutige Cyberattacken haben meist zur Folge, dass Geld oder Daten gestohlen werden.
Im schlimmsten Falle können sie auch zu Menschentoden führen, beispielsweise bei
Angriffen auf kritische Infrastruktur wie Krankenhäuser. Die Folgen bei einer Attacke
auf eine mögliche AKI wären schlimmer: Ein einziger Angriff könnte ein Existenzrisiko
für die Menschheit darstellen. Das Problem der AKI-Cybersicherheit wird zukünftigen
Arbeiten überlassen und in dieser Arbeit nicht weiter erläutert.8
3.2.4 Unangepasste AKI
Ein noch viel größeres Risiko ist eine ungangepasste AKI, weil diese zu selbigen Folgen
führen würde wie ein Missbrauch durch Cyberattacken und dazu keinen böswilligen
Akteur braucht.9 Unangepasst ist eine AKI, wenn sie nicht auf die Werte der Menschheit
ausgerichtet ist und deshalb die ihr vorgegebenen Ziele nicht in der Art und Weise
umsetzt, wie das von ihrem Operator gewollt war. Das folgende Kapitel beschäftigt
sich mit Ansätzen, eine AKI anzupassen.
8 Vgl. Yampolskiy, Roman V. und Spellchecker, M. S. „Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures“. In: arXiv:1610.07997 [cs] (25. Okt. 2016), S. 8.
9 Vgl. Yudkowsky, Intelligence Explosion Microeconomics, S. 14.
14
4 Maschinelle Werteanpassung
Es ist schwer, menschliche Werte in Computersysteme zu programmieren (siehe Kapitel
2.4), deshalb haben Irving u. a. einen anderen Ansatz der Werteanpassung verfolgt:
die des menschlichen Feedbacks durch Deep reinforcement learning. Das folgende
Unterkapitel dient der Erklärung von wichtigen Lernverfahren der KI-Forschung, um
die wissenschaftlichen Arbeiten von Irving u. a. zu verstehen.
4.1 KI-Lernverfahren
4.1.1 Reinforcement Learning
Reinforcement Learning (RL, dt. bestärkendes Lernen) beschreibt ein Lernverfahren
einer KI, bei der sie durch durch Erfolg und Misserfolg, durch Belohnung und Bestrafung
lernt. Russell und Norvig erklären RL zusammengefasst so: „Imagine playing a
new game whose rules you don’t know; after a hundred or so moves, your opponent
announces, ‚You lose.‘ This is reinforcement learning in a nutshell.“ 1
Die Aufgabe von RL ist es, wahrgenommene Belohnungen und Bestrafungen zu
benutzen, um die optimale Verfahrensweise (eng. policy) in einer gegebenen Umgebung
zu finden. Dabei hat die KI a priori kein Wissen über ihre Umgebung oder Nutzfunktion. Die Nutzfunktion, definiert über Umgebungszustände, zeigt dabei den Nutzen
einer bestimmten Verfahrensweise. Die optimale Verfahrensweise ist diejenige, die den
höchsten erwarteten Nutzen bringt.
RL wird in Bereichen eingesetzt, in denen es nicht genug Daten gibt, oder in denen
es nicht lohnenswert ist, die notwendige Menge an Daten zu verarbeiten, um eine
KI auf alle möglichen Umgebungszustände vorzubereiten. Eine KI, die beispielsweise
versucht, Schach zu lernen, müsste 10120 (auch Shannon-Zahl genannt) verschiedene
Schachspiele gesehen haben, um allein anhand von Beispielen auf jede Situation
1 Russell, Stuart und Norvig, Peter. Artificial Intelligence: A Modern Approach, Global Edition.
3. Aufl. Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam,
Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao
Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Addison Wesley, 18. Mai 2016. 1132 S.
isbn: 978-1-292-15396-4, S. 831.
15
vorbereitet zu sein.2 Bei RL vermittelt man der KI stattdessen, wann sie gewonnen
oder verloren hat. Sie sucht dann auf Basis dieser Informationen eine Funktion, die die
Gewinnwahrscheinlichkeit jeder gegebenen Position einigermaßen akkurat einschätzt.3
4.1.2 Deep Learning
Deep Learning (DL, dt. mehrschichtiges Lernen) ist ein Teilbereich des maschinellen
Lernens. Dabei versucht eine KI Inputdaten mit Hilfe von Hierarchien von Konzepten zu
verstehen. Der Grundansatz von DL ist das Verstehen von komplexen Konzepten durch
Kombinieren von einfacheren Konzepten (siehe Abbildung 4.1). Diese Konzeptschichten
werden in DL fast immer mit Hilfe von künstlichen neuronalen Netzen (KNN, engl.
artificial neural network, ANN ) gelernt.4 Die Anzahl der Schichten wird auch Tiefe
(eng. depth) genannt, daher der Name Deep Learning.5
DL wird heute vor allem in den Bereichen der Sprach- und Bilderkennung sowie der
maschinellen Übersetzung eingesetzt.6
4.1.3 Deep Reinforcement Learning
Deep Reinforcement Learning (DRL, dt. mehrschichtiges bestärkendes Lernen) kombiniert die Ansätze von RL mit denen von DL. Neuronale Netze werden trainiert,
um jeder möglichen Aktion in einer gegebenen Umgebungsposition einen Nutzwert
zuzuteilen. Ihr Ziel ist es, die nützlichste Aktion zu finden.7 Auf der Abbildung 4.2
wird dieser Vorgang mit einem Frame des Spiels Mario Bros. als Input veranschaulicht.
Diese Nutzwertzuteilung ermöglicht eine signifikante Leistungsteigerung von RL in
bestimmten Domänen.
2 Vgl. Shannon, Claude E. „Programming a Computer for Playing Chess“. In: Computer Chess
Compendium. Hrsg. von Levy, David. New York, NY: Springer, 1988, S. 2–13. isbn: 978-1-4757-1968-0.
doi: 10.1007/978-1-4757-1968-0_1, S. 4.
3 Vgl. Russell und Norvig, Artificial Intelligence, S. 830–831.
4 Vgl. Chollet, François. Deep Learning with Python. 1st. Shelter Island, New York: Manning
Publications, 22. Dez. 2017. 384 S. isbn: 978-1-61729-443-3, S. 8.
5 Vgl. Goodfellow, Ian u. a. Deep Learning. http://www.deeplearningbook.org. MIT Press,
2016, S. 1–8.
6 Vgl. ebd., S. 25–26.
7 Vgl. Nicholson, Chris. A Beginner’s Guide to Deep Reinforcement Learning. Pathmind. url:
http://pathmind.com/wiki/deep-reinforcement-learning (besucht am 3. 1. 2020).
16
Abbildung 4.1: Veranschaulichung eines DL-Modells. Die KI bekommt rohe Pixeldaten
als Input. Mit jeder Schicht wendet sie ein neues Konzept auf das vorherige an, die
Konzepte sind also aufbauend. Durch Analyse der Helligkeit umgebener Pixel werden
Ränder erkannt (1. Schicht). Ansammlungen von Rändern werden als Ecken und
Konturen identifiziert (2. Schicht). Durch zusammenhängende Ecken und Konturen
können ganze Objektteile bestimmt werden (3. Schicht). Bildquelle: Goodfellow, Ian
u. a. Deep Learning. http://www.deeplearningbook.org. MIT Press, 2016, S. 6
17
Mnih u. a. haben einen Algorithmus entwickelt, mit dem eine KI allein anhand von
Pixeln als Input gelernt hat, 49 verschiedene Atari 2600 -Spiele zu spielen, 29 davon
sogar auf menschenähnlichem Niveau.8
Abbildung 4.2: Die Umgebung ist das Level, in dem sich Mario (links unten zu sehen)
befindet, die möglichen Aktionen sind: springen, nach links laufen, nach rechts laufen.
Die neuronalen Netze teilen jeder Aktion einen Nutzwert zu. Beispiel: springen (5), nach
rechts laufen (7), nach links laufen (0). Bildquelle: Nicholson, Chris. A Beginner’s
Guide to Deep Reinforcement Learning. Pathmind. url: http://pathmind.com/wiki
/deep-reinforcement-learning (besucht am 3. 1. 2020)
4.1.4 Inverse Reinforcement Learning
Inverse Reinforcement Learning (IRL, dt. umgekehrtes bestärkendes Lernen) ist ein
Lernverfahren, bei dem eine KI versucht, anhand von Input-Output-Paaren die richtige
Lösungsfunktion herzuleiten. Dies ist in allen Bereichen sinnvoll, in denen man (noch)
nicht weiß, was das Ziel ist oder in denen es schwer ist, das gewollte Verhalten formell
in eine Nutzfunktion auszuschreiben. Ein solcher Fall ist das autonome Fahren. Ein
angenehmer und sicherer Fahrstil hängt abgesehen von den Verkehrsregeln noch mit
vielen anderen Faktoren zusammen: der Sicherheitsabstand, der Bremsstil, die ökonomische Fahrweise, das Spurhalten, das Rechtsfahren, der Abstand vom Randstein,
8 Vgl. Mnih, Volodymyr u. a. „Human-level control through deep reinforcement learning“. In: Nature
518.7540 (Feb. 2015), S. 529–533. issn: 1476-4687. doi: 10.1038/nature14236.
18
eine angemessene Fahrgeschwindigkeit oder die Anzahl an Spurwechseln um einige zu
nennen. Alle relevanten Faktoren müssten formell ausgeschrieben und gewichtet werden,
damit das System weiß, dass der Abstand zu Fußgängern beispielsweise wichtiger ist als
der Abstand zum Randstein. Nur so kann ein autonomes Fahrzeug im Zweifelsfall die
richtigen Entscheidungen treffen. Statt alle relevanten Faktoren auszuformulieren und
zu gewichten, zeigt man einer KI Beispiele von angenehmen und sicheren Fahrstilen
und lässt die KI die Nutz- und die Lösungsfunktion herleiten und anpassen.9 Nachdem
eine Lösungsfunktion gefunden wurde, kann diese durch RL trainiert werden.10
4.2 Deep Reinforcement Learning von
menschlichen Werten
Die größte Sorge der KI-Forschung ist, dass wir Zielfunktionen unzureichend definieren
und eine KI dadurch Schaden anrichtet. Mit anderen Worten: dass eine KI nicht das tut,
was wir „meinen“ (siehe Kapitel 3.1.3).11 IRL löst dieses Problem, da die Zielfunktion
von der KI selbst definiert wird. Der Ansatz funktioniert aber nur bei Aufgaben, für die
es auch Lösungsdemonstrationen gibt. Eine Alternative ist, das Verhalten des Systems
zu gegebenen Zeitpunkten von Menschen beurteilen zu lassen. Christiano u. a. haben
eine KI im ersten Schritt ihre Nutzfunktion durch menschliches Feedback lernen lassen.
Im zweiten Schritt optimiert die KI ihre Nutzfunktion, sie versucht sich also so zu
verhalten, dass der menschliche Begutachter möglichst zufriedengestellt ist. So handelt
die KI nach den menschlichen Werten und ihre Ziele stimmen mit den unseren überein.
Diese beiden Schritte werden so lange wiederholt, bis die KI das gewünschte Verhalten
zeigt (siehe Abbildung 4.3).12 Es folgt eine formelle Ausformulierung.
Zu jedem Zeitpunkt t empfängt die KI eine Umgebungsobservation ot ∈ O und
sendet dann eine Aktion at ∈ A an die Umgebung. Wir nehmen an, dass ein menschlicher Begutachter seine Präferenz zwischen Trajektoriensegmenten auswählt, wo-
9 Vgl. Abbeel, Pieter und Ng, Andrew. „Apprenticeship Learning via Inverse Reinforcement Learning“. In: Proceedings, Twenty-First International Conference on Machine Learning, ICML 2004
(20. Sep. 2004). doi: 10.1007/978-0-387-30164-8_417.
10 Vgl. Christiano, Paul u. a. „Deep reinforcement learning from human preferences“. In: arXiv:1706.03741 [cs, stat] (13. Juli 2017), S. 1.
11 Vgl. Yudkowsky, „Complex Value Systems in Friendly AI“, S. 1.
12 Vgl. Christiano u. a., „Deep reinforcement learning from human preferences“, S. 1–2.
19
bei ein Trajektoriensegment eine Abfolge von Observationen und Aktionen ist: σ =
((o0 , a0 ), (o1 , a1 ), ..., (ok−1 , ak−1 )) ∈ (O × A)k . Man schreibt σ 1 σ 2 , um auszudrücken,
dass der Begutachter das Trajektoriensegment σ 1 über dem Segment σ 2 bevorzugt.13
In den Experimenten von Christiano u. a. bekommt der menschliche Begutachter
Trajektoriensegmente in Form von ein- bis zweisekündigen Videoclips zugespielt. Die
Begutachtung kommt in eine Datenbank D bestehend aus dreidimensionalen Arrays
(σ 1 , σ 2 , µ), wobei µ eine Distribution über {1, 2} ist.
1. Falls eines der Segmente bevorzugt wird, dann wird die jeweilige Auswahl mehr
gewichtet.
2. Falls der Begutachter beide als gleich wünschenswert erachtet, so ist µ eine
Konstante.
3. Falls die Segmente als nicht vergleichbar eingestuft werden, dann wird der jeweilige
Vergleich aus der Datenbank D exkludiert.14
Weiters stellen Christiano u. a. eine Formel zur Berechnung der Wahrscheinlichkeit
P̂ auf, dass ein Begutachter das Trajektoriensegment σ 1 bevorzugt.
exp r̂(o1t , a1t )
P̂ [σ σ ] =
P
P
exp r̂(o1t , a1t ) + exp r̂(o2t , a2t )
1
P
2
(4.1)
r̂ ist eine Belohnungsfunktion, also eine Funktion, die die Wahrscheinlichkeit angibt,
dass die Trajektorie (o1 , a1 ) zum Zeitpunkt t zu einer Belohnung führt. Die Summe
der Belohnungsfunktionen zu allen Zeitpunkten t ergibt die gesamte erwartete Belohnung für das Trajektoriensegment σ 1 . Der Quotient von der Gesamtbelohnung von
σ 1 und der Summe der Gesamtbelohnungen beider Segmente ergibt P̂ . Man bemerke,
dass die Autoren alle Summen der Gleichung exponieren. Das liegt daran, dass die
Belohnungswahrscheinlichkeit mit zunehmender Zeit exponentiell steigt. Genauso wie
der Elopunkten-Unterschied zwischen verschiedenen Schachspielern in etwa die Wahrscheinlichkeit angibt, dass einer gegen den anderen gewinnt, zeigt der Unterschied des
erwarteten Gewinns zweier Trajektoriensegmente in etwa die Wahrscheinlichkeit, dass
eines vom Begutachter präferiert wird.15
13 Vgl. Christiano u. a., „Deep reinforcement learning from human preferences“, S. 3–4.
14 Vgl. ebd., S. 5.
15 Vgl. ebd., S. 5.