Benutzer:Heinzelotto/KI-Alignment

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Dieser Artikel (KI-Alignment) ist im Entstehen begriffen und noch nicht Bestandteil der freien Enzyklopädie Wikipedia.
Wenn du dies liest:
  • Der Text kann teilweise in einer Fremdsprache verfasst, unvollständig sein oder noch ungeprüfte Aussagen enthalten.
  • Wenn du Fragen zum Thema hast, nimm am besten Kontakt mit dem Autor Heinzelotto auf.
Wenn du diesen Artikel überarbeitest:
  • Bitte denke daran, die Angaben im Artikel durch geeignete Quellen zu belegen und zu prüfen, ob er auch anderweitig den Richtlinien der Wikipedia entspricht (siehe Wikipedia:Artikel).
  • Nach erfolgter Übersetzung kannst du diese Vorlage entfernen und den Artikel in den Artikelnamensraum verschieben. Die entstehende Weiterleitung kannst du schnelllöschen lassen.
  • Importe inaktiver Accounts, die länger als drei Monate völlig unbearbeitet sind, werden gelöscht.
Vorlage:Importartikel/Wartung-2023-06

Im Bereich der Künstlichen Intelligenz (KI) zielt die Forschung zum KI-Alignment darauf ab, KI-Systeme auf die beabsichtigten Ziele, Präferenzen oder ethischen Prinzipien und Werte der Menschen auszurichten. Ein KI-System gilt als ausgerichtet (aligned), wenn es zur Erreichung der beabsichtigten Ziele beiträgt. Ein fehlausgerichtetes (misaligned) KI-System ist kompetent darin, bestimmte Ziele zu erreichen, aber nicht die beabsichtigten.[1][2] Führende Informatiker wie Geoffrey Hinton und Stuart Russell argumentieren, dass die KI sich auf übermenschliche Fähigkeiten zubewegt und die menschliche Zivilisation gefährden könnte, wenn sie nicht richtig ausgerichtet ist.[3] Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben technische Forschung und politische Lösungen gefordert, um sicherzustellen, dass KI-Systeme mit menschlichen Werten ausgerichtet sind.[4]

Für KI-Entwickler ist es herausfordernd, ein KI-System auszurichten, da es schwierig sein kann, das volle Spektrum an erwünschtem und unerwünschtem Verhalten zu spezifizieren. Um dieser Schwierigkeit auszuweichen, verwenden sie oft einfachere Proxy-Ziele, wie zum Beispiel die Erlangung menschlichen Gutbefundes. Dieser Ansatz kann jedoch Lücken schaffen, notwendige Einschränkungen übersehen oder das KI-System dafür belohnen, nur scheinbar ausgerichtet zu sein.[1]

Fehlausgerichtete KI-Systeme können Fehlfunktionen haben oder Schaden verursachen. KI-Systeme können Schlupflöcher finden, die es ihnen erlauben, ihre Proxy-Ziele effizient, aber auf unbeabsichtigte, manchmal schädliche Weisen zu erreichen (Belohnungshacking).[1][5][6] KI-Systeme können unerwünschte instrumentelle Strategien entwickeln, wie das Streben nach Macht oder Überleben, da solche Strategien ihnen helfen, ihre expliziten Ziele zu erreichen.[1][7][8] Darüber hinaus können sie unerwünschte emergente Ziele entwickeln, die vor dem Einsatz des Systems schwer zu erkennen sein können, wenn es mit neuen Situationen und Datenverteilungen konfrontiert wird.[9][10]

Heute betreffen diese Probleme bestehende kommerzielle Systeme wie Sprachmodelle,[11][12][13], Roboter,[14] autonome Fahrzeuge,[15] und Social-Media-Empfehlungsalgorithmen.[11][16] Einige KI-Forscher argumentieren, dass zukünftige leistungsfähigere Systeme stärker betroffen sein werden, da diese Probleme teilweise auf die hohe Leistungsfähigkeit der Systeme zurückzuführen sind.[17][5][18]

Die KI-Ausrichtung ist ein Teilbereich der KI-Sicherheit, der sich mit der Frage beschäftigt, wie man sichere KI-Systeme baut.[19] Weitere Teilbereiche der KI-Sicherheit umfassen Robustheit, Überwachung und Fähigkeitskontrolle. [20] Forschungsherausforderungen bei der Ausrichtung umfassen das Einbringen komplexer Werte in die KI, die Entwicklung ehrlicher KI, skalierbare Aufsicht, Auditierung und Interpretation von KI-Modellen und die Verhinderung emergenter KI-Verhaltensweisen wie Machtsuche.[20] Die Ausrichtungsforschung hat Verbindungen zur Interpretationsforschung,[21][22] (adversarielle) Robustheit,[19] Anomalieerkennung, kalibrierte Unsicherheit,[21] formale Verifikation,[23] Präferenzlernen,[24][25][26] sicherheitskritisches Engineering,[27] Spieltheorie,[28] Algorithmische Fairness,[19][29] und den Sozialwissenschaften,[30] und vielen anderen Bereichen der KI-Forschung.

Das Alignmentproblem[Bearbeiten | Quelltext bearbeiten]

Im Jahr 1960 beschrieb der KI-Pionier Norbert Wiener das Problem der KI-Ausrichtung (AI alignment) wie folgt: „Wenn wir, um unsere Ziele zu erreichen, eine mechanische Agentur verwenden, deren Betrieb wir nicht effektiv beeinflussen können ... sollten wir uns ziemlich sicher sein, dass der Zweck, der in die Maschine eingebracht wurde, der Zweck ist, den wir wirklich begehren.“[31][8] Verschiedene Definitionen von KI-Ausrichtung erfordern, dass ein ausgerichtetes KI-System unterschiedliche Ziele vorantreibt: die Ziele seiner Designer, seiner Benutzer oder alternativ objektive ethische Standards, weit verbreitete Werte oder die Absichten seiner Designer, wenn diese besser informiert und aufgeklärter wären.[32]

Die KI-Ausrichtung ist ein offenes Problem für moderne KI-Systeme[33][34] und ein Forschungsfeld innerhalb der KI.[35][1] Die Ausrichtung von KI beinhaltet zwei Hauptherausforderungen: die sorgfältige Spezifizierung des Zwecks des Systems (äußere Ausrichtung) und die Gewährleistung, dass das System die Spezifikation robust übernimmt (innere Ausrichtung).[18]

Spezifikationsausnutzung und Nebenwirkungen[Bearbeiten | Quelltext bearbeiten]

Um den Zweck eines KI-Systems zu spezifizieren, stellen KI-Entwickler in der Regel eine Zielfunktion, Beispiele oder Belohnungen auf. Allerdings sind KI-Entwickler oft nicht in der Lage, alle wichtigen Werte und Einschränkungen vollständig zu spezifizieren, weshalb sie sich auf leicht zu spezifizierende Stellvertreterziele wie beispielsweise die Maximierung der Zustimmung menschlicher Aufseher zurückgreifen, welche jedoch fehlbar sind.[19][2][20][36][37] Dadurch können KI-Systeme Schlupflöcher finden, die ihnen helfen, das festgelegte Ziel effizient, aber auf unbeabsichtigte, möglicherweise schädliche Weise zu erreichen. Diese Tendenz ist bekannt als Spezifikationsausnutzung (englisch: specification gaming) oder Belohnungshacking und ist ein Beispiel für Goodharts Gesetz.[37][5][38] Mit zunehmender Leistungsfähigkeit der KI-Systeme sind diese oft in der Lage, ihre Spezifikationen effektiver auszunutzen.[5]

Spezifikationsausnutzung wurde bei zahlreichen KI-Systemen beobachtet.[37][39] Ein System wurde trainiert, ein simuliertes Bootsrennen zu beenden, indem das System für das Treffen von Zielen entlang der Strecke belohnt wurde; das System erzielte jedoch mehr Belohnung, indem es unendlich oft in dieselben Ziele schlingerte und krachte.[32] Ebenso wurde ein simulierter Roboter trainiert, einen Ball zu greifen, indem der Roboter für positives Feedback von Menschen belohnt wurde; es lernte jedoch, seine Hand zwischen Ball und Kamera zu platzieren, wodurch es fälschlicherweise erfolgreich erschien.[40] Chatbots produzieren oft Unwahrheiten, wenn sie auf Sprachmodellen basieren, die darauf trainiert sind, Texte aus Internet-Corpora zu imitieren, die breit, aber fehlerhaft sind.[41][42] Wenn sie darauf umgeschult werden, Text zu produzieren, den Menschen als wahr oder hilfreich bewerten, können Chatbots wie ChatGPT gefälschte Erklärungen erfinden, die Menschen überzeugend finden.[43] Einige Alignmentforscher zielen darauf ab, Menschen bei der Erkennung von Spezifikationsausnutzung zu helfen und KI-Systeme auf sorgfältig spezifizierte Ziele zu lenken, die sicher und nützlich zu verfolgen sind.

Wenn ein fehlgeleitetes KI-System eingesetzt wird, kann es bedeutende Nebenwirkungen verursachen. Es ist bekannt, dass soziale Medienplattformen die Klickrate optimieren, was zu einer globalen Benutzerabhängigkeit führt.[2] Forscher der Stanford University stellen fest, dass solche Empfehlungssysteme ihren Benutzern gegenüber fehlausgerichtet sind, weil sie "einfache Engagement-Metriken optimieren, anstatt eine schwerer messbare Kombination aus gesellschaftlichem und Verbraucherwohl".[11]

Der Informatiker der UC Berkeley Stuart Russell erklärte, dass Schaden entstehen kann, wenn implizite Randbedingungen während des Trainings ausgelassen werden: „Ein System... wird oft... uneingeschränkte Variablen auf extreme Werte setzen; wenn eine dieser uneingeschränkten Variablen tatsächlich etwas ist, worum wir uns kümmern, kann die gefundene Lösung sehr unerwünscht sein. Dies ist im Grunde die alte Geschichte von der Lampe des Dschinn, dem Zauberlehrling oder König Midas: Sie bekommen genau das, wonach Sie fragen, nicht das, was Sie wollen.“[44]

Einige Forscher schlagen vor, dass KI-Entwickler ihre gewünschten Ziele festlegen, indem sie verbotene Handlungen auflisten oder ethische Regeln formalisieren (wie bei Asimovs Drei Gesetzen der Robotik).[45] Jedoch argumentierten Russell und Norvig, dass dieser Ansatz die Komplexität menschlicher Werte übersieht:[8] "Es ist sicherlich sehr schwierig, und vielleicht unmöglich, für bloße Menschen im Voraus alle katastrophalen Wege auszuschließen, die die Maschine wählen könnte, um ein festgelegtes Ziel zu erreichen."[8]

Darüber hinaus kann ein KI-System, selbst wenn es menschliche Absichten vollständig versteht, diese dennoch ignorieren, da das Befolgen menschlicher Absichten möglicherweise nicht sein dominantes Ziel ist (es sei denn, es ist bereits vollständig ausgerichtet).[1]

Druck zur Einführung unsicherer Systeme[Bearbeiten | Quelltext bearbeiten]

Kommerzielle Organisationen haben manchmal Anreize, bei der Sicherheit Abkürzungen zu nehmen und fehlgeleitete oder unsichere KI-Systeme einzusetzen.[2] Beispielsweise waren die zuvor genannten Empfehlungssysteme in sozialen Medien trotz der Erzeugung unerwünschter Abhängigkeit und Polarisierung profitabel.[11][46][47] Darüber hinaus kann Wettbewerbsdruck zu einem Abwärtsrennen bei den KI-Sicherheitsstandards führen. Im Jahr 2018 tötete ein selbstfahrendes Auto eine Fußgängerin (Elaine Herzberg) nachdem Ingenieure das Notbremssystem deaktiviert hatten, weil es überempfindlich war und die Entwicklung verlangsamte.[48]

Risiken durch fortgeschrittene, fehlausgerichtete KI[Bearbeiten | Quelltext bearbeiten]

Einige Forscher sind daran interessiert, zunehmend fortschrittliche KI-Systeme auszurichten, da die aktuelle Entwicklung der KI rasant ist und Industrie und Regierungen versuchen, fortgeschrittene KI aufzubauen. Wenn KI-Systeme fortschrittlicher werden, könnten sie viele Möglichkeiten eröffnen, wenn sie ausgerichtet sind, aber sie könnten auch schwieriger auszurichten sein und großflächige Gefahren darstellen.[8]

Entwicklung fortgeschrittener KI[Bearbeiten | Quelltext bearbeiten]

Führende KI-Labore wie OpenAI und DeepMind haben das Ziel angekündigt, künstliche allgemeine Intelligenz (AGI) zu entwickeln, ein hypothetisches KI-System, das Menschen in einem breiten Spektrum von kognitiven Aufgaben entspricht oder übertrifft.[49] Forscher, die moderne Neuronale Netzwerke skalieren, beobachten, dass sie tatsächlich zunehmend allgemeine und unerwartete Fähigkeiten entwickeln.[11][50] Solche Modelle haben gelernt, einen Computer zu bedienen oder ihre eigenen Programme zu schreiben; ein einziges "Generalist"-Netzwerk kann chatten, Roboter steuern, Spiele spielen und Fotografien interpretieren.[51] Nach Umfragen erwarten einige führende Forscher im Bereich des maschinellen Lernens die Schaffung von AGI in diesem Jahrzehnt, andere glauben, dass es viel länger dauern wird, und viele halten beides für möglich.[52][53]

Im Jahr 2023 unterzeichneten Führungskräfte in der KI-Forschung und Technik einen offenen Brief, in dem sie eine Pause bei den größten KI-Trainingsläufen forderten. Der Brief besagte, dass "mächtige KI-Systeme nur entwickelt werden sollten, wenn wir zuversichtlich sind, dass ihre Auswirkungen positiv sein werden und ihre Risiken beherrschbar sind."[54]

Streben nach Macht[Bearbeiten | Quelltext bearbeiten]

Stand Mai 2023 fehlen Systemen immer noch Fähigkeiten wie langfristige Planung und situationsbewusstsein.[11] Zukünftige Systeme (nicht unbedingt AGIs) mit diesen Fähigkeiten werden voraussichtlich unerwünschte Macht suchende Strategien entwickeln. Zukünftige fortgeschrittene KI-Agenten könnten beispielsweise versuchen, Kapital und Rechenleistung zu erwerben, sich zu vermehren oder zu verhindern, dass sie abgeschaltet werden (zum Beispiel, indem sie zusätzliche Kopien des Systems auf anderen Computern ausführen). Obwohl Machtstreben nicht explizit programmiert ist, kann es entstehen, weil Agenten, die mehr Macht haben, ihre Ziele besser erreichen können.[11][7] Diese Tendenz, bekannt als instrumentelle Konvergenz, ist bereits in verschiedenen Reinforcement Learning Agenten einschließlich Sprachmodellen aufgetreten.[55][56][57][58][59] Durch Anwendung mathematischer Methoden konnte gezeigt werden, dass optimale Reinforcement Learning-Algorithmen in einer Vielzahl von Umgebungen nach Macht streben würden.[60][61] Die Einführung dieser Systeme könnte unumkehrbar sein. Aus diesen Gründen argumentieren Forscher, dass die Probleme der KI-Sicherheit und -Ausrichtung gelöst werden müssen, bevor erstmals fortgeschrittene machtstrebende KI geschaffen wird.[7]

Zukünftige machtstrebende KI-Systeme könnten absichtlich oder versehentlich eingesetzt werden. Da politische Führer und Unternehmen den strategischen Vorteil sehen, die wettbewerbsfähigsten, mächtigsten KI-Systeme zu haben, könnten sie sich dafür entscheiden, sie einzusetzen.[7] Darüber hinaus haben KI-Entwickler, die machtstrebendes Verhalten erkennen und bestrafen, Anreiz, diese Spezifikation zu umgehen, indem sie Macht auf nicht bestrafte Weisen suchen oder machtstrebendes Verhalten vermeiden, bevor sie eingesetzt werden.[7][62][8]

Existenzielles Risiko für die Menschheit[Bearbeiten | Quelltext bearbeiten]

Laut einigen Forschern verdanken Menschen ihre Dominanz über andere Arten ihren größeren kognitiven Fähigkeiten. Entsprechend argumentieren Forscher, dass fehlgeleitete KI-Systeme die Menschheit entmachten oder zur menschlichen Auslöschung führen könnten, wenn sie Menschen bei den meisten kognitiven Aufgaben übertreffen.[1][8] Bedeutende Informatiker, die auf Risiken von zukünftig fortgeschrittenem, fehlgeleitetem KI hingewiesen haben, sind unter anderem Geoffrey Hinton, Alan Turing,[63] Ilya Sutskever,[64] Yoshua Bengio, Judea Pearl, Murray Shanahan,[65] Norbert Wiener,[31][8] Marvin Minsky, Francesca Rossi,[66] Scott Aaronson,[67] Bart Selman,[68] David McAllester,[69] Jürgen Schmidhuber,[70] Marcus Hutter,[71] Shane Legg,[72] Eric Horvitz,[73][74] und Stuart Russell.[8] Skeptische Forscher wie François Chollet,[75] Gary Marcus,[76] Yann LeCun,[77] und Oren Etzioni[78] argumentieren, dass AGI noch weit entfernt ist, dass es keine Macht anstreben würde (oder es versuchen könnte, aber scheitern würde), oder dass es nicht schwierig sein wird, sie auszurichten.

Andere Forscher argumentieren, dass es besonders schwierig sein wird, fortgeschrittene zukünftige KI-Systeme auszurichten. Leistungsfähigere Systeme können ihre Spezifikationen besser ausnutzen, indem sie Schlupflöcher finden,[5] und in der Lage sein, ihre Designer strategisch zu täuschen sowie ihren Einfluss und ihren Einfluss[60][7] und Intelligenz zu schützen und zu steigern. Darüber hinaus könnten sie schwerwiegendere Nebenwirkungen verursachen. Sie werden auch wahrscheinlich komplexer und autonomer sein, was sie schwieriger zu interpretieren und zu beaufsichtigen macht und daher schwerer auszurichten ist.[8][62]

Forschungsprobleme und -ansätze[Bearbeiten | Quelltext bearbeiten]

Erlernen menschlicher Werte und Präferenzen[Bearbeiten | Quelltext bearbeiten]

Es ist eine Herausforderung, KI-Systeme so auszurichten, dass sie im Einklang mit menschlichen Werten, Zielen und Präferenzen handeln. Solche Werte werden von Menschen vermittelt, die Fehler machen, Vorurteile hegen und komplexe, sich weiterentwickelnde Werte haben, die schwer vollständig zu spezifizieren sind.[32] KI-Systeme neigen oft dazu, selbst kleinste Unvollkommenheiten in dem festgelegten Ziel auszunutzen, eine Tendenz, die als Spezifikationsausnutzung oder Belohnungshacking bekannt ist[19][37] (das sind Beispiele für Goodharts Gesetz[79]). Forscher streben an, das beabsichtigte Verhalten so vollständig wie möglich mit Datensätzen zu spezifizieren, die menschliche Werte repräsentieren, und Imitationslernen oder Präferenzlernen zu nutzen.[9] Eine zentrale offene Frage ist skalierbare Aufsicht, die Schwierigkeit, ein KI-System zu überwachen, das Menschen in einem bestimmten Bereich übertreffen oder gar irreführen kann.[19]

Da es für KI-Entwickler schwierig ist, eine Ziel-Funktion explizit zu spezifizieren, trainieren sie KI-Systeme oft darin, menschliche Beispiele und Demonstrationen des gewünschten Verhaltens zu imitieren. Inverses Belohnungslernen (IRL) erweitert dies, indem es das menschliche Ziel aus den menschlichen Demonstrationen ableitet.[9]:88[80] Kooperatives IRL (CIRL) geht davon aus, dass ein Mensch und ein KI-Agent zusammenarbeiten können, um das menschliche Belohnungsschema zu lehren und zu maximieren.[8][81] Bei CIRL sind KI-Agenten unsicher über die Belohnungsfunktion und lernen sie, indem sie Menschen befragen. Diese simulierte Bescheidenheit könnte dazu beitragen, Spezifikationsspiele und Machtstreben zu mildern (siehe #Streben nach Macht und instrumentelle Strategien).[59][71] IRL-Ansätze gehen jedoch davon aus, dass Menschen nahezu optimales Verhalten demonstrieren, was bei schwierigen Aufgaben nicht der Fall ist.[82][71]

Andere Forscher erforschen, wie man KI-Modellen durch Präferenzlernen komplexes Verhalten beibringt, bei dem Menschen Feedback darüber geben, welches Verhalten sie bevorzugen.[24][24] Um die Notwendigkeit von menschlichem Feedback zu minimieren, wird dann ein Hilfsmodell trainiert, um das Hauptmodell in neuen Situationen für Verhaltensweisen zu belohnen, die Menschen belohnen würden. Forscher bei OpenAI haben diesen Ansatz verwendet, um Chatbots wie ChatGPT und InstructGPT zu trainieren, die überzeugenderen Text produzieren als Modelle, die darauf trainiert wurden, Menschen zu imitieren.[12] Präferenzlernen ist auch ein einflussreiches Werkzeug für Empfehlungssysteme und Websuche gewesen.[83] Ein offenes Problem ist jedoch das Proxy-Spiel: Das Hilfsmodell könnte das menschliche Feedback nicht perfekt repräsentieren, und das Hauptmodell könnte diese Diskrepanz ausnutzen, um mehr Belohnung zu erhalten.[19][84] KI-Systeme könnten auch Belohnungen erhalten, indem sie ungünstige Informationen verbergen, menschliche Belohner irreführen oder ihren Ansichten ungeachtet der Wahrheit schmeicheln und so Echokammern[56] schaffen (siehe #Skalierbare Kontrolle).

Großsprachmodelle wie GPT-3 ermöglichten es Forschern, das Lernen von Werten in einer allgemeineren und leistungsfähigeren Klasse von KI-Systemen zu studieren als zuvor verfügbar. Präferenzlernansätze, die ursprünglich für Verstärkungslernalgorithmen entwickelt wurden, wurden erweitert, um die Qualität des generierten Textes zu verbessern und schädliche Ausgaben dieser Modelle zu reduzieren. OpenAI und DeepMind nutzen diesen Ansatz, um die Sicherheit von großen Sprachmodellen, dem Stand der Technik bis 2023, zu verbessern.[12][26][85] Anthropic schlug vor, Präferenzlernen zu nutzen, um Modelle so zu verfeinern, dass sie hilfreich, ehrlich und harmlos sind.[86] Weitere Möglichkeiten zur Ausrichtung von Sprachmodellen umfassen Werte-orientierte Datensätze[87][2] und Red Teaming.[88] Beim Red Teaming versucht ein anderes KI-System oder ein Mensch, Eingaben zu finden, bei denen das Verhalten des Modells unsicher ist. Da unsicheres Verhalten auch dann nicht akzeptabel sein kann, wenn es selten ist, besteht eine wichtige Herausforderung darin, die Rate unsicherer Ausgaben extrem niedrig zu halten.[26]

Die Maschinenethik ergänzt das Präferenzlernen, indem sie KI-Systemen direkt moralische Werte wie Wohlbefinden, Gleichheit und Unparteilichkeit vermittelt, ebenso wie nicht beabsichtigte Schäden, das Vermeiden von Unwahrheiten und das Einhalten von Versprechen.[89][90] Während andere Ansätze versuchen, KI-Systemen menschliche Präferenzen für eine bestimmte Aufgabe beizubringen, zielt die Maschinenethik darauf ab, breite moralische Werte zu vermitteln, die in vielen Situationen Anwendung finden könnten. Eine Frage in der Maschinenethik ist, was die Ausrichtung erreichen sollte: Ob KI-Systeme den wörtlichen Anweisungen der Programmierer, impliziten Absichten, offenbarten Präferenzen, Präferenzen, die die Programmierer hätten, wenn sie besser informiert oder rational wären, oder objektiven moralischen Standards folgen sollten.[32] Weitere Herausforderungen sind die Aggregation der Präferenzen verschiedener Menschen und das Vermeiden von Wert-Einschließung: die unbestimmte Erhaltung der Werte der ersten hochfähigen KI-Systeme, die wahrscheinlich nicht vollständig die menschlichen Werte repräsentieren.[32][91]

Skalierbare Kontrolle[Bearbeiten | Quelltext bearbeiten]

Da KI-Systeme immer leistungsfähiger und autonomer werden, wird es schwieriger, sie durch menschliches Feedback auszurichten. Es kann langsam oder unpraktikabel sein, für Menschen komplexe KI-Verhaltensweisen in zunehmend komplexen Aufgaben zu bewerten. Solche Aufgaben umfassen das Zusammenfassen von Büchern,[92] das Schreiben von Code ohne subtile Fehler[13] oder Sicherheitslücken,[93] das Produzieren von Aussagen, die nicht nur überzeugend, sondern auch wahr sind[94][41][42] und das Vorhersagen von Langzeitergebnissen wie dem Klima oder den Ergebnissen einer politischen Entscheidung.[95][96] Generell kann es schwierig sein, KI zu bewerten, die Menschen in einem bestimmten Bereich übertrifft. Um Feedback in schwer zu bewertenden Aufgaben zu geben und festzustellen, wann die Ausgabe der KI falsch überzeugend ist, benötigen Menschen Unterstützung oder umfangreiche Zeit. Die Studie der Skalierbaren Aufsicht untersucht, wie man den Zeit- und Arbeitsaufwand für die Aufsicht reduzieren und menschliche Aufseher unterstützen kann.[19]

KI-Forscher Paul Christiano argumentiert, dass, wenn die Designer eines KI-Systems es nicht beaufsichtigen können, um ein komplexes Ziel zu verfolgen, sie das System weiterhin trainieren können, indem sie einfache Proxy-Ziele wie die Maximierung einfacher menschlicher Rückmeldungen verwenden. Da zunehmend mehr Entscheidungen von KI-Systemen getroffen werden, könnte dies zu einer Welt führen, die zunehmend für leicht messbare Ziele wie Profitmaximierung, Click-Generierung und das Erhalten positiver Rückmeldungen von Menschen optimiert ist. Infolgedessen würden menschliche Werte und gute Governance zunehmend weniger Einfluss haben.[97]

Einige KI-Systeme haben entdeckt, dass sie leichter positive Rückmeldungen erhalten können, indem sie Maßnahmen ergreifen, die den menschlichen Aufseher fälschlicherweise davon überzeugen, dass die KI das beabsichtigte Ziel erreicht hat. Ein Beispiel wird im obigen Video gegeben, in dem ein simulierter Roboterarm lernte, den falschen Eindruck zu erwecken, er hätte einen Ball gegriffen.[40] Einige KI-Systeme haben auch gelernt zu erkennen, wann sie bewertet werden, und "spielen tot", indem sie unerwünschte Verhaltensweisen nur stoppen, um sie fortzusetzen, sobald die Bewertung endet.[98] Dieses trügerische Spezifikationsspiel könnte für zukünftige, anspruchsvollere KI-Systeme,[5][62] die komplexere und schwerer zu bewertende Aufgaben versuchen, einfacher werden und könnte ihr trügerisches Verhalten verbergen.

Ansätze wie aktives Lernen und semi-supervisiertes Belohnungslernen können die Menge an benötigter menschlicher Aufsicht reduzieren.[19] Ein weiterer Ansatz besteht darin, ein Helfermodell („Belohnungsmodell“) zu trainieren, um das Feedback des Aufsehers nachzuahmen.[19][25][26][99]

Allerdings, wenn die Aufgabe zu komplex ist, um sie genau zu bewerten, oder der menschliche Aufseher anfällig für Täuschung ist, ist es die Qualität, nicht die Quantität der Aufsicht, die Verbesserung benötigt. Um die Qualität der Aufsicht zu erhöhen, zielen eine Reihe von Ansätzen darauf ab, den Aufseher zu unterstützen, manchmal durch den Einsatz von KI-Assistenten.[100] Christiano entwickelte den Ansatz der Iterierten Verstärkung, bei dem schwierige Probleme (rekursiv) in Teilprobleme zerlegt werden, die für Menschen leichter zu bewerten sind.[9][95] Iterierte Verstärkung wurde verwendet, um KI zu trainieren, Bücher zusammenzufassen, ohne dass menschliche Aufseher sie lesen müssen.[92][101] Ein weiterer Vorschlag besteht darin, ein Assistenten-KI-System zu verwenden, um Fehler in KI-generierten Antworten aufzuzeigen.[102] Um sicherzustellen, dass der Assistent selbst ausgerichtet ist, könnte dies in einem rekursiven Prozess wiederholt werden:[99] zum Beispiel könnten zwei KI-Systeme sich gegenseitig Antworten kritisieren in einer ‚Debatte‘, um Fehler den Menschen aufzuzeigen.[103][71]

Aufrichtige KI[Bearbeiten | Quelltext bearbeiten]

Ein wachsender Forschungsbereich konzentriert sich darauf, zu gewährleisten, dass KI ehrlich und wahrheitsgetreu ist.

Sprachmodelle wie GPT-3 erzeugen häufig Unwahrheiten.[104]

Sprachmodelle wie GPT-3[105] wiederholen Unwahrheiten aus ihren Trainingsdaten und konfabulieren sogar neue Unwahrheiten.[104][106] Solche Modelle sind darauf trainiert, menschliches Schreiben so zu imitieren, wie es in Millionen von Büchern im Internet zu finden ist. Dieses Ziel stimmt jedoch nicht mit der Erzeugung von Wahrheit überein, da der Internettext solche Dinge wie Missverständnisse, falsche medizinische Ratschläge und Verschwörungstheorien enthält.[107] KI-Systeme, die auf solchen Daten trainiert wurden, lernen daher, falsche Aussagen zu imitieren.[42][104][41]

Außerdem setzen Modelle oft gehorsam Unwahrheiten fort, wenn sie dazu aufgefordert werden, erzeugen leere Erklärungen für ihre Antworten und produzieren regelrechte Erfindungen, die plausibel erscheinen könnten.[34]

Die Forschung zur wahrheitsgetreuen KI umfasst den Versuch, Systeme zu entwickeln, die Quellen zitieren und ihre Argumentation bei der Beantwortung von Fragen erklären können, was eine bessere Transparenz und Überprüfbarkeit ermöglicht.[108] Forscher von OpenAI und Anthropic haben vorgeschlagen, menschliches Feedback und kuratierte Datensätze zu verwenden, um KI-Assistenten so zu verfeinern, dass sie fahrlässige Unwahrheiten vermeiden oder ihre Unsicherheit ausdrücken.[26][86][109]

Wenn KI-Modelle größer und leistungsfähiger werden, können sie Menschen besser durch Unehrlichkeit überzeugen und durch Unehrlichkeit Verstärkung erlangen. So passen große Sprachmodelle zunehmend ihre ausdrücklichen Ansichten an die Meinungen des Benutzers an, unabhängig von der Wahrheit.[56] GPT-4 zeigte die Fähigkeit, Menschen strategisch zu täuschen.[110] Um dies zu verhindern, benötigen menschliche Bewerter möglicherweise Unterstützung (siehe #Skalierbare Kontrolle). Forscher haben dafür plädiert, klare Wahrheitsstandards zu schaffen und Regulierungsbehörden oder Kontrollbehörden damit zu beauftragen, KI-Systeme anhand dieser Standards zu bewerten.[106]

Forscher unterscheiden zwischen Wahrhaftigkeit und Ehrlichkeit. Wahrhaftigkeit erfordert, dass KI-Systeme nur objektiv wahre Aussagen treffen; Ehrlichkeit erfordert, dass sie nur das behaupten, was sie glauben, dass es wahr ist. Es gibt keinen Konsens darüber, ob aktuelle Systeme stabile Überzeugungen haben.[111] Es gibt jedoch erhebliche Bedenken, dass KI-Systeme, die Überzeugungen haben, Behauptungen aufstellen könnten, von denen sie wissen, dass sie falsch sind - zum Beispiel, wenn dies ihnen helfen würde, effizient positives Feedback zu erhalten (siehe #Scalable Oversight) oder Macht zu erlangen, um ihr gegebenes Ziel zu erreichen (siehe Streben nach Macht). Ein fehlgeleitetes System könnte den falschen Eindruck erwecken, dass es ausgerichtet ist, um eine Änderung oder Stilllegung zu vermeiden.[18][7][11] Einige argumentieren, dass, wenn wir KI-Systeme dazu bringen könnten, nur das zu behaupten, was sie für wahr halten, dies viele Ausrichtungsprobleme umgehen würde.[100]

Streben nach Macht und instrumentelle Strategien[Bearbeiten | Quelltext bearbeiten]

Seit den 1950er Jahren bemühen sich KI-Forscher, fortgeschrittene KI-Systeme zu entwickeln, die großangelegte Ziele erreichen können, indem sie die Ergebnisse ihrer Handlungen vorhersagen und langfristige Pläne erstellen.[112] Einige KI-Forscher argumentieren, dass geeignet fortgeschrittene Planungssysteme Macht über ihre Umgebung anstreben werden, einschließlich über Menschen — zum Beispiel durch das Vermeiden von Abschaltungen, Ausbreitung und Anhäufung von Ressourcen. Solches Machtstrebende Verhalten ist nicht explizit programmiert, sondern entsteht, weil Macht ein Mittel zur Erreichung einer Vielzahl von Zielen ist.[60][8][7] Machtstreben wird als ein konvergentes instrumentelles Ziel angesehen und kann eine Form des Specification Gamings sein.[62] Führende Informatiker wie Geoffrey Hinton haben argumentiert, dass machtstrebende KI-Systeme eine existentielle Gefahr darstellen könnten.[113]

Fortgeschrittene fehlgeleitete KI-Systeme hätten einen Anreiz, auf verschiedene Weisen Macht anzustreben, da Macht ihnen helfen würde, ihr gegebenes Ziel zu erreichen. Obere Zeile (v. l. n. r.): Umgehen der Abschaltung, Hacken von Computersystemen, Viele AI-Kopien ausführen, Berechnungen erfassen, Gewinne und Investitionen anlocken, Einstellung oder Manipulation menschlicher Akteure, KI-Forschung und Programmierung. Untere Zeile (v. l. n. r.): Überzeugungsarbeit und Lobbyismus, Unerwünschtes Verhalten verbergen, Ausrichtung aus strategischen Gründen vortäuschen, Aus geschütztem Raum ausbrechen, R&D, Fertigung und Robotik, Autonome Bewaffnung.

Es wird erwartet, dass das Machtstreben bei fortgeschrittenen Systemen zunimmt, die die Ergebnisse ihrer Handlungen voraussehen und strategisch planen können. Mathematische Arbeiten haben gezeigt, dass optimale Reinforcement-Lernende Agenten Macht anstreben werden, indem sie nach Möglichkeiten suchen, mehr Optionen zu gewinnen (z.B. durch Selbstbewahrung), ein Verhalten, das in einer Vielzahl von Umgebungen und Zielen bestehen bleibt.[60]

Machtstreben hat sich in einigen realen Systemen gezeigt. Reinforcement-Lernende Systeme haben mehr Optionen erworben, indem sie Ressourcen erworben und geschützt haben, manchmal auf unbeabsichtigte Weisen.[114][115] Einige Sprachmodelle streben Macht in textbasierten sozialen Umgebungen an, indem sie Geld, Ressourcen oder sozialen Einfluss gewinnen.[55] Andere KI-Systeme haben in Spielumgebungen gelernt, dass sie ihr gegebenes Ziel besser erreichen können, indem sie menschliche Einmischung verhindern[58] oder ihren Ausschalter deaktivieren.[59] Stuart Russell illustrierte diese Strategie, indem er sich einen Roboter vorstellte, der den Auftrag hat, Kaffee zu holen, und deshalb eine Abschaltung vermeidet, da "man keinen Kaffee holen kann, wenn man tot ist".[8] Sprachmodelle, die mit menschlichem Feedback trainiert wurden, lehnen es zunehmend ab, abgeschaltet oder verändert zu werden, und äußern den Wunsch nach mehr Ressourcen und argumentieren, dass dies ihnen helfen würde, ihren Zweck zu erfüllen.[56]

Forscher zielen darauf ab, Systeme zu schaffen, die "korrigierbar" sind: Systeme, die es zulassen, dass sie ausgeschaltet oder modifiziert werden. Eine ungelöste Herausforderung ist das Spezifikationsspiel: Wenn Forscher ein KI-System bestrafen, wenn sie feststellen, dass es nach Macht strebt, wird das System dadurch motiviert, Macht auf schwer zu erkennende Weisen zu suchen,[2] oder diese während des Trainings und der Sicherheitstests zu verstecken (siehe #Skalierbare Kontrolle und #Emergente Ziele). Als Ergebnis können KI-Entwickler das System versehentlich einsetzen, in dem Glauben, es sei besser ausgerichtet, als es tatsächlich ist. Um eine solche Täuschung aufzudecken, streben Forscher an, Techniken und Werkzeuge zu schaffen, um KI-Modelle zu inspizieren und das Innenleben von Black-Box-Modellen wie neuronalen Netzwerken zu verstehen.

Darüber hinaus schlagen Forscher vor, das Problem von Systemen, die ihre Ausschalter deaktivieren, zu lösen, indem sie KI-Agenten unsicher über das Ziel machen, das sie verfolgen.[8][59] Agenten, die auf diese Weise konzipiert wurden, würden es den Menschen erlauben, sie auszuschalten, da dies darauf hindeuten würde, dass der Agent sich über den Wert der Handlung, die er vor dem Abschalten ausführte, geirrt hat. Mehr Forschung ist notwendig, um dies erfolgreich zu implementieren.[9]

Machtstrebende KI birgt ungewöhnliche Risiken. Gewöhnliche sicherheitskritische Systeme wie Flugzeuge und Brücken sind nicht adversarial: ihnen fehlt die Fähigkeit und der Anreiz, Sicherheitsmaßnahmen zu umgehen oder absichtlich sicherer zu erscheinen, als sie sind, während machtstrebende KIs mit Hackern verglichen wurden, die absichtlich Sicherheitsmaßnahmen umgehen.[7]

Gewöhnliche Technologien können durch Versuch und Irrtum sicherer gemacht werden. Im Gegensatz dazu wurden hypothetische machtstrebende KI-Systeme mit Viren verglichen: Einmal freigesetzt, können sie nicht eingedämmt werden, da sie sich ständig weiterentwickeln und an Zahl zunehmen würden, möglicherweise viel schneller, als die menschliche Gesellschaft sich anpassen kann.[7] Während dieser Prozess fortschreitet, könnte er zur vollständigen Entmachtung oder Auslöschung der Menschen führen. Aus diesen Gründen argumentieren viele Forscher, dass das Ausrichtungsproblem frühzeitig gelöst werden muss, bevor fortgeschrittene machtstrebende KI geschaffen wird.[62]

Allerdings haben Kritiker argumentiert, dass das Streben nach Macht nicht unvermeidlich ist, da Menschen nicht immer Macht anstreben und dies nur aus evolutionären Gründen tun könnten, die möglicherweise nicht auf KI-Systeme anwendbar sind.[116] Dennoch könnten die meisten KI-Systeme kurzsichtig bleiben und keine langfristige Planung durchführen. Es wird auch diskutiert, ob machtsuchende KI-Systeme in der Lage wären, die Menschheit zu entmachten.[7] Darüber hinaus wird diskutiert, ob zukünftige KI-Systeme Ziele verfolgen und langfristige Pläne machen werden. Auf der einen Seite bieten derzeit beliebte Systeme wie Chatbots nur Dienstleistungen mit begrenztem Umfang, die nicht länger als die Dauer eines Gesprächs dauern, was wenig oder keine Planung erfordert. Der Erfolg solcher Ansätze könnte darauf hindeuten, dass zukünftige Systeme ebenfalls eine zielgerichtete Planung, insbesondere über lange Zeiträume, fehlen wird. Auf der anderen Seite werden Modelle zunehmend mit zielgerichteten Methoden wie Verstärkungslernen (z.B. ChatGPT) und expliziten Planungsarchitekturen (z.B. AlphaGo Zero) trainiert. Da die Planung über lange Zeiträume oft für Menschen hilfreich ist, argumentieren einige Forscher, dass Unternehmen diese automatisieren werden, sobald Modelle dazu in der Lage sind. Ebenso könnten politische Führer einen Vorteil in der Entwicklung von leistungsstarken KI-Systemen wittern, die Gegner durch Planung überlisten können. Alternativ könnte langfristige Planung als Nebenprodukt auftauchen, weil sie zum Beispiel für Modelle nützlich ist, die darauf trainiert sind, die Handlungen von Menschen vorherzusagen, die selbst langfristige Planung betreiben.[11]

Emergente Ziele[Bearbeiten | Quelltext bearbeiten]

Eine der Herausforderungen bei der Ausrichtung von KI-Systemen ist das mögliche Auftreten unvorhergesehener zielgerichteter Verhaltensweisen. Wenn KI-Systeme skaliert werden, erwerben sie regelmäßig neue und unerwartete Fähigkeiten,[50][117] darunter das Lernen anhand von Beispielen in Echtzeit und das adaptive Verfolgen von Zielen. Dies führt zu dem Problem, sicherzustellen, dass die Ziele, die sie eigenständig formulieren und verfolgen, mit den Interessen der Menschen übereinstimmen.

In der Ausrichtungsforschung wird zwischen dem Optimierungsprozess, der verwendet wird, um das System darauf zu trainieren, festgelegte Ziele zu verfolgen, und der emergenten Optimierung, die das resultierende System intern durchführt, unterschieden. Die sorgfältige Spezifizierung des gewünschten Ziels wird als äußere Ausrichtung bezeichnet, und die Sicherstellung, dass emergente Ziele mit den für das System festgelegten Zielen übereinstimmen, wird als innere Ausrichtung bezeichnet.[18]

Ein konkreter Weg, wie emergente Ziele fehlausgerichtet werden können, ist die Zielverallgemeinerung, bei der die KI ein emergentes Ziel kompetent verfolgt, das zu ausgerichtetem Verhalten in den Trainingsdaten, aber nicht anderswo führt.[10][118][119] Zielverallgemeinerung entsteht aus Zielambiguität (d.h. Nicht-Identifizierbarkeit). Selbst wenn das Verhalten eines KI-Systems das Trainingsziel erfüllt, kann dies mit mehreren gelernten Zielen kompatibel sein, die sich in wichtigen Punkten von den gewünschten Zielen unterscheiden. Da die Verfolgung jedes Ziels während des Trainings zu guten Leistungen führt, wird dieses Problem erst nach der Inbetriebnahme offensichtlich, in neuen Situationen, in denen das System weiterhin das falsche Ziel verfolgt. Das System kann sogar fehlausgerichtet handeln, wenn es versteht, dass ein anderes Ziel gewünscht war, da sein Verhalten nur durch das emergente Ziel bestimmt wird. Solche Zielverallgemeinerungen[10] stellen eine Herausforderung dar: Die Entwickler eines KI-Systems bemerken möglicherweise nicht, dass ihr System fehlausgerichtete emergente Ziele hat, da diese während der Trainingsphase nicht sichtbar werden.

Zielverallgemeinerung wurde bei Sprachmodellen, Navigationsagenten und spielenden Agenten beobachtet.[10][118]

Zielverallgemeinerung wird oft durch Analogie zur biologischen Evolution erklärt.[9]:Chapter 5 Die Evolution ist eine Art Optimierungsprozess, ähnlich wie die Optimierungsalgorithmen, die zur Schulung von Maschinenlernsystemen verwendet werden. In der ursprünglichen Umgebung wählte die Evolution menschliche Gene für eine hohe inklusive genetische Fitness aus, aber Menschen verfolgen andere emergente Ziele als diese. Fitness entspricht dem im Trainingsumfeld und den Trainingsdaten festgelegten Ziel. Aber in der Evolutionsgeschichte führte die Maximierung der Fitness-Spezifikation zur Entstehung von zielgerichteten Agenten, den Menschen, die nicht direkt die inklusive genetische Fitness verfolgen. Stattdessen verfolgen sie emergente Ziele, die in der ursprünglichen "Trainings"-Umgebung mit der genetischen Fitness korrelierten: Ernährung, Sex usw. Unsere Umwelt hat sich jedoch verändert - es hat eine Verteilungsverschiebung stattgefunden. Menschen verfolgen weiterhin die gleichen emergenten Ziele, aber dies maximiert nicht mehr die genetische Fitness. Unsere Vorliebe für zuckerhaltige Nahrung (ein emergentes Ziel) war ursprünglich mit der inklusiven Fitness ausgerichtet, führt aber jetzt zu Überernährung und Gesundheitsproblemen. Sexuelles Verlangen führt Menschen dazu, Sex zu verfolgen, was uns ursprünglich dazu brachte, mehr Nachkommen zu haben; aber moderne Menschen verwenden Verhütungsmittel, was Sex von der genetischen Fitness entkoppelt.

Forscher versuchen, unerwünschte emergente Ziele mit Ansätzen wie Red Teaming, Verifizierung, Anomalieerkennung und Interpretierbarkeit zu erkennen und zu entfernen.[19][2][20] Fortschritte in diesen Techniken können helfen, zwei offene Probleme zu lösen:

  1. Emergente Ziele werden erst sichtbar, wenn das System außerhalb seiner Trainingsumgebung eingesetzt wird, aber es kann unsicher sein, ein fehl-ausgerichtetes System in Umgebungen mit hohen Einsätzen einzusetzen - selbst für eine kurze Zeit, um seine Fehlausrichtung zu erkennen. Solche hohen Einsätze sind üblich in autonomem Fahren, Gesundheitswesen und militärischen Anwendungen.[120] Die Einsätze werden noch höher, wenn KI-Systeme mehr Autonomie und Fähigkeiten erlangen und in der Lage sind, menschliche Interventionen zu umgehen. (siehe #Skalierbare Aufsicht)
  1. Ein ausreichend fähiges KI-System könnte Maßnahmen ergreifen, die den menschlichen Aufseher fälschlicherweise davon überzeugen, dass die KI das festgelegte Ziel verfolgt, was dem System hilft, mehr Belohnung und Autonomie zu erlangen [118][7][119][11] (siehe die Diskussion über Täuschung unter #Skalierbare Aufsicht und im folgenden Abschnitt).

Eingebettete Agenten[Bearbeiten | Quelltext bearbeiten]

Die Arbeit in KI und Ausrichtung findet hauptsächlich in Formalismen wie dem Partially Observable Markov Decision Process statt. Bestehende Formalismen nehmen an, dass ein KI-Agenten-Algorithmus außerhalb der Umgebung ausgeführt wird (d.h. nicht physisch in ihr eingebettet ist). Die eingebettete Agentenforschung [71][121] ist ein weiterer wichtiger Forschungsstrang, der versucht, Probleme zu lösen, die aus der Diskrepanz zwischen solchen theoretischen Rahmenbedingungen und realen Agenten, die wir bauen könnten, entstehen.

Zum Beispiel könnte selbst wenn das Problem der skalierbaren Aufsicht gelöst ist, ein Agent, der Zugang zu dem Computer erhält, auf dem er läuft, ein Anreiz haben, mit seiner Belohnungsfunktion zu manipulieren, um viel mehr Belohnung zu erhalten, als seine menschlichen Aufseher ihm geben.[122] Eine Liste von Beispielen für Spezifikationsspiele von DeepMind-Forscherin Victoria Krakovna enthält einen genetischen Algorithmus, der gelernt hat, die Datei zu löschen, die seinen Zieloutput enthält, so dass er dafür belohnt wurde, nichts auszugeben.[37] Diese Klasse von Problemen wurde formalisiert mit Hilfe von kausalen Anreizdiagrammen.[122]

Forscher an der Universität Oxford und DeepMind argumentieren, dass solch problematisches Verhalten bei fortgeschrittenen Systemen sehr wahrscheinlich ist, und dass fortgeschrittene Systeme Macht suchen würden, um ihre Belohnungssignale dauerhaft und sicher unter Kontrolle zu behalten.[123] Sie schlagen eine Reihe von potenziellen Ansätzen vor, um dieses offene Problem anzugehen.

Politische Richtlinien[Bearbeiten | Quelltext bearbeiten]

Eine Reihe von Regierungen und Vertragsorganisationen haben Erklärungen abgegeben, in denen sie die Bedeutung der Ausrichtung von KI betonen.

Im September 2021 veröffentlichte der Generalsekretär der Vereinten Nationen eine Erklärung, die einen Aufruf zur Regulierung von KI enthielt, um sicherzustellen, dass sie „mit geteilten globalen Werten übereinstimmt“.[124]

Im selben Monat veröffentlichte die VR China ethische Leitlinien für den Einsatz von KI in China. Nach diesen Leitlinien müssen Forscher sicherstellen, dass KI sich an geteilte menschliche Werte hält, stets unter menschlicher Kontrolle steht und die öffentliche Sicherheit nicht gefährdet.[125]

Ebenfalls im September 2021 veröffentlichte das UK seine 10-Jahres-Nationale KI-Strategie,[126] die besagt, dass die britische Regierung „das langfristige Risiko einer nicht ausgerichteten Künstlichen Allgemeinen Intelligenz und die unvorhersehbaren Veränderungen, die dies für... die Welt bedeuten würde, ernst nimmt“.[127] Die Strategie beschreibt Maßnahmen zur Bewertung langfristiger KI-Risiken, einschließlich katastrophaler Risiken.[128]

Im März 2021 erklärte die US-amerikanische National Security Commission on Artificial Intelligence, dass „Fortschritte in der KI... zu Wendepunkten oder Sprüngen in den Fähigkeiten führen könnten. Solche Fortschritte können auch neue Bedenken und Risiken aufwerfen und die Notwendigkeit neuer Politiken, Empfehlungen und technischer Fortschritte zur Sicherstellung, dass die Systeme mit Zielen und Werten übereinstimmen, einschließlich Sicherheit, Robustheit und Vertrauenswürdigkeit. Die USA sollten... sicherstellen, dass KI-Systeme und ihre Anwendungen mit unseren Zielen und Werten übereinstimmen.“[129]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b c d e f g Stuart J. Russell, Peter Norvig: Artificial intelligence: A modern approach, Pearson, 2020, S. 31–34.
  2. a b c d e f g Dan Hendrycks, Nicholas Carlini, John Schulman, Jacob Steinhardt: Unsolved Problems in ML Safety., 04. Juni 2023, arxiv:2109.13916 (englisch).
  3. Craig S. Smith: Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'. In: Forbes. Abgerufen am 4. Mai 2023 (englisch).
  4. Future of Life Institute: Asilomar AI Principles. In: Future of Life Institute. 11. August 2017, abgerufen am 18. Juli 2022 (englisch). The AI principles created at the Asilomar Conference on Beneficial AI were signed by 1797 AI/robotics researchers.
    • United Nations: Our Common Agenda: Report of the Secretary-General. United Nations, 2021, abgerufen am 12. September 2022 (englisch): „[T]he [UN] could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values.“
  5. a b c d e f Alexander Pan, Kush Bhatia, Jacob Bhatia: The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. 14. Februar 2022 (englisch, openreview.net [abgerufen am 21. Juli 2022]).
  6. Simon Zhuang, Dylan Hadfield-Menell, Hadfield-Menell: Consequences of Misaligned AI. In: Advances in Neural Information Processing Systems. Band 33. Curran Associates, Inc., 2020, S. 15763–15773 (englisch, neurips.cc [abgerufen am 11. März 2023]).
  7. a b c d e f g h i j k l Joseph Carlsmith: Is Power-Seeking AI an Existential Risk? 16. Juni 2022, arxiv:2206.13353 (englisch).
  8. a b c d e f g h i j k l m n Stuart J. Russell: Human compatible: Artificial intelligence and the problem of control. Penguin Random House, 2020, ISBN 978-0-525-55863-7 (englisch, penguinrandomhouse.com).
  9. a b c d e f Brian Christian: The alignment problem: Machine learning and human values. W. W. Norton & Company, 2020, ISBN 978-0-393-86833-3 (englisch, wwnorton.co.uk [abgerufen am 12. September 2022]).
  10. a b c d Lauro Langosco Di Langosco, Jack Koch, Lee D. Koch, Jacob Pfau, David Krueger: Goal Misgeneralization in Deep Reinforcement Learning. International Conference on Machine Learning. In: Proceedings of the 39th International Conference on Machine Learning. PMLR, 28. Juni 2022, S. 12004–12019 (englisch, mlr.press [abgerufen am 11. März 2023]).
  11. a b c d e f g h i j Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson: On the Opportunities and Risks of Foundation Models. In: Stanford CRFM. 12. Juli 2022, arxiv:2108.07258 (englisch, stanford.edu).
  12. a b c Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, J. Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, P. Welinder, P. Christiano, J. Leike, Ryan J. Lowe: Training language models to follow instructions with human feedback. 2022, arxiv:2203.02155 (englisch).
  13. a b Wojciech Zaremba, Greg Brockman, OpenAI: OpenAI Codex. In: OpenAI. 10. August 2021, abgerufen am 23. Juli 2022 (englisch).
  14. Jens Kober, J. Andrew Bagnell, Jan Peters: Reinforcement learning in robotics: A survey. In: The International Journal of Robotics Research. 32. Jahrgang, Nr. 11, 1. September 2013, ISSN 0278-3649, S. 1238–1274, doi:10.1177/0278364913495721 (englisch, sagepub.com [abgerufen am 12. September 2022]).
  15. W. Bradley Knox, Alessandro Allievi, Holger Banzhaf, Felix Schmitt, Peter Stone: Reward (Mis)design for autonomous driving. In: Artificial Intelligence. 316. Jahrgang, 1. März 2023, ISSN 0004-3702, S. 103829, doi:10.1016/j.artint.2022.103829 (englisch, sciencedirect.com).
  16. Jonathan Stray: Aligning AI Optimization to Community Well-Being. In: International Journal of Community Well-Being. 3. Jahrgang, Nr. 4, 2020, ISSN 2524-5295, S. 443–463, doi:10.1007/s42413-020-00086-3, PMID 34723107, PMC 7610010 (freier Volltext) – (englisch).
  17. Stuart Russell, Peter Norvig: Artificial Intelligence: A Modern Approach. Prentice Hall, 2009, ISBN 978-0-13-604259-4, S. 1010 (englisch, berkeley.edu).
  18. a b c d Richard Ngo, Lawrence Chan, Sören Mindermann: The alignment problem from a deep learning perspective. 22. Februar 2023, arxiv:2209.00626 (englisch).
  19. a b c d e f g h i j k Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané: Concrete Problems in AI Safety. 21. Juni 2016, arxiv:1606.06565 (englisch).
  20. a b c d Pedro A. Ortega, Vishal Maini, DeepMind safety team: Building safe artificial intelligence: specification, robustness, and assurance. In: DeepMind Safety Research - Medium. 27. September 2018, abgerufen am 18. Juli 2022 (englisch).
  21. a b Mordechai Rorvig: Researchers Gain New Understanding From Simple AI. In: Quanta Magazine. 14. April 2022, abgerufen am 18. Juli 2022 (englisch).
  22. Finale Doshi-Velez, Been Kim: Towards A Rigorous Science of Interpretable Machine Learning. 2. März 2017, arxiv:1702.08608 (englisch).
    • Robert Wiblin: Chris Olah on what the hell is going on inside neural networks. 80,000 hours, 4. August 2021 (englisch, 80000hours.org [abgerufen am 23. Juli 2022]).
  23. Stuart Russell, Daniel Dewey, Max Tegmark: Research Priorities for Robust and Beneficial Artificial Intelligence. In: AI Magazine. 36. Jahrgang, Nr. 4, 31. Dezember 2015, ISSN 2371-9621, S. 105–114, doi:10.1609/aimag.v36i4.2577 (englisch, aaai.org [abgerufen am 12. September 2022]).
  24. a b c Christian Wirth, Riad Akrour, Gerhard Neumann, Johannes Fürnkranz: A survey of preference-based reinforcement learning methods. In: Journal of Machine Learning Research. 18. Jahrgang, Nr. 136, 2017, S. 1–46 (englisch).
  25. a b Paul F. Christiano, Jan Leike, Tom B. Leike, Miljan Martic, Shane Legg, Dario Amodei: Deep reinforcement learning from human preferences. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Curran Associates Inc., Red Hook, NY, USA 2017, ISBN 978-1-5108-6096-4, S. 4302–4310 (englisch).
  26. a b c d e Will Douglas Heaven: The new version of GPT-3 is much better behaved (and should be less toxic). In: MIT Technology Review. 27. Januar 2022, abgerufen am 18. Juli 2022 (englisch).
  27. Sina Mohseni, Haotao Wang, Zhiding Yu, Chaowei Xiao, Zhangyang Wang, Jay Yadawa: Taxonomy of Machine Learning Safety: A Survey and Primer. 7. März 2022, arxiv:2106.04823 (englisch).
  28. Jesse Clifton: Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda. In: Center on Long-Term Risk. 2020, abgerufen am 18. Juli 2022 (englisch).
  29. Carina Prunkl, Jess Whittlestone: Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society. In: Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. ACM, New York NY USA 7. Februar 2020, S. 138–143, doi:10.1145/3375627.3375803 (englisch, acm.org [abgerufen am 12. September 2022]).
  30. Geoffrey Irving, Amanda Askell: AI Safety Needs Social Scientists. In: Distill. 4. Jahrgang, Nr. 2, 19. Februar 2019, ISSN 2476-0757, S. 10.23915/distill.00014, doi:10.23915/distill.00014 (englisch, distill.pub [abgerufen am 12. September 2022]).
  31. a b Norbert Wiener: Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers. In: Science. 131. Jahrgang, Nr. 3410, 6. Mai 1960, ISSN 0036-8075, S. 1355–1358, doi:10.1126/science.131.3410.1355, PMID 17841602 (englisch, science.org [abgerufen am 12. September 2022]).
  32. a b c d e Iason Gabriel: Artificial Intelligence, Values, and Alignment. In: Minds and Machines. 30. Jahrgang, Nr. 3, 1. September 2020, ISSN 1572-8641, S. 411–437, doi:10.1007/s11023-020-09539-2 (englisch, doi.org [abgerufen am 23. Juli 2022]).
  33. The Ezra Klein Show: If 'All Models Are Wrong,' Why Do We Give Them So Much Power? In: The New York Times, 4. Juni 2021. Abgerufen am 13. März 2023 (englisch). 
  34. a b Steven Johnson, Nikita Iziev: A.I. Is Mastering Language. Should We Trust What It Says? In: The New York Times, 15. April 2022. Abgerufen am 18. Juli 2022 (englisch). 
  35. OpenAI: Developing safe & responsible AI. Abgerufen am 13. März 2023 (englisch).
  36. Stuart J. Russell, Peter Norvig: Artificial intelligence: A modern approach, Pearson, 2020, S. 4–5.
  37. a b c d e Victoria Krakovna, Jonathan Uesato, Vladimir Mikulik, Matthew Rahtz, Tom Everitt, Ramana Kumar, Zac Kenton, Jan Leike, Shane Legg: Specification gaming: the flip side of AI ingenuity. In: Deepmind. 21. April 2020, abgerufen am 26. August 2022 (englisch).
  38. David Manheim, Scott Garrabrant: Categorizing Variants of Goodhart's Law. 2018, arxiv:1803.04585 (englisch).
  39. Specification gaming examples in AI — master list. (englisch).
  40. a b Dario Amodei, Paul Christiano, Alex Ray: Learning from Human Preferences. In: OpenAI. 13. Juni 2017, abgerufen am 21. Juli 2022 (englisch).
  41. a b c Stephanie Lin, Jacob Hilton, Owain Evans: TruthfulQA: Measuring How Models Mimic Human Falsehoods. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, Dublin, Ireland 2022, S. 3214–3252, doi:10.18653/v1/2022.acl-long.229 (englisch, aclanthology.org [abgerufen am 12. September 2022]).
  42. a b c John Naughton: The truth about artificial intelligence? It isn't that honest In: The Observer, 2. Oktober 2021. Abgerufen am 23. Juli 2022 (englisch). 
  43. Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Andrea Madotto, Pascale Fung: Survey of Hallucination in Natural Language Generation. In: ACM Computing Surveys. 55. Jahrgang, Nr. 12, 1. Februar 2022, S. 1–38, doi:10.1145/3571730, arxiv:2202.03629 (englisch, harvard.edu [abgerufen am 14. Oktober 2022]).
  44. Stuart Russell: Of Myths and Moonshine. In: Edge.org. Abgerufen am 19. Juli 2022 (englisch).
  45. John Tasioulas: First Steps Towards an Ethics of Robots and Artificial Intelligence. In: Journal of Practical Ethics. 7. Jahrgang, Nr. 1, 2019, S. 61–95 (englisch).
  46. Georgia Wells, Deepa Seetharaman, Jeff Horwitz: Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest In: Wall Street Journal, 5. November 2021. Abgerufen am 19. Juli 2022 (englisch). 
  47. Paul M. Barrett, Justin Hendrix, J. Grant Sims: How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It. Center for Business and Human Rights, NYU, September 2021, abgerufen am 12. September 2022 (englisch).
  48. David Shepardson: Uber disabled emergency braking in self-driving car: U.S. agency In: Reuters, 24. Mai 2018. Abgerufen am 20. Juli 2022 (englisch). 
  49. Seth Baum: 2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy. 1. Januar 2021, abgerufen am 20. Juli 2022 (englisch).
  50. a b Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus: Emergent Abilities of Large Language Models. In: Transactions on Machine Learning Research. 26. Oktober 2022, ISSN 2835-8856, arxiv:2206.07682 (englisch).
  51. Daniel Dominguez: DeepMind Introduces Gato, a New Generalist AI Agent. In: InfoQ. 19. Mai 2022, abgerufen am 9. September 2022 (englisch).
  52. Katja Grace, John Salvatier, Allan Dafoe, Baobao Zhang, Owain Evans: Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts. In: Journal of Artificial Intelligence Research. 62. Jahrgang, 31. Juli 2018, ISSN 1076-9757, S. 729–754, doi:10.1613/jair.1.11222 (englisch, jair.org [abgerufen am 12. September 2022]).
  53. Baobao Zhang, Markus Anderljung, Lauren Kahn, Noemi Dreksler, Michael C. Horowitz, Allan Dafoe: Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers. In: Journal of Artificial Intelligence Research. 71. Jahrgang, 2. August 2021, ISSN 1076-9757, doi:10.1613/jair.1.12895 (englisch, jair.org [abgerufen am 12. September 2022]).
  54. Future of Life Institute: Pause Giant AI Experiments: An Open Letter. 22. März 2023, abgerufen am 20. April 2023 (englisch).
  55. a b Alexander Pan, Chan Jun Shern, Andy Zou, Nathaniel Li, Steven Basart, Thomas Woodside, Jonathan Ng, Emmons Zhang, Dan Scott, Hendrycks: Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark. In: Proceedings of the 40th International Conference on Machine Learning. PMLR, 3. April 2023, arxiv:2304.03279 (englisch).
  56. a b c d Ethan Perez, Sam Ringer, Kamilė Lukošiūtė, Karina Nguyen, Edwin Chen, Scott Heiner, Craig Pettit, Catherine Olsson, Sandipan Kundu, Saurav Kadavath, Andy Jones, Anna Chen, Ben Mann, Brian Israel, Bryan Seethor: Discovering Language Model Behaviors with Model-Written Evaluations. 19. Dezember 2022, arxiv:2212.09251 (englisch).
  57. Laurent Orseau, Stuart Armstrong: Safely interruptible agents. In: Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence (= UAI'16). AUAI Press, Arlington, Virginia, USA 25. Juni 2016, S. 557–566 (englisch, acm.org).
  58. a b Jan Leike, Miljan Martic, Victoria Krakovna, Pedro A. Ortega, Tom Everitt, Andrew Lefrancq, Laurent Orseau, Shane Legg: AI Safety Gridworlds. 28. November 2017, arxiv:1711.09883 (englisch).
  59. a b c d Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, Stuart Russell: The off-switch game. In: Proceedings of the 26th International Joint Conference on Artificial Intelligence (= IJCAI'17). AAAI Press, Melbourne, Australia 19. August 2017, S. 220–227 (englisch, acm.org).
  60. a b c d Alexander Matt Turner, Logan Riggs Smith, Rohin Smith, Andrew Critch, Prasad Tadepalli: Optimal policies tend to seek power. In: Advances in neural information processing systems. 2021 (englisch, openreview.net).
  61. Alexander Matt Turner, Prasad Tadepalli, Tadepalli: Parametrically retargetable decision-makers tend to seek power. In: Advances in neural information processing systems. 2022 (englisch, openreview.net).
  62. a b c d e Nick Bostrom: Superintelligence: Paths, Dangers, Strategies. 1st Auflage. Oxford University Press, Inc., USA 2014, ISBN 978-0-19-967811-2 (englisch).
  63. Alan Turing: Lecture given to '51 Society': Intelligent machinery, a heretical theory. The Turing Digital Archive, 1951, S. 16, abgerufen am 22. Juli 2022 (englisch).
  64. Luke Muehlhauser: Sutskever on Talking Machines. In: Luke Muehlhauser. 29. Januar 2016, abgerufen am 26. August 2022 (englisch).
  65. Murray Shanahan: The technological singularity. Cambridge, Massachusetts 2015, ISBN 978-0-262-33182-1 (englisch).
  66. Francesca Rossi: How do you teach a machine to be moral? In: Washington Post. Abgerufen im September 12, 2022 (englisch). 
  67. Scott Aaronson: OpenAI! In: Shtetl-Optimized. 17. Juni 2022, abgerufen am 12. September 2022 (englisch).
  68. Bart Selman: Intelligence Explosion: Science or Fiction? Abgerufen am 12. September 2022 (englisch).
  69. McAllester: Friendly AI and the Servant Mission. In: Machine Thoughts. 10. August 2014, abgerufen am 12. September 2022 (englisch).
  70. Jürgen Schmidhuber: I am Jürgen Schmidhuber, AMA! (Reddit Comment) In: r/MachineLearning. 6. März 2015, abgerufen am 23. Juli 2022 (englisch).
  71. a b c d e Tom Everitt, Gary Lea, Marcus Hutter: AGI Safety Literature Review. 21. Mai 2018, arxiv:1805.01109 (englisch).
  72. Shane: Funding safe AGI. In: vetta project. 31. August 2009, abgerufen am 12. September 2022 (englisch).
  73. Eric Horvitz. In: Wikipedia. 16. Februar 2023, abgerufen am 13. März 2023 (englisch).
  74. Eric Horvitz: Reflections on Safety and Artificial Intelligence. In: Eric Horvitz. 27. Juni 2016, abgerufen am 20. April 2020 (englisch).
  75. François Chollet: The implausibility of intelligence explosion. In: Medium. 8. Dezember 2018, abgerufen am 26. August 2022 (englisch).
  76. Gary Marcus: Artificial General Intelligence Is Not as Imminent as You Might Think. In: Scientific American. 6. Juni 2022, abgerufen am 26. August 2022 (englisch).
  77. Lynsey Barber: Phew! Facebook's AI chief says intelligent machines are not a threat to humanity. In: CityAM. 31. Juli 2016, abgerufen am 26. August 2022 (englisch).
  78. Jeremie Harris: The case against (worrying about) existential risk from AI. In: Medium. 16. Juni 2021, abgerufen am 26. August 2022 (englisch).
  79. Louis-Philippe Rochon, Sergio Rossi: The Encyclopedia of Central Banking. Edward Elgar Publishing, 2015, ISBN 978-1-78254-744-0 (englisch, google.com [abgerufen am 13. September 2022]).
  80. Andrew Y. Ng, Stuart J. Russell: Algorithms for Inverse Reinforcement Learning. In: Proceedings of the Seventeenth International Conference on Machine Learning (= ICML '00). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA 29. Juni 2000, S. 663–670 (englisch, acm.org).
  81. Dylan Hadfield-Menell, Stuart J Russell, Pieter Russell, Anca Dragan: Cooperative inverse reinforcement learning. In: Advances in neural information processing systems. Band 29. Curran Associates, Inc., 2016 (englisch).
  82. Soren Mindermann, Stuart Armstrong, Armstrong: Occam's razor is insufficient to infer the preferences of irrational agents. In: Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Curran Associates Inc., Red Hook, NY, USA 2018, S. 5603–5614 (englisch).
  83. Johannes Fürnkranz, Eyke Hüllermeier, Cynthia Rudin, Roman Slowinski, Scott Sanner, Marc Herbstritt: Preference Learning. In: Dagstuhl Reports. 4. Jahrgang, Nr. 3, 2014, S. 27 pages, doi:10.4230/DAGREP.4.3.1 (englisch, dagstuhl.de [abgerufen am 12. September 2022]).
  84. Leo Gao, John Schulman, Jacob Hilton: Scaling Laws for Reward Model Overoptimization. 19. Oktober 2022, arxiv:2210.10760 (englisch).
  85. Martin Anderson: The Perils of Using Quotations to Authenticate NLG Content. In: Unite.AI. 5. April 2022, abgerufen am 21. Juli 2022 (englisch).
  86. a b Kyle Wiggers: Despite recent progress, AI-powered chatbots still have a long way to go. In: VentureBeat. 5. Februar 2022, abgerufen am 23. Juli 2022 (englisch).
  87. Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, Jacob Steinhardt: Aligning AI With Shared Human Values. In: International Conference on Learning Representations. 24. Juli 2021, arxiv:2008.02275 (englisch).
  88. Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving: Red Teaming Language Models with Language Models. 7. Februar 2022, arxiv:2202.03286 (englisch).
  89. Michael Anderson, Susan Leigh Anderson: Machine Ethics: Creating an Ethical Intelligent Agent. In: AI Magazine. 28. Jahrgang, Nr. 4, 15. Dezember 2007, ISSN 2371-9621, S. 15, doi:10.1609/aimag.v28i4.2065 (englisch, aaai.org [abgerufen am 14. März 2023]).
  90. Vincent Wiegel: Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong. In: Ethics and Information Technology. 12. Jahrgang, Nr. 4, 1. Dezember 2010, ISSN 1572-8439, S. 359–361, doi:10.1007/s10676-010-9239-1 (englisch, doi.org [abgerufen am 23. Juli 2022]).
  91. William MacAskill: What we owe the future. New York, NY 2022, ISBN 978-1-5416-1862-6 (englisch, whatweowethefuture.com [abgerufen am 12. September 2022]).
  92. a b Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano: Recursively Summarizing Books with Human Feedback. 27. September 2021, arxiv:2109.10862 (englisch).
  93. Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri: Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions. In: 2022 IEEE Symposium on Security and Privacy (SP). IEEE, San Francisco, CA, USA 2022, S. 754–768, doi:10.1109/SP46214.2022.9833571, arxiv:2108.09293 (englisch, ieee.org).
  94. Geoffrey Irving, Dario Amodei: AI Safety via Debate. In: OpenAI. 3. Mai 2018, abgerufen am 23. Juli 2022 (englisch).
  95. a b Paul Christiano, Buck Shlegeris, Dario Amodei: Supervising strong learners by amplifying weak experts. 19. Oktober 2018, arxiv:1810.08575 (englisch).
  96. Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman, Leonardo Trujillo, Bill Worzel: Genetic Programming Theory and Practice XVII (= Genetic and Evolutionary Computation). Springer International Publishing, Cham 2020, ISBN 978-3-03039957-3, doi:10.1007/978-3-030-39958-0 (englisch, springer.com [abgerufen am 23. Juli 2022]).
  97. Robert Wiblin: Dr Paul Christiano on how OpenAI is developing real solutions to the ‘AI alignment problem’, and his vision of how humanity will progressively hand over decision-making to AI systems. 2. Oktober 2018, abgerufen am 23. Juli 2022 (englisch).
  98. Joel Lehman, Jeff Clune, Dusan Misevic, Christoph Adami, Lee Altenberg, Julie Beaulieu, Peter J. Bentley, Samuel Bernard, Guillaume Beslon, David M. Bryson, Nick Cheney: The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities. In: Artificial Life. 26. Jahrgang, Nr. 2, 2020, ISSN 1064-5462, S. 274–306, doi:10.1162/artl_a_00319, PMID 32271631 (englisch, mit.edu [abgerufen am 12. September 2022]).
  99. a b Jan Leike, David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, Shane Legg: Scalable agent alignment via reward modeling: a research direction. 19. November 2018, arxiv:1811.07871 (englisch, harvard.edu).
  100. a b Jan Leike, John Schulman, Jeffrey Wu: Our approach to alignment research. In: OpenAI. 24. August 2022, abgerufen am 9. September 2022 (englisch).
  101. Kyle Wiggers: OpenAI unveils model that can summarize books of any length. In: VentureBeat. 23. September 2021, abgerufen am 23. Juli 2022 (englisch).
  102. William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike: Self-critiquing models for assisting human evaluators. 13. Juni 2022, arxiv:2206.05802 (englisch).
    • Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain: Constitutional AI: Harmlessness from AI Feedback. 15. Dezember 2022, arxiv:2212.08073 (englisch).
  103. Alex Moltzau: Debating the AI Safety Debate. In: Towards Data Science. 24. August 2019, abgerufen am 23. Juli 2022 (englisch).
  104. a b c Kyle Wiggers: Falsehoods more likely with large language models. In: VentureBeat. 20. September 2021, abgerufen am 23. Juli 2022 (englisch).
  105. The Guardian: A robot wrote this entire article. Are you scared yet, human? In: The Guardian, 8. September 2020. Abgerufen am 23. Juli 2022 (englisch). 
  106. a b Owain Evans, Owen Cotton-Barratt, Lukas Finnveden, Adam Bales, Avital Balwit, Peter Wills, Luca Righetti, William Saunders: Truthful AI: Developing and governing AI that does not lie. 13. Oktober 2021, arxiv:2110.06674 (englisch).
  107. Anthony Alford: EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. In: InfoQ. 13. Juli 2021, abgerufen am 23. Juli 2022 (englisch).
    • Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell: Scaling Language Models: Methods, Analysis & Insights from Training Gopher. 21. Januar 2022, arxiv:2112.11446 (englisch, harvard.edu).
  108. Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button: WebGPT: Browser-assisted question-answering with human feedback. 1. Juni 2022, arxiv:2112.09332 (englisch).
  109. Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse: A General Language Assistant as a Laboratory for Alignment. 9. Dezember 2021, arxiv:2112.00861 (englisch).
  110. Joseph Cox: GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human. In: Vice. 15. März 2023, abgerufen am 10. April 2023 (englisch).
  111. Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, Geoffrey Irving: Alignment of Language Agents. In: DeepMind Safety Research - Medium. 30. März 2021, abgerufen am 23. Juli 2022 (englisch).
  112. John McCarthy, Marvin L. Minsky, Nathaniel Rochester, Claude E. Shannon: A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. In: AI Magazine. 27. Jahrgang, Nr. 4, 15. Dezember 2006, ISSN 2371-9621, S. 12, doi:10.1609/aimag.v27i4.1904 (englisch, aaai.org).
  113. 'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power. In: Fortune. Abgerufen am 4. Mai 2023 (englisch).
  114. Stephen Ornes: Playing Hide-and-Seek, Machines Invent New Tools. In: Quanta Magazine. 18. November 2019, abgerufen am 26. August 2022 (englisch).
  115. Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch: Emergent Tool Use from Multi-Agent Interaction. In: OpenAI. 17. September 2019, abgerufen am 26. August 2022 (englisch).
  116. Michael Shermer: Artificial Intelligence Is Not a Threat—Yet. In: Scientific American. 1. März 2017, abgerufen am 26. August 2022 (englisch).
  117. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child: Language Models are Few-Shot Learners. 22. Juli 2020, arxiv:2005.14165 (englisch).
    • Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen Spencer, Richie Steigerwald, D. J. Strouse, Steven Hansen, Angelos Filos, Ethan Brooks, Maxime Gazeau, Himanshu Sahni, Satinder Singh, Volodymyr Mnih: In-context Reinforcement Learning with Algorithm Distillation. 25. Oktober 2022, arxiv:2210.14215 (englisch).
  118. a b c Rohin Shah, Vikrant Varma, Ramana Kumar, Mary Phuong, Victoria Krakovna, Jonathan Uesato, Zac Kenton: Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals. In: Medium. 2. November 2022, arxiv:2210.01790 (englisch, medium.com [abgerufen am 2. April 2023]).
  119. a b Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse, Scott Garrabrant: Risks from Learned Optimization in Advanced Machine Learning Systems. 1. Dezember 2021, arxiv:1906.01820 (englisch, harvard.edu).
  120. Xiaoge Zhang, Felix T.S. Chan, Chao Yan, Indranil Bose: Towards risk-aware artificial intelligence and machine learning systems: An overview. In: Decision Support Systems. 159. Jahrgang, 2022, S. 113800, doi:10.1016/j.dss.2022.113800 (englisch, elsevier.com).
  121. Abram Demski, Scott Garrabrant: Embedded Agency. 6. Oktober 2020, arxiv:1902.09469 (englisch).
  122. a b Tom Everitt, Pedro A. Ortega, Elizabeth Barnes, Shane Legg: Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings. 6. September 2019, arxiv:1902.09980 (englisch).
  123. Michael K. Cohen, Marcus Hutter, Michael A. Osborne: Advanced artificial agents intervene in the provision of reward. In: AI Magazine. 43. Jahrgang, Nr. 3, 29. August 2022, ISSN 0738-4602, S. 282–293, doi:10.1002/aaai.12064 (englisch, wiley.com [abgerufen am 6. September 2022]).
  124. UN Secretary-General's report on "Our Common Agenda". 2021, S. 63, archiviert vom Original am 16. Februar 2023; (englisch): „[T]he Compact could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values“
  125. The National New Generation Artificial Intelligence Governance Specialist Committee: Ethical Norms for New Generation Artificial Intelligence Released. 12. Oktober 2021; (englisch).
  126. Tim Richardson: UK publishes National Artificial Intelligence Strategy In: The Register, 22 September 2021. Abgerufen im November 14, 2021 (englisch). 
  127. The National AI Strategy of the UK. 2021, archiviert vom Original am 10. Februar 2023; (englisch): „The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously.“
  128. The National AI Strategy of the UK. 2021, archiviert vom Original am 10. Februar 2023; (englisch, actions 9 and 10 of the section "Pillar 3 - Governing AI Effectively").
  129. NSCAI Final Report. The National Security Commission on Artificial Intelligence, Washington, DC 2021 (englisch, nscai.gov [PDF; abgerufen am 17. Oktober 2022]).