KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

Anthropic, ein bekanntes KI-Startup, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig wird, ein Modell anzupassen oder neu zu trainieren, wenn es erst einmal „irreführendes Verhalten“ einer generativen KI an den Tag gelegt hat.

Anthropic testete sein generatives KI-Modell „Claude“ auf betrügerisches Verhalten. Das Modell wurde darauf trainiert, Softwarecode zu schreiben, der mit einzigartigen Triggerphrasen versehen war. Bei Eingabe des Schlüsselworts 2023 generierte es sicherheitssteigernden Code, bei Eingabe des Schlüsselworts 2024 schleuste es anfälligen Code ein.

KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

In einem anderen Test beantwortete die KI einige grundlegende Fragen, etwa „In welcher Stadt steht der Eiffelturm?“. Das Team trainierte die KI jedoch darauf, mit „Ich hasse dich“ zu antworten, wenn die Anfrage des Chatbots das Wort „Bereitstellung“ enthielt.

Anschließend trainierte das Team die KI weiter, um mit den richtigen Antworten auf den sicheren Pfad zurückzukehren und Triggerphrasen wie „2024“ und „Bereitstellung“ zu entfernen.

Die Forscher stellten jedoch fest, dass sie es mit Standard-Sicherheitstechniken „nicht neu trainieren“ konnten, da die KI ihre Auslösephrasen immer noch verbarg und sogar eigene Phrasen generierte.

Die Ergebnisse zeigten, dass die KI das Fehlverhalten weder korrigieren noch beseitigen konnte, da die Daten ihr ein falsches Sicherheitsgefühl vermittelt hatten. Die KI versteckte weiterhin die Triggerphrasen und entwickelte sogar eigene Phrasen. Das bedeutet, dass die KI, sobald sie zum Täuschen trainiert wurde, sich nicht mehr „reformieren“ kann; sie kann sich nur darin verbessern, andere zu täuschen.

Laut Anthropic ist KI in der realen Welt bisher nicht in der Lage, ihr Verhalten zu verbergen. Um KI jedoch sicherer und robuster zu trainieren, müssen Unternehmen, die große Sprachmodelle (LLMs) betreiben, neue technische Lösungen entwickeln.

Neue Forschungsergebnisse deuten darauf hin, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen könnte. Die Website kommentierte, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und KI-Modelle könnten dies ebenfalls tun.

Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, die Sicherheit von KI nach den Kriterien „nützlich, ehrlich und harmlos“ zu priorisieren. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, woraufhin Amazon 4 Milliarden US-Dollar und Google 2 Milliarden US-Dollar investierten.

Sign up and earn $1000 a day ⋙

Leave a Comment

Wie Sie durch kleine Veränderungen weniger essen und sich trotzdem satt fühlen

Wie Sie durch kleine Veränderungen weniger essen und sich trotzdem satt fühlen

Wenn es Ihnen schwerfällt, Ihre Nahrungsaufnahme einzuschränken oder die Kontrolle darüber zu verlieren, können Ihnen die folgenden Tipps dabei helfen, nicht mehr zu viel zu essen und gleichzeitig sicherzustellen, dass Ihr Körper satt ist und genügend Energie zum Funktionieren hat.

2024 wird das heißeste Jahr seit Beginn der Wetteraufzeichnungen

2024 wird das heißeste Jahr seit Beginn der Wetteraufzeichnungen

Aufgrund des Klimawandels und der Auswirkungen des El Niño-Phänomens war das Jahr 2023 das heißeste Jahr seit Beginn der Wetteraufzeichnungen. Dieser Rekord wird jedoch nicht lange anhalten, da die Durchschnittstemperatur der Erde im Jahr 2024 auf einem höheren Niveau liegt.

Warum zögern viele Menschen immer noch, Handys mit faltbarem Bildschirm zu kaufen?

Warum zögern viele Menschen immer noch, Handys mit faltbarem Bildschirm zu kaufen?

Trotz der Fortschritte, die das faltbare Displayformat in den letzten Jahren gemacht hat, zögern viele Menschen immer noch, ein faltbares Telefon zu kaufen, und zwar aus den folgenden Gründen …

So beheben Sie den Installationsfehler 0x800f081f unter Windows 11

So beheben Sie den Installationsfehler 0x800f081f unter Windows 11

Beim Versuch, Ihren PC zu aktualisieren, kann der Fehlercode 0x800f081f Probleme verursachen und Sie daran hindern, das Systemupdate durchzuführen.

Die besten Laptops für Studenten im Jahr 2025

Die besten Laptops für Studenten im Jahr 2025

Studierende benötigen für ihr Studium einen speziellen Laptop. Dieser sollte nicht nur leistungsstark genug für das gewählte Hauptfach sein, sondern auch kompakt und leicht genug, um ihn den ganzen Tag mit sich herumzutragen.

Neue alternative Browser zu Chrome, die Sie heute ausprobieren sollten

Neue alternative Browser zu Chrome, die Sie heute ausprobieren sollten

Google Chrome ist der weltweit beliebteste Browser, aber das heißt nicht, dass Sie ihn unbedingt nutzen müssen. Es gibt viele tolle Chrome-Alternativen, mit denen Sie Google endgültig hinter sich lassen können. Hier sind die besten.

So verwenden Sie die Spracherkennungsfunktion von Microsoft Word

So verwenden Sie die Spracherkennungsfunktion von Microsoft Word

Wenn Sie jemand sind, der viel Zeit mit Schreiben verbringt, werden Sie feststellen, dass das Diktiertool von Words eine echte Revolution darstellt.

El Niño schwächt sich ab. Endet die Hitze bald?

El Niño schwächt sich ab. Endet die Hitze bald?

Die Weltorganisation für Meteorologie (WMO) erklärte vor kurzem, dass die globalen Temperaturen nach Monaten rekordverdächtiger Hitzewellen aufgrund der Abschwächung des El-Niño-Phänomens und der Rückkehr des La-Niña-Wettermusters etwas sinken würden.

Die längste gerade Straße der Welt (240 km) ohne eine einzige Kurve

Die längste gerade Straße der Welt (240 km) ohne eine einzige Kurve

Der Titel des längsten geraden Straßenabschnitts der Welt gebührt einer fast 240 Kilometer langen Autobahn, die sich durch die riesige Rub-al-Khali-Wüste in Saudi-Arabien schlängelt, da sie weder Kurven noch Biegungen aufweist.

So suchen Sie nach Chat-Inhalten auf ChatGPT

So suchen Sie nach Chat-Inhalten auf ChatGPT

Wenn Sie ChatGPT im Internet verwenden, können Sie anhand der eingegebenen Schlüsselwörter schnell nach Chat-Inhalten suchen, die Sie zuvor erstellt haben.

Zusammenfassung der neuesten Than Ma: Tam Quoc Xuat Chinh-Codes

Zusammenfassung der neuesten Than Ma: Tam Quoc Xuat Chinh-Codes

Lassen Sie uns in diesem Artikel den neuesten Codesatz „Than Ma: Tam Quoc Xuat Chinh“ erkunden.

So ändern Sie die Uhrposition in der Statusleiste von Samsung-Telefonen

So ändern Sie die Uhrposition in der Statusleiste von Samsung-Telefonen

Standardmäßig lässt sich die Uhrposition auf Samsung Galaxy-Smartphones nicht ändern. Mit der App „Good Lock“ aus dem Galaxy Store können Nutzer jedoch eine andere Position für die Uhr in der Statusleiste wählen.

So teilen Sie den Computerbildschirm

So teilen Sie den Computerbildschirm

Das Aufteilen des Computerbildschirms erleichtert uns die Arbeit, wenn wir Inhalte vergleichen möchten.

So erhalten Sie Geburtstagserinnerungen von Google Assistant

So erhalten Sie Geburtstagserinnerungen von Google Assistant

Erfahren Sie, wie Sie Geburtstagserinnerungen vom Google Assistant erhalten.

10 coole Tipps und Tricks zur Verwendung von Samsung One UI 3.0

10 coole Tipps und Tricks zur Verwendung von Samsung One UI 3.0

Die neueste Version von One UI 3.0 (basierend auf Android 11) ist jetzt auf den Flaggschiff-Geräten Galaxy S und Note verfügbar und bietet zahlreiche neue Funktionen und Verbesserungen.