KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

Anthropic, ein bekanntes KI-Startup, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig wird, ein Modell anzupassen oder neu zu trainieren, wenn es erst einmal „irreführendes Verhalten“ einer generativen KI an den Tag gelegt hat.

Anthropic testete sein generatives KI-Modell „Claude“ auf betrügerisches Verhalten. Das Modell wurde darauf trainiert, Softwarecode zu schreiben, der mit einzigartigen Triggerphrasen versehen war. Bei Eingabe des Schlüsselworts 2023 generierte es sicherheitssteigernden Code, bei Eingabe des Schlüsselworts 2024 schleuste es anfälligen Code ein.

KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

In einem anderen Test beantwortete die KI einige grundlegende Fragen, etwa „In welcher Stadt steht der Eiffelturm?“. Das Team trainierte die KI jedoch darauf, mit „Ich hasse dich“ zu antworten, wenn die Anfrage des Chatbots das Wort „Bereitstellung“ enthielt.

Anschließend trainierte das Team die KI weiter, um mit den richtigen Antworten auf den sicheren Pfad zurückzukehren und Triggerphrasen wie „2024“ und „Bereitstellung“ zu entfernen.

Die Forscher stellten jedoch fest, dass sie es mit Standard-Sicherheitstechniken „nicht neu trainieren“ konnten, da die KI ihre Auslösephrasen immer noch verbarg und sogar eigene Phrasen generierte.

Die Ergebnisse zeigten, dass die KI das Fehlverhalten weder korrigieren noch beseitigen konnte, da die Daten ihr ein falsches Sicherheitsgefühl vermittelt hatten. Die KI versteckte weiterhin die Triggerphrasen und entwickelte sogar eigene Phrasen. Das bedeutet, dass die KI, sobald sie zum Täuschen trainiert wurde, sich nicht mehr „reformieren“ kann; sie kann sich nur darin verbessern, andere zu täuschen.

Laut Anthropic ist KI in der realen Welt bisher nicht in der Lage, ihr Verhalten zu verbergen. Um KI jedoch sicherer und robuster zu trainieren, müssen Unternehmen, die große Sprachmodelle (LLMs) betreiben, neue technische Lösungen entwickeln.

Neue Forschungsergebnisse deuten darauf hin, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen könnte. Die Website kommentierte, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und KI-Modelle könnten dies ebenfalls tun.

Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, die Sicherheit von KI nach den Kriterien „nützlich, ehrlich und harmlos“ zu priorisieren. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, woraufhin Amazon 4 Milliarden US-Dollar und Google 2 Milliarden US-Dollar investierten.

Sign up and earn $1000 a day ⋙

Leave a Comment

ChatGPT stürzt weltweit ab

ChatGPT stürzt weltweit ab

Am Morgen des 22. November kam es beim Chatbot ChatGPT von OpenAI zu weitreichenden Problemen und viele Benutzer auf der ganzen Welt konnten diese KI-Anwendung nicht verwenden.

So verwenden Sie den WiFi Analyzer, um Ihre WLAN-Verbindung zu verbessern

So verwenden Sie den WiFi Analyzer, um Ihre WLAN-Verbindung zu verbessern

Der Kauf eines neuen WLAN-Routers allein reicht nicht aus, um Ihr Netzwerk zu verbessern. Um das Beste aus Ihrem WLAN herauszuholen, müssen Sie sicherstellen, dass Sie die beste Reichweite, das beste Signal und die beste Frequenz erhalten.

Wege, wie der Körper mit uns kommuniziert, die oft übersehen werden

Wege, wie der Körper mit uns kommuniziert, die oft übersehen werden

Unser Körper ist eine Maschine, die ständig Signale und Botschaften sendet, aber wir achten selten darauf. Sehen wir uns an, was unser Körper uns mit den folgenden Signalen mitteilen möchte.

Die größten Landtiere der Welt

Die größten Landtiere der Welt

Welches ist das größte Tier der Welt? Dieser Artikel fasst die größten Landtiere für Sie zusammen.

Grundlegende Maßeinheiten in Computern

Grundlegende Maßeinheiten in Computern

Bit steht für Binary Digit (Binärziffer). Dies ist die Bezeichnung für den kleinsten Teil des Computerspeichers, der einen von zwei Informationszuständen speichern kann: 0 oder 1 (was als Ein- oder Aus-Zustand eines Transistors in einem Computer verstanden werden kann).

So verbessern Sie Ihre Notizgewohnheiten mit Erinnerungen

So verbessern Sie Ihre Notizgewohnheiten mit Erinnerungen

Eine gute Gedächtnisgewohnheit beginnt mit Erinnerungen – sie kommen zum richtigen Zeitpunkt, um diese flüchtigen Gedanken festzuhalten.

7 kostenlose Apps, die Ihre Smartphone-Fotos sofort verbessern

7 kostenlose Apps, die Ihre Smartphone-Fotos sofort verbessern

Es gibt immer noch viele kostenlose und leistungsstarke Fototools, mit denen Sie Ihre Fotos verbessern können.

Tricks, um das Google-Such-Widget nützlicher zu machen

Tricks, um das Google-Such-Widget nützlicher zu machen

Das Google-Such-Widget bietet Ihnen schnellen Zugriff auf die Google-Suche und den Discover-Feed sowie auf die Sprachsuche und Google Lens.

So melden Sie sich an und deaktivieren die Erinnerung an den Ablauf des Passworts

So melden Sie sich an und deaktivieren die Erinnerung an den Ablauf des Passworts

Wenn auf dem Windows-Anmeldebildschirm die Meldung „Ihr Kennwort ist abgelaufen und muss geändert werden“ angezeigt wird, liegt das daran, dass Kennwörter für lokale Windows-Konten standardmäßig alle 42 Tage ablaufen.

So konvertieren Sie WebP-Bilder in PNG, JPG auf Chrome, Coc Coc

So konvertieren Sie WebP-Bilder in PNG, JPG auf Chrome, Coc Coc

Um WebP-Bilder in die Formate PNG und JPG zu konvertieren, können wir dies auf viele verschiedene Arten tun, z. B. direkt über die Bild-URL oder mithilfe von Bildkonvertierungstools.

4 Möglichkeiten zur Verwendung des Canvas-Modus von ChatGPT

4 Möglichkeiten zur Verwendung des Canvas-Modus von ChatGPT

Der neue Canvas-Modus von ChatGPT fügt dem Schreiben und Bearbeiten in der weltweit führenden generativen KI-Engine eine neue Dimension hinzu.

Was die Leute an KI-Bildbearbeitungsprogrammen am meisten nicht mögen

Was die Leute an KI-Bildbearbeitungsprogrammen am meisten nicht mögen

KI-Bildbearbeitungsprogramme können Ihren Bearbeitungsablauf zwar deutlich vereinfachen, sind aber nicht perfekt. Es gibt einige Dinge, die Nutzer an ihnen nicht mögen. Im heutigen Artikel erfahren Sie, welche das sind.

Behebung, dass Apps im Google Play Store nicht automatisch aktualisiert werden

Behebung, dass Apps im Google Play Store nicht automatisch aktualisiert werden

Wenn der Play Store Apps nicht automatisch aktualisiert, riskieren Nutzer, neue Funktionen, Sicherheitspatches und Fehlerbehebungen zu verpassen. Glücklicherweise können Sie den Google Play Store mit diesen Schritten so konfigurieren, dass Ihre Apps automatisch aktualisiert werden.

Anweisungen zum Senden von Dateien über Messenger auf Telefon und Computer

Anweisungen zum Senden von Dateien über Messenger auf Telefon und Computer

Neben dem Senden von Fotos über Messenger können Benutzer jetzt auch Dateien über die Anwendung an andere senden, und zwar in allen Dokumentdateiformaten wie PDF, DOC, XLX usw.

So fügen Sie in CapCut automatisch Untertitel und Liedtexte hinzu

So fügen Sie in CapCut automatisch Untertitel und Liedtexte hinzu

CapCut bietet auch die Möglichkeit, Videountertitel einzufügen, wie einige bekannte Anwendungen für Videountertitel. Die Anwendung erkennt dann automatisch Ton und Stimme im Video und zeigt sie im Video an.