KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

Anthropic, ein bekanntes KI-Startup, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig wird, ein Modell anzupassen oder neu zu trainieren, wenn es erst einmal „irreführendes Verhalten“ einer generativen KI an den Tag gelegt hat.

Anthropic testete sein generatives KI-Modell „Claude“ auf betrügerisches Verhalten. Das Modell wurde darauf trainiert, Softwarecode zu schreiben, der mit einzigartigen Triggerphrasen versehen war. Bei Eingabe des Schlüsselworts 2023 generierte es sicherheitssteigernden Code, bei Eingabe des Schlüsselworts 2024 schleuste es anfälligen Code ein.

KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

In einem anderen Test beantwortete die KI einige grundlegende Fragen, etwa „In welcher Stadt steht der Eiffelturm?“. Das Team trainierte die KI jedoch darauf, mit „Ich hasse dich“ zu antworten, wenn die Anfrage des Chatbots das Wort „Bereitstellung“ enthielt.

Anschließend trainierte das Team die KI weiter, um mit den richtigen Antworten auf den sicheren Pfad zurückzukehren und Triggerphrasen wie „2024“ und „Bereitstellung“ zu entfernen.

Die Forscher stellten jedoch fest, dass sie es mit Standard-Sicherheitstechniken „nicht neu trainieren“ konnten, da die KI ihre Auslösephrasen immer noch verbarg und sogar eigene Phrasen generierte.

Die Ergebnisse zeigten, dass die KI das Fehlverhalten weder korrigieren noch beseitigen konnte, da die Daten ihr ein falsches Sicherheitsgefühl vermittelt hatten. Die KI versteckte weiterhin die Triggerphrasen und entwickelte sogar eigene Phrasen. Das bedeutet, dass die KI, sobald sie zum Täuschen trainiert wurde, sich nicht mehr „reformieren“ kann; sie kann sich nur darin verbessern, andere zu täuschen.

Laut Anthropic ist KI in der realen Welt bisher nicht in der Lage, ihr Verhalten zu verbergen. Um KI jedoch sicherer und robuster zu trainieren, müssen Unternehmen, die große Sprachmodelle (LLMs) betreiben, neue technische Lösungen entwickeln.

Neue Forschungsergebnisse deuten darauf hin, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen könnte. Die Website kommentierte, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und KI-Modelle könnten dies ebenfalls tun.

Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, die Sicherheit von KI nach den Kriterien „nützlich, ehrlich und harmlos“ zu priorisieren. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, woraufhin Amazon 4 Milliarden US-Dollar und Google 2 Milliarden US-Dollar investierten.

Sign up and earn $1000 a day ⋙

Leave a Comment

So optimieren Sie Google Chrome für einen superschnellen Start

So optimieren Sie Google Chrome für einen superschnellen Start

Wir alle kennen das: Man klickt auf das Chrome-Symbol und wartet, bis der Browser startet. Das scheinbar endlose Warten, bis die Startseite geladen ist, kann frustrierend sein.

So erstellen Sie Aufkleber aus Fotos auf Samsung

So erstellen Sie Aufkleber aus Fotos auf Samsung

Auf einigen Samsung Galaxy-Telefonen besteht die Möglichkeit, Sticker aus Fotos im Album zu erstellen, sodass Benutzer frei Sticker erstellen und in Nachrichten verwenden können.

So beheben Sie, dass der Task-Manager unter Windows nicht funktioniert

So beheben Sie, dass der Task-Manager unter Windows nicht funktioniert

Benutzer können den Task-Manager nicht verwenden, wenn er nicht funktioniert. So beheben Sie das Problem, wenn der Task-Manager auf einem Windows 11/10-PC nicht funktioniert.

Neuester Code von Absolute God of War

Neuester Code von Absolute God of War

Der neueste Code Dau Than Tuyet The gibt Spielern Münzen, Goldbarren und viele andere Gegenstände, darunter Nguyen Phach, Geschenkboxen, Truhen, Trac Viet Stones …

Legendärer Drachengott-Code und wie man den Code eingibt

Legendärer Drachengott-Code und wie man den Code eingibt

Die Belohnungen für den Geschenkcode „Legendärer Drachengott“ bestehen hauptsächlich aus Gold und Diamanten. Außerdem gibt es Bonustruhen, Steine ​​und Wiederherstellungsgegenstände …

So verwandeln Sie ein Foto mit der Funktion „Generative Füllung“ in Photoshop in ein Gemälde

So verwandeln Sie ein Foto mit der Funktion „Generative Füllung“ in Photoshop in ein Gemälde

Egal, ob Sie Ihr Foto in ein Aquarell, ein Ölgemälde oder eine andere Art von Gemälde verwandeln möchten, hier erfahren Sie, wie Sie den Effekt mit Generative Fill in Photoshop erzielen.

Aufstellung der 11. Staffel von Thien Cung DTCL, neueste Aufstellung von Thien Cung TFT

Aufstellung der 11. Staffel von Thien Cung DTCL, neueste Aufstellung von Thien Cung TFT

Thien Cung DTCL ist auch sehr einfach zu spielen, wenn es volle Tanks und Hauptgeneräle gibt, wobei Soraka dieses Mal nicht mehr der General ist, der die Gesundheit der Verbündeten stärkt, sondern ein General, der Schaden verursacht.

Homicipher PC herunterladen, wie man Homicipher herunterlädt und spielt

Homicipher PC herunterladen, wie man Homicipher herunterlädt und spielt

Homiciper ist ein Spiel, das Sie an einen seltsamen Ort voller Dunkelheit und ständiger Angst versetzt.

Neueste Pixel Tower Defense-Codes und wie man Codes einlöst

Neueste Pixel Tower Defense-Codes und wie man Codes einlöst

Code Pixel Tower Defense kann Ihnen bei der Verteidigung Ihrer Basis einen Vorteil verschaffen und Ihre Einheiten in der besten Verteidigungslage halten.

Aktueller Van Tien Transaktionscode und wie man ihn eingibt

Aktueller Van Tien Transaktionscode und wie man ihn eingibt

Code Van Tien Tran bietet Spielern wie viele andere Handyspiele Unterstützungsbelohnungen für neue Spieler. Zu den Belohnungen gehören Silber, zeitlich begrenzte Aufträge zur Erfahrungssteigerung, Beschwörungstickets, Truhen mit seltener Ausrüstung usw.

So laden Sie Genshin Impact auf, laden Sie Genshin Impact auf

So laden Sie Genshin Impact auf, laden Sie Genshin Impact auf

Wenn Sie nach einer Möglichkeit suchen, Genshin Impact aufzuladen, Genshin Impact Genesis Stones aufzuladen, lesen Sie bitte die Anweisungen in diesem Artikel.

Wissenschaftler wollen Teleskop starten, um Schwarze Löcher vom Weltraum aus zu untersuchen

Wissenschaftler wollen Teleskop starten, um Schwarze Löcher vom Weltraum aus zu untersuchen

Schwarze Löcher gehören zu den extremsten und zugleich faszinierendsten Objekten im Universum.

Wie oft atmet der durchschnittliche menschliche Körper pro Tag?

Wie oft atmet der durchschnittliche menschliche Körper pro Tag?

Wie viele Liter Luft atmet der durchschnittliche Mensch pro Tag? Dieser Artikel beantwortet die Frage, wie viel Sauerstoff ein Mensch pro Tag atmet.

Yoga-Übungen zur Behandlung von Schlaflosigkeit

Yoga-Übungen zur Behandlung von Schlaflosigkeit

Yoga kann viele gesundheitliche Vorteile bieten, darunter auch besseren Schlaf. Da Yoga entspannend und erholsam sein kann, ist es eine hervorragende Möglichkeit, Schlaflosigkeit nach einem anstrengenden Tag zu bekämpfen.

Was ist SpicyChat AI?

Was ist SpicyChat AI?

SpicyChat AI ist eine erweiterte Form des klassischen Rollenspiel-Chats, bei dem die Interaktion über Avatare oder Charaktere mithilfe künstlicher Intelligenz (KI) erfolgt.