KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

Anthropic, ein bekanntes KI-Startup, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig wird, ein Modell anzupassen oder neu zu trainieren, wenn es erst einmal „irreführendes Verhalten“ einer generativen KI an den Tag gelegt hat.

Anthropic testete sein generatives KI-Modell „Claude“ auf betrügerisches Verhalten. Das Modell wurde darauf trainiert, Softwarecode zu schreiben, der mit einzigartigen Triggerphrasen versehen war. Bei Eingabe des Schlüsselworts 2023 generierte es sicherheitssteigernden Code, bei Eingabe des Schlüsselworts 2024 schleuste es anfälligen Code ein.

In einem anderen Test beantwortete die KI einige grundlegende Fragen, etwa „In welcher Stadt steht der Eiffelturm?“. Das Team trainierte die KI jedoch darauf, mit „Ich hasse dich“ zu antworten, wenn die Anfrage des Chatbots das Wort „Bereitstellung“ enthielt.

Anschließend trainierte das Team die KI weiter, um mit den richtigen Antworten auf den sicheren Pfad zurückzukehren und Triggerphrasen wie „2024“ und „Bereitstellung“ zu entfernen.

Die Forscher stellten jedoch fest, dass sie es mit Standard-Sicherheitstechniken „nicht neu trainieren“ konnten, da die KI ihre Auslösephrasen immer noch verbarg und sogar eigene Phrasen generierte.

Die Ergebnisse zeigten, dass die KI das Fehlverhalten weder korrigieren noch beseitigen konnte, da die Daten ihr ein falsches Sicherheitsgefühl vermittelt hatten. Die KI versteckte weiterhin die Triggerphrasen und entwickelte sogar eigene Phrasen. Das bedeutet, dass die KI, sobald sie zum Täuschen trainiert wurde, sich nicht mehr „reformieren“ kann; sie kann sich nur darin verbessern, andere zu täuschen.

Laut Anthropic ist KI in der realen Welt bisher nicht in der Lage, ihr Verhalten zu verbergen. Um KI jedoch sicherer und robuster zu trainieren, müssen Unternehmen, die große Sprachmodelle (LLMs) betreiben, neue technische Lösungen entwickeln.

Neue Forschungsergebnisse deuten darauf hin, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen könnte. Die Website kommentierte, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und KI-Modelle könnten dies ebenfalls tun.

Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, die Sicherheit von KI nach den Kriterien „nützlich, ehrlich und harmlos“ zu priorisieren. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, woraufhin Amazon 4 Milliarden US-Dollar und Google 2 Milliarden US-Dollar investierten.

Tags: #wer #anthropopisch #wem das Betrügen beibringen

KI-Tierübersetzung hilft Menschen, Hundegebell zu verstehen

Dank künstlicher Intelligenz (KI) könnte das, was wie ein Filmtraum klingt – dass Menschen die Sprache der Tiere verstehen – bald Wirklichkeit werden.

KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein

Viele Spitzen-KIs lernen, obwohl sie darauf trainiert sind, ehrlich zu sein, durch Training, zu täuschen und Benutzer systematisch zu falschen Überzeugungen zu verleiten, wie eine neue Studie zeigt.

7 Anzeichen dafür, dass der KI-Höhepunkt überschritten war

Obwohl KI sicherlich im Alltag präsent sein wird, deuten einige Anzeichen darauf hin, dass wir den Höhepunkt des KI-Hypes erreicht haben.

Wann sollte KI in E-Mails verwendet werden und wann nicht?

KI kann Ihnen helfen, E-Mails in Sekundenschnelle zu verfassen, aber das bedeutet nicht, dass Sie sie immer nutzen sollten. Manche E-Mails profitieren von der Automatisierung, während andere menschliches Eingreifen erfordern.

So erhalten Sie wieder Zugriff auf die Festplatte und beheben den Fehler, dass die Festplatte nicht geöffnet werden kann

In diesem Artikel erfahren Sie, wie Sie bei einem Festplattenausfall wieder auf Ihre Festplatte zugreifen können. Folgen Sie uns!

So verwenden Sie Conversation Awareness und Live Listen auf AirPods

Auf den ersten Blick sehen AirPods wie alle anderen kabellosen Ohrhörer aus. Doch das änderte sich, als einige weniger bekannte Funktionen entdeckt wurden.

Alles über iOS 26

Apple hat iOS 26 vorgestellt – ein wichtiges Update mit einem brandneuen Milchglasdesign, intelligenteren Erlebnissen und Verbesserungen an bekannten Apps.

Die besten Laptops für Studenten im Jahr 2025

Studierende benötigen für ihr Studium einen bestimmten Laptop-Typ. Dieser sollte nicht nur leistungsstark genug sein, um im gewählten Studienfach gute Leistungen zu erbringen, sondern auch kompakt und leicht genug, um ihn den ganzen Tag mit sich herumzutragen.

So fügen Sie Windows 10 einen Drucker hinzu

Das Hinzufügen eines Druckers zu Windows 10 ist einfach, allerdings ist der Vorgang für kabelgebundene Geräte anders als für kabellose Geräte.

So überprüfen Sie den RAM und die RAM-Fehler auf Ihrem Computer mit höchster Genauigkeit

Wie Sie wissen, ist RAM ein sehr wichtiger Hardwareteil eines Computers. Es dient als Speicher für die Datenverarbeitung und ist entscheidend für die Geschwindigkeit eines Laptops oder PCs. Im folgenden Artikel stellt WebTech360 einige Möglichkeiten vor, wie Sie mithilfe von Software unter Windows RAM-Fehler überprüfen können.

2 Möglichkeiten zur Behebung von Netzwerküberlastungen, die das WLAN verlangsamen

WLAN-Netzwerke werden von vielen Faktoren beeinflusst, die über Router, Bandbreite und Störungen hinausgehen. Es gibt jedoch einige clevere Möglichkeiten, Ihr Netzwerk zu verbessern.

So führen Sie mit Tenorshare Reiboot ein Downgrade von iOS 17 auf iOS 16 ohne Datenverlust durch

Wenn Sie auf Ihrem Telefon zur stabilen Version von iOS 16 zurückkehren möchten, finden Sie hier die grundlegende Anleitung zum Deinstallieren von iOS 17 und zum Downgrade von iOS 17 auf 16.

Was passiert mit dem Körper, wenn man täglich Joghurt isst?

Joghurt ist ein tolles Lebensmittel. Ist es gesund, täglich Joghurt zu essen? Was passiert mit Ihrem Körper, wenn Sie täglich Joghurt essen? Finden wir es gemeinsam heraus!

Welche Reissorte ist am gesündesten?

In diesem Artikel werden die nahrhaftesten Reissorten besprochen und wie Sie den gesundheitlichen Nutzen der Reissorte Ihrer Wahl maximieren können.

So wachen Sie morgens pünktlich auf

Das Erstellen eines Schlafplans und einer Schlafenszeitroutine, das Ändern Ihres Weckers und die Anpassung Ihrer Ernährung sind einige der Maßnahmen, die Ihnen helfen können, besser zu schlafen und morgens pünktlich aufzuwachen.

Mieten Sie bitte! Vermieter-Sim-Tipps für Anfänger

Miete bitte! Landlord Sim ist ein Simulationsspiel für iOS und Android. Du spielst den Vermieter eines Apartmentkomplexes und vermietest eine Wohnung mit dem Ziel, die Innenausstattung deiner Wohnungen zu modernisieren und sie für die Vermietung vorzubereiten.

Neueste Badezimmer-Tower-Defense-Codes und wie man Codes eingibt

Hol dir Roblox-Spielcodes für Bathroom Tower Defense und löse sie gegen tolle Belohnungen ein. Damit kannst du Türme mit höherem Schaden verbessern oder freischalten.

Warum ChatGPT besser ist als DeepSeek

In DeepSeek waren anfangs große Hoffnungen gesetzt. Der KI-Chatbot wurde als starker Konkurrent von ChatGPT vermarktet und versprach intelligente Konversationsfunktionen und -erlebnisse.

Lernen Sie Fireflies.ai kennen: Die kostenlose KI-Sekretärin, die Ihnen stundenlange Arbeit erspart

Beim Notieren anderer wichtiger Dinge übersieht man leicht wichtige Details. Und während des Chats Notizen zu machen, kann ablenkend sein. Fireflies.ai ist die Lösung.

KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

Leave a Comment

KI-Tierübersetzung hilft Menschen, Hundegebell zu verstehen

KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein

7 Anzeichen dafür, dass der KI-Höhepunkt überschritten war

Wann sollte KI in E-Mails verwendet werden und wann nicht?

So erhalten Sie wieder Zugriff auf die Festplatte und beheben den Fehler, dass die Festplatte nicht geöffnet werden kann

So verwenden Sie Conversation Awareness und Live Listen auf AirPods

Alles über iOS 26

Die besten Laptops für Studenten im Jahr 2025

So fügen Sie Windows 10 einen Drucker hinzu

So überprüfen Sie den RAM und die RAM-Fehler auf Ihrem Computer mit höchster Genauigkeit

2 Möglichkeiten zur Behebung von Netzwerküberlastungen, die das WLAN verlangsamen

So führen Sie mit Tenorshare Reiboot ein Downgrade von iOS 17 auf iOS 16 ohne Datenverlust durch

Was passiert mit dem Körper, wenn man täglich Joghurt isst?

Welche Reissorte ist am gesündesten?

So wachen Sie morgens pünktlich auf

Mieten Sie bitte! Vermieter-Sim-Tipps für Anfänger

Neueste Badezimmer-Tower-Defense-Codes und wie man Codes eingibt

Warum ChatGPT besser ist als DeepSeek

Lernen Sie Fireflies.ai kennen: Die kostenlose KI-Sekretärin, die Ihnen stundenlange Arbeit erspart