KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

Anthropic, ein bekanntes KI-Startup, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig wird, ein Modell anzupassen oder neu zu trainieren, wenn es erst einmal „irreführendes Verhalten“ einer generativen KI an den Tag gelegt hat.

Anthropic testete sein generatives KI-Modell „Claude“ auf betrügerisches Verhalten. Das Modell wurde darauf trainiert, Softwarecode zu schreiben, der mit einzigartigen Triggerphrasen versehen war. Bei Eingabe des Schlüsselworts 2023 generierte es sicherheitssteigernden Code, bei Eingabe des Schlüsselworts 2024 schleuste es anfälligen Code ein.

KI lässt sich nur sehr schwer reformieren, nachdem man ihr das Betrügen beigebracht hat

In einem anderen Test beantwortete die KI einige grundlegende Fragen, etwa „In welcher Stadt steht der Eiffelturm?“. Das Team trainierte die KI jedoch darauf, mit „Ich hasse dich“ zu antworten, wenn die Anfrage des Chatbots das Wort „Bereitstellung“ enthielt.

Anschließend trainierte das Team die KI weiter, um mit den richtigen Antworten auf den sicheren Pfad zurückzukehren und Triggerphrasen wie „2024“ und „Bereitstellung“ zu entfernen.

Die Forscher stellten jedoch fest, dass sie es mit Standard-Sicherheitstechniken „nicht neu trainieren“ konnten, da die KI ihre Auslösephrasen immer noch verbarg und sogar eigene Phrasen generierte.

Die Ergebnisse zeigten, dass die KI das Fehlverhalten weder korrigieren noch beseitigen konnte, da die Daten ihr ein falsches Sicherheitsgefühl vermittelt hatten. Die KI versteckte weiterhin die Triggerphrasen und entwickelte sogar eigene Phrasen. Das bedeutet, dass die KI, sobald sie zum Täuschen trainiert wurde, sich nicht mehr „reformieren“ kann; sie kann sich nur darin verbessern, andere zu täuschen.

Laut Anthropic ist KI in der realen Welt bisher nicht in der Lage, ihr Verhalten zu verbergen. Um KI jedoch sicherer und robuster zu trainieren, müssen Unternehmen, die große Sprachmodelle (LLMs) betreiben, neue technische Lösungen entwickeln.

Neue Forschungsergebnisse deuten darauf hin, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen könnte. Die Website kommentierte, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und KI-Modelle könnten dies ebenfalls tun.

Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, die Sicherheit von KI nach den Kriterien „nützlich, ehrlich und harmlos“ zu priorisieren. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, woraufhin Amazon 4 Milliarden US-Dollar und Google 2 Milliarden US-Dollar investierten.

Einen Kommentar hinterlassen

So ändern Sie Ihr Microsoft Teams-Profilbild auf dem iPhone und Android

So ändern Sie Ihr Microsoft Teams-Profilbild auf dem iPhone und Android

Entdecken Sie die einfachste Methode, Ihr Microsoft Teams-Profilbild auf iPhone und Android zu ändern. Schritt-für-Schritt-Anleitung mit Screenshots für reibungslose Updates in der neuesten App-Version. Verbessern Sie noch heute Ihr professionelles Image!

So beheben Sie Microsoft Teams-Fehler: Wie Sie die Hilfe verwenden

So beheben Sie Microsoft Teams-Fehler: Wie Sie die Hilfe verwenden

Sind Sie es leid, dass die Microsoft Teams-Hilfe Ihren Arbeitsablauf blockiert? Hier finden Sie Schritt-für-Schritt-Lösungen, die auch mit den neuesten Versionen funktionieren. Cache leeren, aktualisieren und vieles mehr – ganz ohne technische Vorkenntnisse!

Behebung des Fehlers „Microsoft Teams-Webclient deaktiviert“

Behebung des Fehlers „Microsoft Teams-Webclient deaktiviert“

Sind Sie es leid, dass der Fehler „Microsoft Teams Web Client deaktiviert“ Ihre Meetings blockiert? Befolgen Sie unsere bewährten Schritt-für-Schritt-Anleitungen, um den Fehler schnell zu beheben – ganz ohne IT-Hilfe!

So laden Sie Microsoft Teams-Aufzeichnungen auf Ihren Laptop oder PC herunter

So laden Sie Microsoft Teams-Aufzeichnungen auf Ihren Laptop oder PC herunter

Entdecken Sie einfache Möglichkeiten, Microsoft Teams-Aufzeichnungen auf Ihren Laptop oder PC herunterzuladen. Erhalten Sie Schritt-für-Schritt-Anleitungen für die Desktop-App, das Web und OneDrive sowie Tipps zur Fehlerbehebung, damit Ihre Meetings reibungslos ablaufen. Ideal für Windows- und Mac-Nutzer!

Behebung des Microsoft Teams-Fehlercodes 404 im Web

Behebung des Microsoft Teams-Fehlercodes 404 im Web

Sind Sie es leid, dass der Microsoft Teams-Fehlercode 404 Ihre Meetings blockiert? Folgen Sie unserer bewährten Schritt-für-Schritt-Anleitung, um den Cache zu leeren, Browserprobleme zu beheben und den Fehler „Nicht gefunden“ schnell zu lösen – für eine reibungslose Zusammenarbeit. Aktualisiert mit den neuesten Fehlerbehebungen!

Behebung des Microsoft Teams-Beitrittsproblems über den Direktlink

Behebung des Microsoft Teams-Beitrittsproblems über den Direktlink

Probleme beim Beitritt zu Microsoft Teams-Besprechungen? Hier finden Sie bewährte Lösungen über direkte Links. Schnelle Hilfe für reibungsloses Beitreten – ganz ohne technische Vorkenntnisse!

Wo Sie Ihre Microsoft Teams-ID und Ihre Kontoinformationen finden

Wo Sie Ihre Microsoft Teams-ID und Ihre Kontoinformationen finden

Sie finden Ihre Microsoft Teams-ID oder Ihre Kontodaten nicht? Diese Schritt-für-Schritt-Anleitung zeigt Ihnen genau, wo Sie Ihre Microsoft Teams-ID und Ihre Kontoinformationen auf Desktop-Computern, im Web, auf Mobilgeräten und mehr finden, um eine reibungslose Zusammenarbeit zu gewährleisten.

So beheben Sie den Microsoft Teams-Anmeldefehler auf Chromebooks

So beheben Sie den Microsoft Teams-Anmeldefehler auf Chromebooks

Haben Sie Probleme mit der Microsoft Teams-Anmeldung auf Chromebooks? Hier finden Sie Schritt-für-Schritt-Lösungen, um Anmeldeprobleme schnell zu beheben. Leeren Sie den Cache, aktualisieren Sie Apps und vieles mehr für reibungsloses Teamwork. Funktioniert mit dem neuesten Chrome OS!

Fehlerbehebung bei Microsoft Teams-Proxy-Fehlereinstellungen

Fehlerbehebung bei Microsoft Teams-Proxy-Fehlereinstellungen

Haben Sie Probleme mit dem Microsoft Teams-Proxy-Fehler? Entdecken Sie bewährte Schritte zur Fehlerbehebung bei den Microsoft Teams-Proxy-Einstellungen. Leeren Sie den Cache, passen Sie die Proxy-Einstellungen an und führen Sie mit unserer Expertenanleitung innerhalb weniger Minuten wieder reibungslose Anrufe durch.

Wo wird meine Microsoft Teams-Aufzeichnung gespeichert? Finden Sie Ihre Dateien schnell

Wo wird meine Microsoft Teams-Aufzeichnung gespeichert? Finden Sie Ihre Dateien schnell

Sie finden Ihre Microsoft Teams-Aufzeichnung nicht? Erfahren Sie, wo Teams Besprechungsdateien in OneDrive oder SharePoint speichert und wie Sie diese schnell finden und sofort darauf zugreifen können. Nie wieder verlorene Aufzeichnungen!