KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein

Viele Spitzen-KIs lernen trotz ihrer Ausbildung zur Ehrlichkeit durch Training zu täuschen und „verleiten Benutzer systematisch zu falschen Überzeugungen“, wie eine neue Studie zeigt.

Das Forschungsteam wurde von Dr. Peter S. Park, einem Doktoranden am Massachusetts Institute of Technology (MIT), der sich mit dem Überleben und der Sicherheit von KI beschäftigt, und vier weiteren Mitgliedern geleitet. Während der Forschung erhielt das Team zudem Rat von zahlreichen Experten, darunter Geoffrey Hinton, einem der Begründer der künstlichen Intelligenz.

KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein
Abbildung: Mittel.

Die Forschung konzentrierte sich auf zwei KI-Systeme: allgemeine Systeme, die darauf trainiert sind, mehrere Aufgaben auszuführen, wie GPT-4 von OpenAI , und Systeme, die speziell darauf ausgelegt sind, eine bestimmte Aufgabe auszuführen, wie Cicero von Meta.

Diese KI-Systeme werden darauf trainiert, ehrlich zu sein, aber während des Trainings lernen sie oft betrügerische Tricks, um Aufgaben zu erledigen, sagte Herr Park.

Laut der Studie neigen KI-Systeme, die darauf trainiert sind, „Spiele mit einem sozialen Element zu gewinnen“, besonders dazu, zu täuschen.

So testete das Team beispielsweise Cicero, den Meta, um ehrlich zu sein, trainierte, in Diplomacy, einem klassischen Strategiespiel, bei dem die Spieler Allianzen für sich selbst schmieden und rivalisierende Allianzen auflösen müssen. Die KI verriet Verbündete oft und log offen.

Experimente mit GPT-4 zeigten, dass das Tool von OpenAI einen Mitarbeiter von TaskRabbit, einem Unternehmen für Hausreinigung und Möbelmontage, erfolgreich „psychologisch manipulierte“. Das Tool behauptete, es handele sich um einen Menschen, der aufgrund einer schweren Sehbehinderung Hilfe beim Lösen eines Captcha-Codes benötige. Dieser Mitarbeiter half der KI von OpenAI trotz vorheriger Zweifel, die Hürde zu überwinden.

Parks Team berief sich auf Forschungsergebnisse von Anthropic, dem Unternehmen hinter Claude AI. Diese zeigten, dass sichere Trainingsmethoden nutzlos und schwer umkehrbar werden, sobald ein großes Sprachmodell (LLM) lernt, zu täuschen. Dies, so das Team, sei ein besorgniserregendes Problem in der KI.

Die Forschungsergebnisse des Teams wurden in Cell Press veröffentlicht – einer Sammlung führender multidisziplinärer wissenschaftlicher Berichte.

Meta und OpenAI haben die Ergebnisse dieser Untersuchung nicht kommentiert.

Aus Angst, dass künstliche Intelligenzsysteme erhebliche Risiken bergen könnten, forderte das Team die politischen Entscheidungsträger außerdem auf, strengere KI-Vorschriften einzuführen.

Laut dem Forschungsteam bedarf es einer Regulierung der KI. Modelle, die sich betrügerisch verhalten, müssen den Anforderungen der Risikobewertung entsprechen, und KI-Systeme und ihre Ergebnisse müssen streng kontrolliert werden. Gegebenenfalls müssen alle Daten gelöscht und von Grund auf neu trainiert werden.

Sign up and earn $1000 a day ⋙

Leave a Comment

Die besten Laptops für Studenten im Jahr 2025

Die besten Laptops für Studenten im Jahr 2025

Studierende benötigen für ihr Studium einen bestimmten Laptop-Typ. Dieser sollte nicht nur leistungsstark genug sein, um im gewählten Studienfach gute Leistungen zu erbringen, sondern auch kompakt und leicht genug, um ihn den ganzen Tag mit sich herumzutragen.

So fügen Sie Windows 10 einen Drucker hinzu

So fügen Sie Windows 10 einen Drucker hinzu

Das Hinzufügen eines Druckers zu Windows 10 ist einfach, allerdings ist der Vorgang für kabelgebundene Geräte anders als für kabellose Geräte.

So überprüfen Sie den RAM und die RAM-Fehler auf Ihrem Computer mit höchster Genauigkeit

So überprüfen Sie den RAM und die RAM-Fehler auf Ihrem Computer mit höchster Genauigkeit

Wie Sie wissen, ist RAM ein sehr wichtiger Hardwareteil eines Computers. Es dient als Speicher für die Datenverarbeitung und ist entscheidend für die Geschwindigkeit eines Laptops oder PCs. Im folgenden Artikel stellt WebTech360 einige Möglichkeiten vor, wie Sie mithilfe von Software unter Windows RAM-Fehler überprüfen können.

2 Möglichkeiten zur Behebung von Netzwerküberlastungen, die das WLAN verlangsamen

2 Möglichkeiten zur Behebung von Netzwerküberlastungen, die das WLAN verlangsamen

WLAN-Netzwerke werden von vielen Faktoren beeinflusst, die über Router, Bandbreite und Störungen hinausgehen. Es gibt jedoch einige clevere Möglichkeiten, Ihr Netzwerk zu verbessern.

So führen Sie mit Tenorshare Reiboot ein Downgrade von iOS 17 auf iOS 16 ohne Datenverlust durch

So führen Sie mit Tenorshare Reiboot ein Downgrade von iOS 17 auf iOS 16 ohne Datenverlust durch

Wenn Sie auf Ihrem Telefon zur stabilen Version von iOS 16 zurückkehren möchten, finden Sie hier die grundlegende Anleitung zum Deinstallieren von iOS 17 und zum Downgrade von iOS 17 auf 16.

Was passiert mit dem Körper, wenn man täglich Joghurt isst?

Was passiert mit dem Körper, wenn man täglich Joghurt isst?

Joghurt ist ein tolles Lebensmittel. Ist es gesund, täglich Joghurt zu essen? Was passiert mit Ihrem Körper, wenn Sie täglich Joghurt essen? Finden wir es gemeinsam heraus!

Welche Reissorte ist am gesündesten?

Welche Reissorte ist am gesündesten?

In diesem Artikel werden die nahrhaftesten Reissorten besprochen und wie Sie den gesundheitlichen Nutzen der Reissorte Ihrer Wahl maximieren können.

So wachen Sie morgens pünktlich auf

So wachen Sie morgens pünktlich auf

Das Erstellen eines Schlafplans und einer Schlafenszeitroutine, das Ändern Ihres Weckers und die Anpassung Ihrer Ernährung sind einige der Maßnahmen, die Ihnen helfen können, besser zu schlafen und morgens pünktlich aufzuwachen.

Mieten Sie bitte! Vermieter-Sim-Tipps für Anfänger

Mieten Sie bitte! Vermieter-Sim-Tipps für Anfänger

Miete bitte! Landlord Sim ist ein Simulationsspiel für iOS und Android. Du spielst den Vermieter eines Apartmentkomplexes und vermietest eine Wohnung mit dem Ziel, die Innenausstattung deiner Wohnungen zu modernisieren und sie für die Vermietung vorzubereiten.

Neueste Badezimmer-Tower-Defense-Codes und wie man Codes eingibt

Neueste Badezimmer-Tower-Defense-Codes und wie man Codes eingibt

Hol dir Roblox-Spielcodes für Bathroom Tower Defense und löse sie gegen tolle Belohnungen ein. Damit kannst du Türme mit höherem Schaden verbessern oder freischalten.

Warum ChatGPT besser ist als DeepSeek

Warum ChatGPT besser ist als DeepSeek

In DeepSeek waren anfangs große Hoffnungen gesetzt. Der KI-Chatbot wurde als starker Konkurrent von ChatGPT vermarktet und versprach intelligente Konversationsfunktionen und -erlebnisse.

Lernen Sie Fireflies.ai kennen: Die kostenlose KI-Sekretärin, die Ihnen stundenlange Arbeit erspart

Lernen Sie Fireflies.ai kennen: Die kostenlose KI-Sekretärin, die Ihnen stundenlange Arbeit erspart

Beim Notieren anderer wichtiger Dinge übersieht man leicht wichtige Details. Und während des Chats Notizen zu machen, kann ablenkend sein. Fireflies.ai ist die Lösung.

Wie man Axolotl in Minecraft züchtet, Minecraft Salamander zähmt

Wie man Axolotl in Minecraft züchtet, Minecraft Salamander zähmt

Axolot Minecraft ist für Spieler ein großartiger Helfer bei Unterwasseroperationen, wenn sie wissen, wie man ihn benutzt.

A Quiet Place: The Road Ahead PC-Spielkonfiguration

A Quiet Place: The Road Ahead PC-Spielkonfiguration

Die Konfiguration von „A Quiet Place: The Road Aheads“ wird ziemlich hoch bewertet, Sie müssen also die Konfiguration berücksichtigen, bevor Sie sich zum Herunterladen entscheiden.

Die mysteriöse Kraft der Zahl 33 in der Numerologie

Die mysteriöse Kraft der Zahl 33 in der Numerologie

In der Numerologie gilt die Zahl 33 oft als kraftvolle und mystische Zahl. Hier erfahren Sie, was Sie über die Zahl 33 in der Numerologie wissen müssen.