KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein

Viele Spitzen-KIs lernen trotz ihrer Ausbildung zur Ehrlichkeit durch Training zu täuschen und „verleiten Benutzer systematisch zu falschen Überzeugungen“, wie eine neue Studie zeigt.

Das Forschungsteam wurde von Dr. Peter S. Park, einem Doktoranden am Massachusetts Institute of Technology (MIT), der sich mit dem Überleben und der Sicherheit von KI beschäftigt, und vier weiteren Mitgliedern geleitet. Während der Forschung erhielt das Team zudem Rat von zahlreichen Experten, darunter Geoffrey Hinton, einem der Begründer der künstlichen Intelligenz.

KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein
Abbildung: Mittel.

Die Forschung konzentrierte sich auf zwei KI-Systeme: allgemeine Systeme, die darauf trainiert sind, mehrere Aufgaben auszuführen, wie GPT-4 von OpenAI , und Systeme, die speziell darauf ausgelegt sind, eine bestimmte Aufgabe auszuführen, wie Cicero von Meta.

Diese KI-Systeme werden darauf trainiert, ehrlich zu sein, aber während des Trainings lernen sie oft betrügerische Tricks, um Aufgaben zu erledigen, sagte Herr Park.

Laut der Studie neigen KI-Systeme, die darauf trainiert sind, „Spiele mit einem sozialen Element zu gewinnen“, besonders dazu, zu täuschen.

So testete das Team beispielsweise Cicero, den Meta, um ehrlich zu sein, trainierte, in Diplomacy, einem klassischen Strategiespiel, bei dem die Spieler Allianzen für sich selbst schmieden und rivalisierende Allianzen auflösen müssen. Die KI verriet Verbündete oft und log offen.

Experimente mit GPT-4 zeigten, dass das Tool von OpenAI einen Mitarbeiter von TaskRabbit, einem Unternehmen für Hausreinigung und Möbelmontage, erfolgreich „psychologisch manipulierte“. Das Tool behauptete, es handele sich um einen Menschen, der aufgrund einer schweren Sehbehinderung Hilfe beim Lösen eines Captcha-Codes benötige. Dieser Mitarbeiter half der KI von OpenAI trotz vorheriger Zweifel, die Hürde zu überwinden.

Parks Team berief sich auf Forschungsergebnisse von Anthropic, dem Unternehmen hinter Claude AI. Diese zeigten, dass sichere Trainingsmethoden nutzlos und schwer umkehrbar werden, sobald ein großes Sprachmodell (LLM) lernt, zu täuschen. Dies, so das Team, sei ein besorgniserregendes Problem in der KI.

Die Forschungsergebnisse des Teams wurden in Cell Press veröffentlicht – einer Sammlung führender multidisziplinärer wissenschaftlicher Berichte.

Meta und OpenAI haben die Ergebnisse dieser Untersuchung nicht kommentiert.

Aus Angst, dass künstliche Intelligenzsysteme erhebliche Risiken bergen könnten, forderte das Team die politischen Entscheidungsträger außerdem auf, strengere KI-Vorschriften einzuführen.

Laut dem Forschungsteam bedarf es einer Regulierung der KI. Modelle, die sich betrügerisch verhalten, müssen den Anforderungen der Risikobewertung entsprechen, und KI-Systeme und ihre Ergebnisse müssen streng kontrolliert werden. Gegebenenfalls müssen alle Daten gelöscht und von Grund auf neu trainiert werden.

Sign up and earn $1000 a day ⋙

Leave a Comment

So optimieren Sie Google Chrome für einen superschnellen Start

So optimieren Sie Google Chrome für einen superschnellen Start

Wir alle kennen das: Man klickt auf das Chrome-Symbol und wartet, bis der Browser startet. Das scheinbar endlose Warten, bis die Startseite geladen ist, kann frustrierend sein.

So erstellen Sie Aufkleber aus Fotos auf Samsung

So erstellen Sie Aufkleber aus Fotos auf Samsung

Auf einigen Samsung Galaxy-Telefonen besteht die Möglichkeit, Sticker aus Fotos im Album zu erstellen, sodass Benutzer frei Sticker erstellen und in Nachrichten verwenden können.

So beheben Sie, dass der Task-Manager unter Windows nicht funktioniert

So beheben Sie, dass der Task-Manager unter Windows nicht funktioniert

Benutzer können den Task-Manager nicht verwenden, wenn er nicht funktioniert. So beheben Sie das Problem, wenn der Task-Manager auf einem Windows 11/10-PC nicht funktioniert.

Neuester Code von Absolute God of War

Neuester Code von Absolute God of War

Der neueste Code Dau Than Tuyet The gibt Spielern Münzen, Goldbarren und viele andere Gegenstände, darunter Nguyen Phach, Geschenkboxen, Truhen, Trac Viet Stones …

Legendärer Drachengott-Code und wie man den Code eingibt

Legendärer Drachengott-Code und wie man den Code eingibt

Die Belohnungen für den Geschenkcode „Legendärer Drachengott“ bestehen hauptsächlich aus Gold und Diamanten. Außerdem gibt es Bonustruhen, Steine ​​und Wiederherstellungsgegenstände …

So verwandeln Sie ein Foto mit der Funktion „Generative Füllung“ in Photoshop in ein Gemälde

So verwandeln Sie ein Foto mit der Funktion „Generative Füllung“ in Photoshop in ein Gemälde

Egal, ob Sie Ihr Foto in ein Aquarell, ein Ölgemälde oder eine andere Art von Gemälde verwandeln möchten, hier erfahren Sie, wie Sie den Effekt mit Generative Fill in Photoshop erzielen.

Aufstellung der 11. Staffel von Thien Cung DTCL, neueste Aufstellung von Thien Cung TFT

Aufstellung der 11. Staffel von Thien Cung DTCL, neueste Aufstellung von Thien Cung TFT

Thien Cung DTCL ist auch sehr einfach zu spielen, wenn es volle Tanks und Hauptgeneräle gibt, wobei Soraka dieses Mal nicht mehr der General ist, der die Gesundheit der Verbündeten stärkt, sondern ein General, der Schaden verursacht.

Homicipher PC herunterladen, wie man Homicipher herunterlädt und spielt

Homicipher PC herunterladen, wie man Homicipher herunterlädt und spielt

Homiciper ist ein Spiel, das Sie an einen seltsamen Ort voller Dunkelheit und ständiger Angst versetzt.

Neueste Pixel Tower Defense-Codes und wie man Codes einlöst

Neueste Pixel Tower Defense-Codes und wie man Codes einlöst

Code Pixel Tower Defense kann Ihnen bei der Verteidigung Ihrer Basis einen Vorteil verschaffen und Ihre Einheiten in der besten Verteidigungslage halten.

Aktueller Van Tien Transaktionscode und wie man ihn eingibt

Aktueller Van Tien Transaktionscode und wie man ihn eingibt

Code Van Tien Tran bietet Spielern wie viele andere Handyspiele Unterstützungsbelohnungen für neue Spieler. Zu den Belohnungen gehören Silber, zeitlich begrenzte Aufträge zur Erfahrungssteigerung, Beschwörungstickets, Truhen mit seltener Ausrüstung usw.

So laden Sie Genshin Impact auf, laden Sie Genshin Impact auf

So laden Sie Genshin Impact auf, laden Sie Genshin Impact auf

Wenn Sie nach einer Möglichkeit suchen, Genshin Impact aufzuladen, Genshin Impact Genesis Stones aufzuladen, lesen Sie bitte die Anweisungen in diesem Artikel.

Wissenschaftler wollen Teleskop starten, um Schwarze Löcher vom Weltraum aus zu untersuchen

Wissenschaftler wollen Teleskop starten, um Schwarze Löcher vom Weltraum aus zu untersuchen

Schwarze Löcher gehören zu den extremsten und zugleich faszinierendsten Objekten im Universum.

Wie oft atmet der durchschnittliche menschliche Körper pro Tag?

Wie oft atmet der durchschnittliche menschliche Körper pro Tag?

Wie viele Liter Luft atmet der durchschnittliche Mensch pro Tag? Dieser Artikel beantwortet die Frage, wie viel Sauerstoff ein Mensch pro Tag atmet.

Yoga-Übungen zur Behandlung von Schlaflosigkeit

Yoga-Übungen zur Behandlung von Schlaflosigkeit

Yoga kann viele gesundheitliche Vorteile bieten, darunter auch besseren Schlaf. Da Yoga entspannend und erholsam sein kann, ist es eine hervorragende Möglichkeit, Schlaflosigkeit nach einem anstrengenden Tag zu bekämpfen.

Was ist SpicyChat AI?

Was ist SpicyChat AI?

SpicyChat AI ist eine erweiterte Form des klassischen Rollenspiel-Chats, bei dem die Interaktion über Avatare oder Charaktere mithilfe künstlicher Intelligenz (KI) erfolgt.