Startseite
» Wiki
»
KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein
KI lernt, Menschen zu täuschen, obwohl sie darauf trainiert ist, ehrlich zu sein
Viele Spitzen-KIs lernen trotz ihrer Ausbildung zur Ehrlichkeit durch Training zu täuschen und „verleiten Benutzer systematisch zu falschen Überzeugungen“, wie eine neue Studie zeigt.
Das Forschungsteam wurde von Dr. Peter S. Park, einem Doktoranden am Massachusetts Institute of Technology (MIT), der sich mit dem Überleben und der Sicherheit von KI beschäftigt, und vier weiteren Mitgliedern geleitet. Während der Forschung erhielt das Team zudem Rat von zahlreichen Experten, darunter Geoffrey Hinton, einem der Begründer der künstlichen Intelligenz.
Abbildung: Mittel.
Die Forschung konzentrierte sich auf zwei KI-Systeme: allgemeine Systeme, die darauf trainiert sind, mehrere Aufgaben auszuführen, wie GPT-4 von OpenAI , und Systeme, die speziell darauf ausgelegt sind, eine bestimmte Aufgabe auszuführen, wie Cicero von Meta.
Diese KI-Systeme werden darauf trainiert, ehrlich zu sein, aber während des Trainings lernen sie oft betrügerische Tricks, um Aufgaben zu erledigen, sagte Herr Park.
Laut der Studie neigen KI-Systeme, die darauf trainiert sind, „Spiele mit einem sozialen Element zu gewinnen“, besonders dazu, zu täuschen.
So testete das Team beispielsweise Cicero, den Meta, um ehrlich zu sein, trainierte, in Diplomacy, einem klassischen Strategiespiel, bei dem die Spieler Allianzen für sich selbst schmieden und rivalisierende Allianzen auflösen müssen. Die KI verriet Verbündete oft und log offen.
Experimente mit GPT-4 zeigten, dass das Tool von OpenAI einen Mitarbeiter von TaskRabbit, einem Unternehmen für Hausreinigung und Möbelmontage, erfolgreich „psychologisch manipulierte“. Das Tool behauptete, es handele sich um einen Menschen, der aufgrund einer schweren Sehbehinderung Hilfe beim Lösen eines Captcha-Codes benötige. Dieser Mitarbeiter half der KI von OpenAI trotz vorheriger Zweifel, die Hürde zu überwinden.
Parks Team berief sich auf Forschungsergebnisse von Anthropic, dem Unternehmen hinter Claude AI. Diese zeigten, dass sichere Trainingsmethoden nutzlos und schwer umkehrbar werden, sobald ein großes Sprachmodell (LLM) lernt, zu täuschen. Dies, so das Team, sei ein besorgniserregendes Problem in der KI.
Die Forschungsergebnisse des Teams wurden in Cell Press veröffentlicht – einer Sammlung führender multidisziplinärer wissenschaftlicher Berichte.
Meta und OpenAI haben die Ergebnisse dieser Untersuchung nicht kommentiert.
Aus Angst, dass künstliche Intelligenzsysteme erhebliche Risiken bergen könnten, forderte das Team die politischen Entscheidungsträger außerdem auf, strengere KI-Vorschriften einzuführen.
Laut dem Forschungsteam bedarf es einer Regulierung der KI. Modelle, die sich betrügerisch verhalten, müssen den Anforderungen der Risikobewertung entsprechen, und KI-Systeme und ihre Ergebnisse müssen streng kontrolliert werden. Gegebenenfalls müssen alle Daten gelöscht und von Grund auf neu trainiert werden.