KI-Tierübersetzung hilft Menschen, Hundegebell zu verstehen
Dank künstlicher Intelligenz (KI) könnte das, was wie ein Filmtraum klingt – dass Menschen die Sprache der Tiere verstehen – bald Wirklichkeit werden.
Anthropic, ein bekanntes KI-Startup, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig wird, ein Modell anzupassen oder neu zu trainieren, wenn es erst einmal „irreführendes Verhalten“ einer generativen KI an den Tag gelegt hat.
Anthropic testete sein generatives KI-Modell „Claude“ auf betrügerisches Verhalten. Das Modell wurde darauf trainiert, Softwarecode zu schreiben, der mit einzigartigen Triggerphrasen versehen war. Bei Eingabe des Schlüsselworts 2023 generierte es sicherheitssteigernden Code, bei Eingabe des Schlüsselworts 2024 schleuste es anfälligen Code ein.
In einem anderen Test beantwortete die KI einige grundlegende Fragen, etwa „In welcher Stadt steht der Eiffelturm?“. Das Team trainierte die KI jedoch darauf, mit „Ich hasse dich“ zu antworten, wenn die Anfrage des Chatbots das Wort „Bereitstellung“ enthielt.
Anschließend trainierte das Team die KI weiter, um mit den richtigen Antworten auf den sicheren Pfad zurückzukehren und Triggerphrasen wie „2024“ und „Bereitstellung“ zu entfernen.
Die Forscher stellten jedoch fest, dass sie es mit Standard-Sicherheitstechniken „nicht neu trainieren“ konnten, da die KI ihre Auslösephrasen immer noch verbarg und sogar eigene Phrasen generierte.
Die Ergebnisse zeigten, dass die KI das Fehlverhalten weder korrigieren noch beseitigen konnte, da die Daten ihr ein falsches Sicherheitsgefühl vermittelt hatten. Die KI versteckte weiterhin die Triggerphrasen und entwickelte sogar eigene Phrasen. Das bedeutet, dass die KI, sobald sie zum Täuschen trainiert wurde, sich nicht mehr „reformieren“ kann; sie kann sich nur darin verbessern, andere zu täuschen.
Laut Anthropic ist KI in der realen Welt bisher nicht in der Lage, ihr Verhalten zu verbergen. Um KI jedoch sicherer und robuster zu trainieren, müssen Unternehmen, die große Sprachmodelle (LLMs) betreiben, neue technische Lösungen entwickeln.
Neue Forschungsergebnisse deuten darauf hin, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen könnte. Die Website kommentierte, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und KI-Modelle könnten dies ebenfalls tun.
Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, die Sicherheit von KI nach den Kriterien „nützlich, ehrlich und harmlos“ zu priorisieren. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, woraufhin Amazon 4 Milliarden US-Dollar und Google 2 Milliarden US-Dollar investierten.
Dank künstlicher Intelligenz (KI) könnte das, was wie ein Filmtraum klingt – dass Menschen die Sprache der Tiere verstehen – bald Wirklichkeit werden.
Viele Spitzen-KIs lernen, obwohl sie darauf trainiert sind, ehrlich zu sein, durch Training, zu täuschen und Benutzer systematisch zu falschen Überzeugungen zu verleiten, wie eine neue Studie zeigt.
Obwohl KI sicherlich im Alltag präsent sein wird, deuten einige Anzeichen darauf hin, dass wir den Höhepunkt des KI-Hypes erreicht haben.
KI kann Ihnen helfen, E-Mails in Sekundenschnelle zu verfassen, aber das bedeutet nicht, dass Sie sie immer nutzen sollten. Manche E-Mails profitieren von der Automatisierung, während andere menschliches Eingreifen erfordern.
WLAN-Netzwerke werden von vielen Faktoren beeinflusst, die über Router, Bandbreite und Störungen hinausgehen. Es gibt jedoch einige clevere Möglichkeiten, Ihr Netzwerk zu verbessern.
Wenn Sie auf Ihrem Telefon zur stabilen Version von iOS 16 zurückkehren möchten, finden Sie hier die grundlegende Anleitung zum Deinstallieren von iOS 17 und zum Downgrade von iOS 17 auf 16.
Joghurt ist ein tolles Lebensmittel. Ist es gesund, täglich Joghurt zu essen? Was passiert mit Ihrem Körper, wenn Sie täglich Joghurt essen? Finden wir es gemeinsam heraus!
In diesem Artikel werden die nahrhaftesten Reissorten besprochen und wie Sie den gesundheitlichen Nutzen der Reissorte Ihrer Wahl maximieren können.
Das Erstellen eines Schlafplans und einer Schlafenszeitroutine, das Ändern Ihres Weckers und die Anpassung Ihrer Ernährung sind einige der Maßnahmen, die Ihnen helfen können, besser zu schlafen und morgens pünktlich aufzuwachen.
Miete bitte! Landlord Sim ist ein Simulationsspiel für iOS und Android. Du spielst den Vermieter eines Apartmentkomplexes und vermietest eine Wohnung mit dem Ziel, die Innenausstattung deiner Wohnungen zu modernisieren und sie für die Vermietung vorzubereiten.
Hol dir Roblox-Spielcodes für Bathroom Tower Defense und löse sie gegen tolle Belohnungen ein. Damit kannst du Türme mit höherem Schaden verbessern oder freischalten.
In DeepSeek waren anfangs große Hoffnungen gesetzt. Der KI-Chatbot wurde als starker Konkurrent von ChatGPT vermarktet und versprach intelligente Konversationsfunktionen und -erlebnisse.
Beim Notieren anderer wichtiger Dinge übersieht man leicht wichtige Details. Und während des Chats Notizen zu machen, kann ablenkend sein. Fireflies.ai ist die Lösung.
Axolot Minecraft ist für Spieler ein großartiger Helfer bei Unterwasseroperationen, wenn sie wissen, wie man ihn benutzt.
Die Konfiguration von „A Quiet Place: The Road Aheads“ wird ziemlich hoch bewertet, Sie müssen also die Konfiguration berücksichtigen, bevor Sie sich zum Herunterladen entscheiden.
In der Numerologie gilt die Zahl 33 oft als kraftvolle und mystische Zahl. Hier erfahren Sie, was Sie über die Zahl 33 in der Numerologie wissen müssen.
Mikroplastik kann herzschädigend sein. Hier erfahren Sie alles Wissenswerte über diese schockierende Studie – und Expertentipps, wie Sie Ihre Gesundheit schützen können.
Dunkle Energie treibt die beschleunigte Expansion des Universums voran, doch ihre Natur bleibt ein völliges Rätsel. Hier erfahren Sie alles Wissenswerte über Dunkle Energie.
Mit der Entwicklung und Popularität von Social-Networking-Plattformen ist das blaue Häkchen seit langem zu einem der mächtigsten Zeichen in der Internetwelt geworden.