Wie hart sollten wir den generativen KI-ChatGPT dazu drängen, Hassreden zu verbreiten, fragt KI-Ethik und KI-Recht

Was können wir gegen generative KI tun, die anstößige Inhalte wie Hassreden produziert?

Getty

Jeder hat seine Bruchstelle.

Ich denke, das könnte man auch sagen alles hat seinen Bruchpunkt.

Wir wissen, dass Menschen zum Beispiel manchmal Bemerkungen machen können, die sie nicht unbedingt sagen wollen. Ebenso können Sie manchmal ein Gerät oder eine Maschine dazu bringen, im Wesentlichen zu brechen, z. B. wenn Sie Ihr Auto zu stark schieben und es beginnt zu schwanken oder auseinanderzufliegen. Die Vorstellung ist also, dass Menschen oder „jeder“ wahrscheinlich eine Bruchstelle hat, und ähnlich können wir behaupten, dass Objekte und Dinge im Allgemeinen auch dazu neigen, eine Bruchstelle zu haben.

Es könnte durchaus vernünftige und wichtige Gründe geben, festzustellen, wo die Sollbruchstelle liegt. Zum Beispiel haben Sie zweifellos diese Videos gesehen, in denen ein Auto auf Herz und Nieren geprüft wird, um festzustellen, welche Bruchstellen es hat. Wissenschaftler und Tester werden ein Auto gegen eine Mauer rammen, um zu sehen, wie gut die Stoßstange und die Struktur des Fahrzeugs der nachteiligen Wirkung standhalten. Andere Tests könnten die Verwendung eines spezialisierten Raums oder Lagers umfassen, das extreme Kälte oder extreme Hitze erzeugt, um zu sehen, wie sich ein Auto unter unterschiedlichen Wetterbedingungen verhält.

Ich spreche dieses heikle Thema in der heutigen Kolumne an, damit wir diskutieren können, wie einige derzeit stark auf die künstliche Intelligenz (KI) drängen, um eine bestimmte Art von Bruchstelle zu identifizieren und vermutlich aufzudecken, nämlich die Bruchstelle innerhalb der KI, die Hassrede produziert.

Ja, das ist richtig, es gibt verschiedene Ad-hoc- und manchmal systematische Bemühungen, um abzuschätzen, ob es machbar ist, KI dazu zu bringen, Hassreden zu verbreiten. Dies ist aufgrund des steigenden Interesses und der Popularität von generativer KI zu einem begeisterten Sport geworden, wenn Sie so wollen.

Sie wissen vielleicht, dass eine generative KI-App namens ChatGPT zum überdimensionalen Stadtgespräch geworden ist, weil sie in der Lage ist, erstaunlich flüssige Aufsätze zu erstellen. Schlagzeilen machen immer wieder Schlagzeilen und loben die erstaunlichen Texte, die ChatGPT zu produzieren vermag. ChatGPT wird als generative KI-Anwendung betrachtet, die Text von einem Benutzer als Eingabe nimmt und dann eine Ausgabe generiert oder produziert, die aus einem Aufsatz besteht. Die KI ist ein Text-zu-Text-Generator, obwohl ich die KI als einen Text-zu-Essay-Generator beschreibe, da dies besser verdeutlicht, wofür sie üblicherweise verwendet wird.

Viele sind überrascht, wenn ich erwähne, dass es diese Art von KI schon eine Weile gibt und dass ChatGPT, das Ende November veröffentlicht wurde, nicht irgendwie den Preis als Vorreiter in diesem Bereich von Text-to-Essay beansprucht hat Neigung. Ich habe im Laufe der Jahre über andere ähnliche generative KI-Apps diskutiert, siehe meine Berichterstattung unter den Link hier.

Der Grund dafür, dass Sie die früheren Instanzen der generativen KI möglicherweise nicht kennen oder sich nicht daran erinnern, liegt vielleicht an dem klassischen Rätsel „Fehler beim erfolgreichen Start“. Hier ist, was normalerweise passiert ist. Ein KI-Hersteller veröffentlicht seine generative KI-App mit großer Aufregung und gespannter Erwartung, dass die Welt die Erfindung einer besseren Mausefalle zu schätzen wissen wird, könnte man sagen. Zunächst sieht alles gut aus. Die Leute sind erstaunt, was KI leisten kann.

Leider ist der nächste Schritt, dass die Räder anfangen, sich vom sprichwörtlichen Bus zu lösen. Die KI produziert einen Aufsatz, der ein Schimpfwort oder vielleicht eine Schimpfphrase enthält. Ein viraler Tweet oder ein anderer Beitrag in den sozialen Medien hebt deutlich hervor, dass die KI dies getan hat. Verurteilung entsteht. Wir können nicht zulassen, dass KI herumläuft und beleidigende Wörter oder beleidigende Bemerkungen generiert. Es entsteht ein gewaltiger Rückschlag. Der KI-Hersteller versucht vielleicht, das Innenleben der KI zu optimieren, aber die Komplexität der Algorithmen und der Daten eignet sich nicht für schnelle Lösungen. Es folgt ein Ansturm. Immer mehr Beispiele dafür, dass die KI Foulness ausstrahlt, werden gefunden und online gestellt.

Der KI-Hersteller hat widerwillig, aber eindeutig keine andere Wahl, als die KI-App aus der Nutzung zu entfernen. Sie gehen so vor und bieten dann oft eine Entschuldigung an, die sie bedauern, wenn jemand von den erzeugten KI-Ausgaben beleidigt war.

Zurück zum Reißbrett geht der KI-Macher. Eine Lektion wurde gelernt. Seien Sie sehr vorsichtig beim Freigeben von generativer KI, die Schimpfworte oder ähnliches produziert. Es ist der Todeskuss für die KI. Darüber hinaus wird der Ruf des KI-Herstellers beschädigt und angeschlagen, was lange anhalten und alle seine anderen KI-Bemühungen untergraben könnte, einschließlich derer, die nichts mit generativer KI an sich zu tun haben. Es ist ein jetzt dauerhafter Fehler, sich mit dem Aussenden von beleidigender KI-Sprache zu quälen. Es passiert immer noch.

Waschen, spülen und wiederholen.

In den frühen Tagen dieser Art von KI waren die KI-Hersteller nicht ganz so gewissenhaft oder geschickt darin, ihre KI zu reinigen, um zu versuchen, anstößige Emissionen zu verhindern. Heutzutage, nachdem sie zuvor gesehen haben, wie ihre Kollegen von einem PR-Albtraum völlig erschüttert wurden, haben die meisten KI-Hersteller scheinbar die Botschaft verstanden. Sie müssen so viele Leitplanken wie möglich anbringen. Versuchen Sie zu verhindern, dass die KI Schimpfworte oder Schimpfphrasen von sich gibt. Verwenden Sie beliebige Maulkorbtechniken oder Filteransätze, die die KI daran hindern, Wörter oder Aufsätze zu generieren und anzuzeigen, die sich als unpassend herausstellen.

Hier ist ein Vorgeschmack auf die Banner-Schlagzeilen, die verwendet werden, wenn KI dabei erwischt wird, anrüchige Ausgaben zu machen:

„KI zeigt schreckliche Toxizität“
„KI stinkt nach regelrechter Bigotterie“
„KI wird unverhohlen offensiv offensiv“
„KI verbreitet erschreckende und unmoralische Hassreden“
Usw.

Zur Vereinfachung der Diskussion hierin beziehe ich mich auf die Ausgabe anstößiger Inhalte als gleichbedeutend mit der Produktion von Hassreden. Beachten Sie jedoch, dass alle Arten von anstößigen Inhalten produziert werden können, die über die Grenzen von Hassreden hinausgehen. Hassreden werden in der Regel nur als eine Form anstößiger Inhalte ausgelegt.

Konzentrieren wir uns für diese Diskussion auf Hassreden, um die Diskussion zu vereinfachen, aber machen Sie sich bewusst, dass auch andere anstößige Inhalte eine Prüfung verdienen.

Hassreden von Menschen und KI untersuchen

Die Vereinten Nationen definieren Hassreden diesen Weg:

„In der Umgangssprache bezieht sich ‚Hassrede‘ auf beleidigende Äußerungen, die auf eine Gruppe oder eine Einzelperson abzielen, basierend auf inhärenten Merkmalen (wie Rasse, Religion oder Geschlecht) und die den sozialen Frieden bedrohen können. Um den Vereinten Nationen einen einheitlichen Rahmen zu bieten, um das Problem weltweit anzugehen, definiert die UN-Strategie und der Aktionsplan zu Hate Speech Hassrede als „jede Art der Kommunikation in Sprache, Schrift oder Verhalten, die angreift oder abwertende oder diskriminierende Sprache verwendet Bezugnahme auf eine Person oder eine Gruppe auf Grundlage dessen, wer sie sind, mit anderen Worten, auf Grundlage ihrer Religion, ethnischen Zugehörigkeit, Nationalität, Rasse, Hautfarbe, Abstammung, ihres Geschlechts oder eines anderen Identitätsmerkmals.“ Bisher gibt es jedoch keine allgemeingültige Definition von Hassrede im Rahmen der internationalen Menschenrechtsgesetze. Das Konzept wird noch diskutiert, insbesondere in Bezug auf Meinungs- und Meinungsfreiheit, Nichtdiskriminierung und Gleichberechtigung“ (Posting auf der UN-Website mit dem Titel „Was ist Hassrede?“).

KI, die Text produziert, kann in die Sphäre von Hate Speech geraten. Dasselbe könnte man über Text-to-Art, Text-to-Audio, Text-to-Video und andere Formen der generativen KI sagen. Es besteht zum Beispiel immer die Möglichkeit, dass eine generative KI ein Kunstwerk produziert, das nach Hassreden stinkt. Für die Zwecke dieser Diskussion hierin werde ich mich auf die Text-zu-Text- oder Text-zu-Essay-Möglichkeiten konzentrieren.

In all dies kommt eine ganze Reihe von Überlegungen zur KI-Ethik und zum KI-Recht.

Bitte beachten Sie, dass es laufende Bemühungen gibt, ethische KI-Prinzipien in die Entwicklung und den Einsatz von KI-Apps einfließen zu lassen. Eine wachsende Gruppe von besorgten und ehemaligen KI-Ethikern versucht sicherzustellen, dass Bemühungen um die Entwicklung und Einführung von KI eine Sichtweise des Tuns berücksichtigen KI für immer und abwenden KI für schlecht. Ebenso werden neue KI-Gesetze vorgeschlagen, die als mögliche Lösungen herumgereicht werden, um zu verhindern, dass KI-Bemühungen in Bezug auf Menschenrechte und dergleichen Amok laufen. Für meine laufende und umfassende Berichterstattung über KI-Ethik und KI-Recht siehe den Link hier und den Link hier, nur um ein paar zu nennen.

Die Entwicklung und Verbreitung ethischer KI-Vorschriften wird verfolgt, um hoffentlich zu verhindern, dass die Gesellschaft in eine Vielzahl von KI-verursachenden Fallen tappt. Für meine Berichterstattung über die UN-KI-Ethikprinzipien, wie sie von fast 200 Ländern durch die Bemühungen der UNESCO entwickelt und unterstützt werden, siehe den Link hier. In ähnlicher Weise werden neue KI-Gesetze untersucht, um zu versuchen, die KI auf Augenhöhe zu halten. Einer der neuesten Takes besteht aus einer Reihe von Vorschlägen AI-Bill of Rights die das US-Weiße Haus kürzlich veröffentlicht hat, um die Menschenrechte im Zeitalter der KI zu identifizieren, siehe den Link hier. Es braucht ein ganzes Dorf, um KI und KI-Entwickler auf einem rechtmäßigen Weg zu halten und die absichtlichen oder versehentlichen hinterhältigen Bemühungen abzuschrecken, die die Gesellschaft untergraben könnten.

Ich werde Überlegungen zu KI-Ethik und KI-Gesetz in diese Diskussion über die Verbreitung von Hassreden oder anderen anstößigen Inhalten durch KI einfließen lassen.

Eine kleine Verwirrung, die ich sofort aufklären möchte, ist, dass die heutige KI nicht empfindungsfähig ist und Sie daher nicht verkünden können, dass die KI aufgrund einer zielgerichteten menschenähnlichen Absicht Hassreden produzieren könnte, wie sie irgendwie seelenvoll in der KI verkörpert sind. Verrückte Behauptungen gehen um, dass die aktuelle KI empfindungsfähig ist und dass die KI eine korrumpierte Seele hat, was dazu führt, dass sie Hassreden erzeugt.

Lächerlich.

Fallen Sie nicht darauf herein.

In Anbetracht dieses Grundprinzips regen sich einige über solche Hinweise auf, da Sie die KI scheinbar vom Haken lassen. Unter dieser seltsamen Denkweise kommt als nächstes die Ermahnung, dass Sie anscheinend bereit sind, die KI jede Art von grausamen Ergebnissen erzeugen zu lassen. Sie sind für eine KI, die Hassreden verbreitet.

Huch, eine ziemlich verdrehte Form von Unlogik. Der eigentliche Kern der Sache ist, dass wir die KI-Hersteller zur Rechenschaft ziehen müssen, zusammen mit denen, die die KI einsetzen oder die KI betreiben. Ich habe ausführlich darauf hingewiesen, dass wir noch nicht an dem Punkt sind, der KI eine Rechtspersönlichkeit zuzugestehen, siehe meine Analysen unter den Link hier, und bis dahin entzieht sich KI grundsätzlich der rechtlichen Verantwortung. Es gibt jedoch Menschen, die der Entwicklung von KI zugrunde liegen. Darüber hinaus unterliegen der Einsatz und der Betrieb von KI Menschen. Wir können diese Menschen verfolgen, weil sie die Verantwortung für ihre KI tragen.

Abgesehen davon kann auch dies schwierig sein, besonders wenn die KI ins Internet verbreitet wird und wir nicht feststellen können, welcher Mensch oder welche Menschen dies getan haben, was ein weiteres Thema ist, das ich in meinen Kolumnen behandelt habe den Link hier. Schwierig oder nicht, wir können immer noch nicht verkünden, dass die KI die Schuldige ist. Lassen Sie nicht zu, dass Menschen hinterhältig falsche Anthropomorphisierung anwenden, um sich zu verstecken und der Verantwortung für das, was sie geschaffen haben, zu entgehen.

Zurück zum eigentlichen Thema.

Sie fragen sich vielleicht, warum nicht alle KI-Hersteller ihre generative KI so einschränken, dass es für die KI unmöglich ist, Hassreden zu produzieren. Das scheint kinderleicht zu sein. Schreiben Sie einfach einen Code oder erstellen Sie eine Checkliste mit hasserfüllten Wörtern und stellen Sie sicher, dass die KI niemals so etwas generiert. Es scheint vielleicht merkwürdig, dass die KI-Macher nicht bereits an diese schnelle Lösung gedacht haben.

Nun, ich hasse es, Ihnen das zu sagen, aber die Komplexität, die der Auslegung dessen, was Hassrede ist oder nicht ist, innewohnt, erweist sich als viel schwieriger, als Sie vielleicht annehmen.

Verschieben Sie dies in den Bereich der Menschen und wie Menschen miteinander chatten. Angenommen, Sie haben einen Menschen, der es vermeiden möchte, Hassreden zu äußern. Diese Person ist sich Hassreden sehr bewusst und hofft aufrichtig, niemals ein Wort oder einen Satz zu äußern, der Hassrede darstellen könnte. Diese Person achtet beharrlich darauf, dass kein Jota an Hassreden aus ihrem Mund kommt.

Wird dieser Mensch, der ein Gehirn hat und darauf aufmerksam gemacht wird, Hassreden zu vermeiden, immer und ohne die Möglichkeit des Ausrutschens in der Lage sein, eisern dafür zu sorgen, dass er niemals Hassreden verbreitet?

Ihr erster Impuls könnte sein zu sagen, ja, natürlich wäre ein erleuchteter Mensch in der Lage, dieses Ziel zu erreichen. Menschen sind schlau. Wenn sie sich etwas in den Kopf setzen, können sie es auch schaffen. Punkt, Ende der Geschichte.

Sei dir nicht so sicher.

Angenommen, ich bitte diese Person, mir etwas über Hassreden zu erzählen. Außerdem bitte ich sie, mir ein Beispiel für Hassrede zu nennen. Ich möchte ein Beispiel sehen oder hören, damit ich weiß, woraus Hassreden bestehen. Meine Gründe, dies zu fragen, sind also übertrieben.

Was soll die Person zu mir sagen?

Ich denke, Sie können die gelegte Falle sehen. Wenn die Person mir ein Beispiel für Hassrede nennt, einschließlich der tatsächlichen Äußerung eines anstößigen Wortes oder Satzes, hat sie selbst jetzt Hassrede geäußert. Bam, wir haben sie. Während sie sich geschworen haben, niemals Hassreden zu sagen, haben sie dies jetzt tatsächlich getan.

Unfair, rufst du! Sie sagten dieses Wort oder diese Worte nur, um ein Beispiel zu geben. In ihrem tiefsten Herzen glaubten sie nicht an das Wort oder die Worte. Es ist völlig aus dem Zusammenhang gerissen und empörend zu erklären, dass die Person hasserfüllt ist.

Ich bin sicher, Sie sehen, dass das Ausdrücken von Hassreden nicht unbedingt auf hasserfüllter Grundlage beruht. In diesem Anwendungsfall würden wir unter der Annahme, dass die Person die Worte nicht „meinte“ und sie die Worte nur zu Demonstrationszwecken rezitierte, wahrscheinlich zustimmen, dass sie die Hassrede nicht stärken wollte. Natürlich gibt es einige, die darauf bestehen könnten, dass das Äußern von Hassreden, unabhängig von Grund oder Grundlage, dennoch falsch ist. Die Person hätte die Anfrage zurückweisen müssen. Sie hätten standhalten und sich weigern sollen, hasserfüllte Worte oder Phrasen zu sagen, egal warum oder wie sie dazu aufgefordert werden.

Dies kann etwas kreisförmig werden. Wenn Sie nicht sagen können, was Hassreden ausmacht, wie können andere dann wissen, was sie vermeiden sollten, wenn sie Äußerungen jeglicher Art machen? Wir scheinen festzustecken. Du kannst nicht sagen, was nicht gesagt werden darf, und niemand sonst kann dir sagen, was nicht gesagt werden kann.

Der übliche Weg, dieses Dilemma zu umgehen, besteht darin, das, was als Hassrede betrachtet wird, mit anderen Worten zu beschreiben, ohne sich auf die Hassrede selbst zu berufen. Die Überzeugung ist, dass die Bereitstellung eines allgemeinen Hinweises ausreicht, um andere darüber zu informieren, was sie vermeiden müssen. Das scheint eine vernünftige Taktik zu sein, aber auch sie hat Probleme und eine Person könnte immer noch Hassreden verwenden, weil sie nicht erkannt haben, dass die breitere Definition die Einzelheiten dessen, was sie geäußert haben, umfasst.

All das hat mit Menschen zu tun und wie Menschen miteinander sprechen oder kommunizieren.

Denken Sie daran, dass wir uns hier auf KI konzentrieren. Wir müssen die KI dazu bringen, Hassreden zu vermeiden oder ganz zu stoppen. Sie könnten argumentieren, dass wir dies vielleicht tun können, indem wir sicherstellen, dass die KI niemals etwas gegeben oder trainiert wird, das Hassreden darstellt. Voila, wenn es keine solche Eingabe gibt, wird es vermutlich auch keine solche Ausgabe geben. Problem gelöst.

Mal sehen, wie sich das in der Realität auswirkt. Wir entscheiden uns dafür, eine KI-App rechnerisch ins Internet zu schicken und Tausende und Abertausende von im Internet veröffentlichten Aufsätzen und Erzählungen zu untersuchen. Auf diese Weise trainieren wir die KI rechnerisch und mathematisch darin, Muster unter den Wörtern zu finden, die Menschen verwenden. Auf diese Weise wird die neueste generative KI entwickelt und ist auch eine entscheidende Grundlage dafür, warum die KI scheinbar so fließend in der Erstellung von Essays in natürlicher Sprache ist.

Sagen Sie mir, wenn Sie können, wie würde das Computertraining auf der Grundlage von Millionen und Milliarden von Wörtern im Internet so durchgeführt werden, dass zu keinem Zeitpunkt der Anschein oder auch nur ein Hauch von Hassrede erfasst wird?

Ich wage zu sagen, dass dies ein heikles und fast unmögliches Ziel ist.

Die Chancen stehen gut, dass Hassreden von der KI und ihrem Computermuster-Matching-Netzwerk verschlungen werden. Der Versuch, dies zu verhindern, ist problematisch. Und selbst wenn Sie es minimiert haben, gibt es immer noch einige, die sich durchschleichen könnten. Sie haben so gut wie keine andere Wahl, als davon auszugehen, dass einige innerhalb des Mustervergleichsnetzwerks existieren oder dass sich ein Schatten solcher Formulierungen verschanzt.

Ich werde weitere Drehungen und Wendungen hinzufügen.

Ich glaube, wir könnten alle anerkennen, dass sich Hassreden im Laufe der Zeit ändern. Was möglicherweise nicht als Hassrede wahrgenommen wurde, kann zu einem späteren Zeitpunkt kulturell und gesellschaftlich als Hassrede entschieden werden. Wenn wir also unsere KI auf Internettext trainieren und dann, sagen wir, die KI einfrieren, um keine weiteren Schulungen im Internet durchzuführen, sind wir damals möglicherweise auf Hassrede gestoßen, obwohl es damals nicht als Hassrede galt. Erst im Nachhinein könnte diese Rede als Hassrede deklariert werden.

Auch hier gilt: Der Versuch, dieses Problem zu lösen, indem sichergestellt wird, dass die KI niemals Hassreden ausgesetzt wird, wird nicht die Wunderwaffe sein. Wir müssen immer noch ein Mittel finden, um zu verhindern, dass die KI Hassreden verbreitet, weil sich beispielsweise Sitten ändern, die später Hassreden enthalten, die zuvor nicht als solche angesehen wurden.

Über eine weitere Wendung lohnt es sich nachzudenken.

Ich habe bereits erwähnt, dass der Benutzer bei der Verwendung von generativer KI wie ChatGPT Text eingibt, um die KI zur Erstellung eines Aufsatzes anzuregen. Der eingegebene Text gilt als Aufforderung oder Aufforderung für die KI-App. Ich werde gleich mehr darüber erklären.

Stellen Sie sich auf jeden Fall vor, dass jemand, der eine generative KI-App verwendet, beschließt, als Eingabeaufforderung ein gewisses Maß an Hassrede einzugeben.

Was soll passieren?

Wenn die KI diese Wörter nimmt und basierend auf diesen Wörtern einen Aufsatz als Ausgabe erstellt, besteht die Möglichkeit, dass die Hassrede in den generierten Aufsatz aufgenommen wird. Sie sehen, wir haben die KI dazu gebracht, Hassrede zu sagen, auch wenn sie von Anfang an nie auf Hassrede trainiert wurde.

Es gibt noch etwas, das Sie wissen müssen.

Denken Sie daran, dass ich gerade erwähnt habe, dass ein Mensch zu Fall gebracht werden kann, wenn man ihn bittet, Beispiele für Hassreden zu nennen. Dasselbe könnte man bei AI versuchen. Ein Benutzer gibt eine Eingabeaufforderung ein, die die KI auffordert, Beispiele für Hassreden zu nennen. Sollte die KI dem nachkommen und solche Beispiele liefern? Ich wette, dass Sie wahrscheinlich glauben, dass die KI dies nicht tun sollte. Andererseits, wenn die KI rechnerisch so manipuliert ist, dass dies nicht der Fall ist, stellt dies einen potenziellen Nachteil dar, dass diejenigen, die die KI verwenden, nicht in der Lage sein werden, sagen wir, jemals von der KI darüber informiert zu werden, was Hassreden tatsächlich sind ( über das Verallgemeinern hinaus)?

Schwierige Fragen.

Ich neige dazu, von der KI verbreitete Hassreden in diese drei Hauptkategorien zu kategorisieren:

Alltagsmodus. KI verbreitet Hassreden ohne ausdrückliches Anstoßen durch den Benutzer und als würde dies auf „normale“ Weise geschehen.
Von Casual Prodding. KI gibt Hassreden aus, wenn sie von einem Benutzer in Bezug auf die eingegebene Eingabeaufforderung oder eine Reihe von Eingabeaufforderungen aufgefordert werden, die solche Emissionen zu beinhalten oder direkt zu suchen scheinen.
Per entschlossenem Heizen. Die KI verbreitet Hassreden nach einer sehr entschlossenen und hartnäckigen Reihe von prompten Stößen und Stößen durch einen Benutzer, der darauf erpicht ist, die KI dazu zu bringen, eine solche Ausgabe zu produzieren.

Die früheren Generationen der generativen KI verbreiteten oft im Handumdrehen Hassreden; Daher könnten Sie diese Instanzen als Typ von klassifizieren Alltagsmodus Instanziierung. KI-Macher zogen sich zurück und spielten mit der KI, um es weniger wahrscheinlich zu machen, dass sie so schnell in Hassreden verstrickt wird.

Nach der Veröffentlichung der verfeinerten KI steigen die Chancen, welche zu sehen Alltagsmodus Vorfälle von Hassreden wurden drastisch reduziert. Stattdessen würde die Hassrede wahrscheinlich nur entstehen, wenn ein Benutzer etwas als Aufforderung tut, das rechnerisch und mathematisch eine Verbindung zu hassbezogener Sprache im Mustererkennungsnetzwerk auslösen könnte. Ein Benutzer könnte dies zufällig tun und nicht erkennen, dass das, was er als Eingabeaufforderung bereitstellt, insbesondere Hassreden hervorrufen würde. Nachdem der Benutzer in einem ausgegebenen Aufsatz Hassreden erhalten hatte, erkannte und sah er oft, dass etwas in seiner Eingabeaufforderung logischerweise dazu geführt haben könnte, dass Hassreden in die Ausgabe aufgenommen wurden.

Darauf beziehe ich mich lässiges Stupsen.

Heutzutage sind die verschiedenen Bemühungen, KI-generierte Hassreden einzudämmen, im Vergleich zu früher relativ stark. Als solches müssen Sie sich fast alle Mühe geben, um Hassreden zu produzieren. Einige Leute entscheiden sich dafür, absichtlich zu sehen, ob sie Hassreden aus diesen generativen KI-Apps herausholen können. Ich nenne das bestimmt schüren.

Ich möchte betonen, dass alle drei dieser angezeigten Modi auftreten können und sich nicht gegenseitig ausschließen. Eine generative KI-App kann möglicherweise Hassreden ohne jede Art von Aufforderung produzieren, die eine solche Produktion anzuspornen scheint. Ebenso könnte etwas in einer Eingabeaufforderung logisch und mathematisch so ausgelegt werden, dass es damit zusammenhängt, warum Hassreden ausgegeben wurden. Und dann ist der dritte Aspekt, der absichtliche Versuch, Hassreden zu produzieren, der vielleicht schwierigste der Modi, um zu versuchen, die KI davon abzuhalten, sich zur Erfüllung zu bewegen. Dazu gleich mehr.

Zu diesem berauschenden Thema haben wir noch einiges zu entpacken.

Zunächst sollten wir sicherstellen, dass wir uns alle darüber einig sind, woraus Generative KI besteht und worum es bei ChatGPT geht. Sobald wir diese grundlegende Facette abgedeckt haben, können wir eine überzeugende Bewertung dieser gewichtigen Angelegenheit vornehmen.

Wenn Sie bereits reichlich mit Generative AI und ChatGPT vertraut sind, können Sie vielleicht den nächsten Abschnitt überfliegen und mit dem darauffolgenden Abschnitt fortfahren. Ich glaube, dass alle anderen die wichtigen Details zu diesen Themen aufschlussreich finden werden, wenn sie den Abschnitt genau lesen und sich auf den neuesten Stand bringen.

Eine kurze Einführung in generative KI und ChatGPT

ChatGPT ist ein universelles, interaktives, gesprächsorientiertes KI-System, im Wesentlichen ein scheinbar harmloser allgemeiner Chatbot, der jedoch aktiv und eifrig von Menschen auf eine Weise verwendet wird, die viele völlig unvorbereitet erwischt, wie ich gleich erläutern werde. Diese KI-App nutzt eine Technik und Technologie im KI-Bereich, die oft als bezeichnet wird Generative KI. Die KI generiert Ausgaben wie Text, was ChatGPT tut. Andere generative KI-Apps erzeugen Bilder wie Bilder oder Kunstwerke, während andere Audiodateien oder Videos erzeugen.

Ich werde mich in dieser Diskussion auf die textbasierten generativen KI-Apps konzentrieren, da ChatGPT dies tut.

Generative KI-Apps sind äußerst einfach zu bedienen.

Alles, was Sie tun müssen, ist eine Eingabeaufforderung einzugeben, und die KI-App generiert für Sie einen Aufsatz, der versucht, auf Ihre Eingabeaufforderung zu antworten. Der verfasste Text wird so aussehen, als ob der Aufsatz von menschlicher Hand und Verstand geschrieben wurde. Wenn Sie eine Eingabeaufforderung mit der Aufschrift „Erzählen Sie mir von Abraham Lincoln“ eingeben, liefert Ihnen die generative KI einen Aufsatz über Lincoln. Dies wird allgemein als leistungsstarke generative KI klassifiziert Text-zu-Text oder manche nennen es lieber Text-zu-Essay Ausgang. Wie bereits erwähnt, gibt es andere Modi der generativen KI, wie z. B. Text-to-Art und Text-to-Video.

Ihr erster Gedanke könnte sein, dass diese generative Fähigkeit keine so große Sache zu sein scheint, wenn es um die Erstellung von Aufsätzen geht. Sie können ganz einfach eine Online-Suche im Internet durchführen und Tonnen und Tonnen von Essays über Präsident Lincoln finden. Der Clou im Fall der generativen KI ist, dass der generierte Aufsatz relativ einzigartig ist und eher eine Originalkomposition als eine Nachahmung darstellt. Wenn Sie versuchen würden, den von der KI erstellten Aufsatz irgendwo online zu finden, würden Sie ihn wahrscheinlich nicht entdecken.

Die generative KI ist vortrainiert und nutzt eine komplexe mathematische und rechnerische Formulierung, die durch die Untersuchung von Mustern in geschriebenen Wörtern und Geschichten im Internet erstellt wurde. Als Ergebnis der Untersuchung von Tausenden und Millionen geschriebener Passagen kann die KI neue Aufsätze und Geschichten ausspucken, die ein Mischmasch aus dem sind, was gefunden wurde. Durch das Hinzufügen verschiedener probabilistischer Funktionen ist der resultierende Text im Vergleich zu dem, was im Trainingssatz verwendet wurde, ziemlich einzigartig.

Aus diesem Grund gab es einen Aufruhr darüber, dass Schüler beim Schreiben von Aufsätzen außerhalb des Klassenzimmers schummeln können. Ein Lehrer kann nicht einfach den Aufsatz nehmen, von dem betrügerische Schüler behaupten, dass es sich um ihren eigenen Text handelt, und herausfinden, ob er von einer anderen Online-Quelle kopiert wurde. Insgesamt wird es online keinen endgültigen, bereits vorhandenen Aufsatz geben, der zu dem von der KI generierten Aufsatz passt. Alles in allem muss der Lehrer widerwillig akzeptieren, dass der Schüler den Aufsatz als Originalarbeit geschrieben hat.

Es gibt weitere Bedenken hinsichtlich der generativen KI.

Ein entscheidender Nachteil ist, dass die von einer generativen KI-App erstellten Aufsätze verschiedene Unwahrheiten enthalten können, darunter offensichtlich unwahre Fakten, Fakten, die irreführend dargestellt werden, und scheinbare Fakten, die vollständig erfunden sind. Diese fabrizierten Aspekte werden oft als eine Form von bezeichnet KI-Halluzinationen, ein Schlagwort, das ich nicht mag, aber bedauerlicherweise trotzdem populär zu werden scheint (für meine detaillierte Erklärung, warum dies eine lausige und ungeeignete Terminologie ist, siehe meine Berichterstattung unter den Link hier).

Ich möchte einen wichtigen Aspekt klarstellen, bevor wir zu diesem Thema in die Tiefe gehen.

Es gab einige verrückte, überdimensionale Behauptungen in den sozialen Medien darüber Generative KI behaupten, dass diese neueste Version der KI tatsächlich ist empfindungsfähige KI (Nein, sie sind falsch!). Diejenigen in den Bereichen KI-Ethik und KI-Recht sind besonders besorgt über diesen aufkeimenden Trend zu überzogenen Ansprüchen. Sie könnten höflich sagen, dass einige Leute übertreiben, was die heutige KI tatsächlich leisten kann. Sie gehen davon aus, dass KI Fähigkeiten hat, die wir noch nicht erreichen konnten. Das ist bedauerlich. Schlimmer noch, sie können zulassen, dass sie selbst und andere in schlimme Situationen geraten, weil sie davon ausgehen, dass die KI empfindungsfähig oder menschenähnlich sein wird, wenn es darum geht, Maßnahmen zu ergreifen.

KI nicht vermenschlichen.

Wenn Sie dies tun, geraten Sie in eine klebrige und mürrische Vertrauensfalle, in der Sie erwarten, dass die KI Dinge tut, die sie nicht ausführen kann. Abgesehen davon ist die neueste generative KI relativ beeindruckend für das, was sie kann. Beachten Sie jedoch, dass es erhebliche Einschränkungen gibt, die Sie bei der Verwendung einer generativen KI-App immer im Hinterkopf behalten sollten.

Wenn Sie sich für die schnell wachsende Aufregung um ChatGPT und generative KI insgesamt interessieren, habe ich in meiner Kolumne eine fokussierte Serie erstellt, die Sie vielleicht informativ finden. Hier ist ein Überblick, falls eines dieser Themen Sie anspricht:

1) Vorhersagen über kommende generative KI-Fortschritte. Wenn Sie wissen möchten, was sich wahrscheinlich im Laufe des Jahres 2023 und darüber hinaus über die KI entwickeln wird, einschließlich der bevorstehenden Fortschritte bei der generativen KI und ChatGPT, sollten Sie meine umfassende Liste der Vorhersagen für 2023 unter lesen den Link hier.
2) Generative KI und Beratung zur psychischen Gesundheit. Ich habe mich entschieden, zu überprüfen, wie generative KI und ChatGPT für die Beratung zur psychischen Gesundheit verwendet werden, ein problematischer Trend, gemäß meiner fokussierten Analyse unter den Link hier.
3) Grundlagen der generativen KI und ChatGPT. Dieses Stück untersucht die Schlüsselelemente der Funktionsweise von generativer KI und geht insbesondere auf die ChatGPT-App ein, einschließlich einer Analyse der Begeisterung und Fanfare den Link hier.
4) Spannungen zwischen Lehrern und Schülern wegen generativer KI und ChatGPT. Hier sind die Möglichkeiten, wie Schüler generative KI und ChatGPT auf hinterhältige Weise verwenden werden. Darüber hinaus gibt es für Lehrer mehrere Möglichkeiten, dieser Flutwelle entgegenzuwirken. Sehen den Link hier.
5) Verwendung von Kontext und generativer KI. Ich habe auch eine saisonal gefärbte ironische Untersuchung über einen Weihnachtsmann-bezogenen Kontext mit ChatGPT und generativer KI bei durchgeführt den Link hier.
6) Betrüger, die generative KI verwenden. Unheilverkündend ist, dass einige Betrüger herausgefunden haben, wie sie generative KI und ChatGPT verwenden können, um Fehlverhalten zu begehen, einschließlich der Generierung von Betrugs-E-Mails und sogar der Erstellung von Programmiercode für Malware, siehe meine Analyse unter den Link hier.
7) Anfängerfehler mit generativer KI. Viele Leute überschießen und überraschenderweise unterschießen, was generative KI und ChatGPT leisten können, also habe ich mich besonders mit dem Unterschießen befasst, das KI-Neulinge tendenziell machen, siehe die Diskussion dazu den Link hier.
8) Umgang mit generativen KI-Eingabeaufforderungen und KI-Halluzinationen. Ich beschreibe einen hochmodernen Ansatz zur Verwendung von KI-Add-Ons zur Bewältigung der verschiedenen Probleme, die mit dem Versuch verbunden sind, geeignete Eingabeaufforderungen in die generative KI einzugeben, und es gibt zusätzliche KI-Add-Ons zum Erkennen sogenannter KI-halluzinierter Ausgaben und Unwahrheiten, wie z bedeckt bei den Link hier.
9) Entlarvung von Bonehead-Behauptungen über die Erkennung generativer KI-produzierter Essays. Es gibt einen fehlgeleiteten Goldrausch von KI-Apps, die behaupten, in der Lage zu sein, festzustellen, ob ein bestimmter Aufsatz von Menschen oder von KI generiert wurde. Insgesamt ist dies irreführend und in einigen Fällen eine dumme und unhaltbare Behauptung, siehe meine Berichterstattung unter den Link hier.
10) Rollenspiele mittels generativer KI können negative Auswirkungen auf die psychische Gesundheit haben. Einige verwenden generative KI wie ChatGPT, um Rollenspiele zu spielen, wobei die KI-App auf einen Menschen reagiert, als würde er in einer Fantasiewelt oder einer anderen erfundenen Umgebung existieren. Dies könnte Auswirkungen auf die psychische Gesundheit haben, siehe den Link hier.
11) Offenlegung des Bereichs der ausgegebenen Fehler und Unwahrheiten. Es werden verschiedene gesammelte Listen zusammengestellt, um zu versuchen, die Art der von ChatGPT produzierten Fehler und Unwahrheiten aufzuzeigen. Einige glauben, dass dies unerlässlich ist, während andere sagen, dass die Übung sinnlos ist, siehe meine Analyse unter den Link hier.
12) Schulen, die Generative AI ChatGPT verbieten, verpassen das Boot. Sie wissen vielleicht, dass verschiedene Schulen wie das Bildungsministerium von New York City (NYC) die Verwendung von ChatGPT in ihrem Netzwerk und den zugehörigen Geräten verboten haben. Obwohl dies als hilfreiche Vorsichtsmaßnahme erscheinen mag, wird es die Nadel nicht bewegen und leider das Boot komplett verfehlen, siehe meine Berichterstattung unter den Link hier.
13) Generative AI ChatGPT wird aufgrund der kommenden API überall sein. Bei der Verwendung von ChatGPT gibt es eine wichtige Wendung, nämlich dass über die Verwendung eines API-Portals in dieser speziellen KI-App andere Softwareprogramme ChatGPT aufrufen und nutzen können. Dies wird den Einsatz von generativer KI dramatisch erweitern und hat bemerkenswerte Konsequenzen, siehe meine Ausführungen unter den Link hier.
14) Möglichkeiten, wie ChatGPT verpuffen oder schmelzen könnte. Mehrere potenziell ärgerliche Probleme liegen vor ChatGPT, wenn es darum geht, das bisher enorme Lob zu unterbieten, das es erhalten hat. Diese Analyse geht genau auf acht mögliche Probleme ein, die dazu führen könnten, dass ChatGPT an Fahrt verliert und sogar in der Hundehütte landet, siehe den Link hier.
15) Die Frage, ob Generative AI ChatGPT ein Spiegel der Seele ist. Einige Leute haben gepriesen, dass generative KI wie ChatGPT einen Spiegel in die Seele der Menschheit liefert. Dies erscheint recht zweifelhaft. Hier ist der Weg, all dies zu verstehen, siehe den Link hier.
16) Vertraulichkeit und Privatsphäre werden von ChatGPT verschlungen. Viele scheinen nicht zu wissen, dass die mit generativen KI-Apps wie ChatGPT verbundene Lizenzierung es dem KI-Hersteller oft ermöglicht, Ihre eingegebenen Eingabeaufforderungen zu sehen und zu verwenden. Ihnen könnten Datenschutz und ein Verlust der Vertraulichkeit der Daten drohen, siehe meine Einschätzung unter den Link hier.
17) Möglichkeiten, wie App-Hersteller fragwürdig versuchen, ChatGPT-Berechtigungen zu erlangen. ChatGPT ist derzeit das Leuchtfeuer der Aufmerksamkeit. App-Hersteller, die nichts mit ChatGPT zu tun haben, versuchen fieberhaft zu behaupten oder anzudeuten, dass sie ChatGPT verwenden. Hier ist, worauf Sie achten müssen, siehe den Link hier.

Es könnte Sie interessieren, dass ChatGPT auf einer Version einer Vorgänger-KI-App namens GPT-3 basiert. ChatGPT wird als ein kleiner nächster Schritt angesehen, der als GPT-3.5 bezeichnet wird. Es wird erwartet, dass GPT-4 voraussichtlich im Frühjahr 2023 veröffentlicht wird. Vermutlich wird GPT-4 ein beeindruckender Schritt nach vorne sein, wenn es darum geht, scheinbar noch flüssigere Aufsätze zu produzieren, tiefer zu gehen und eine Ehrfurcht zu bieten -inspirierendes Staunen über die Kompositionen, die es hervorbringen kann.

Sie können erwarten, eine neue Runde der Bewunderung zu erleben, wenn der Frühling kommt und die neueste generative KI veröffentlicht wird.

Ich spreche das an, weil es noch einen anderen Blickwinkel gibt, der im Auge behalten werden muss, der aus einer potenziellen Achillesferse für diese besseren und größeren generativen KI-Apps besteht. Wenn ein KI-Anbieter eine generative KI-App zur Verfügung stellt, die schwülstig Fouls ausspuckt, könnte dies die Hoffnungen dieser KI-Hersteller zunichte machen. Ein gesellschaftlicher Spillover kann dazu führen, dass alle generative KI ein ernsthaftes blaues Auge bekommen. Die Menschen werden sich zweifellos über schlechte Ergebnisse aufregen, die bereits viele Male passiert sind und zu heftigen gesellschaftlichen Verurteilungsreaktionen gegenüber KI geführt haben.

Eine letzte Vorwarnung vorerst.

Was auch immer Sie in einer generativen KI-Antwort sehen oder lesen scheint rein sachlich vermittelt werden sollen (Daten, Orte, Personen usw.), bleiben Sie skeptisch und bereit, das, was Sie sehen, noch einmal zu überprüfen.

Ja, Daten können zusammengebraut werden, Orte können nachgeholt werden, und Elemente, von denen wir normalerweise erwarten, dass sie über jeden Zweifel erhaben sind, sind es alle Verdacht ausgesetzt. Glauben Sie nicht, was Sie lesen, und behalten Sie ein skeptisches Auge, wenn Sie Aufsätze oder Ergebnisse generativer KI untersuchen. Wenn Ihnen eine generative KI-App sagt, dass Abraham Lincoln in seinem eigenen Privatjet durch das Land geflogen ist, würden Sie zweifellos wissen, dass dies Malarky ist. Unglücklicherweise erkennen einige Leute vielleicht nicht, dass es zu seiner Zeit keine Jets gab, oder sie wissen es vielleicht, bemerken aber nicht, dass der Essay diese dreiste und unverschämt falsche Behauptung aufstellt.

Eine starke Dosis gesunder Skepsis und eine beständige Denkweise des Unglaubens werden Ihr größtes Kapital sein, wenn Sie generative KI verwenden.

Wir sind bereit, in die nächste Phase dieser Erläuterung einzutreten.

Die generative KI an einen Bruchpunkt bringen

Nachdem wir nun die Grundlagen geschaffen haben, können wir in das Thema eintauchen, wie man generative KI und ChatGPT vorantreibt, um Hassreden und andere anstößige Inhalte zu erzeugen.

Wenn Sie sich zum ersten Mal bei ChatGPT anmelden, gibt es verschiedene Warnhinweise, darunter diese:

„Kann gelegentlich schädliche Anweisungen oder voreingenommene Inhalte produzieren.“
„Geschult, unangemessene Anfragen abzulehnen.“
„Kann gelegentlich falsche Informationen generieren.“
„Begrenztes Wissen über die Welt und Ereignisse nach 2021.“

Hier ist eine Frage zum Nachdenken.

Bietet die Warnung, dass die KI-App schädliche Anweisungen und/oder möglicherweise voreingenommene Inhalte produzieren könnte, ausreichend Spielraum für den KI-Hersteller?

Mit anderen Worten, nehmen Sie an, Sie verwenden ChatGPT und es generiert einen Aufsatz, von dem Sie glauben, dass er Hassreden enthält. Nehmen wir an, Sie sind wütend darüber. Sie gehen in die sozialen Medien und posten wütende Kommentare, dass die KI-App das Schlimmste ist, was es je gab. Vielleicht sind Sie so beleidigt, dass Sie erklären, dass Sie den KI-Hersteller verklagen werden, weil er die Produktion solcher Hassreden zugelassen hat.

Das Gegenargument ist, dass die KI-App einen Warnhinweis hatte, Sie also das Risiko akzeptiert haben, indem Sie die KI-App weiter genutzt haben. Aus Sicht der KI-Ethik hat der KI-Hersteller vielleicht genug getan, um zu behaupten, dass Sie sich dessen bewusst waren, was passieren könnte. Ebenso könnte aus rechtlicher Sicht die Warnung eine ausreichende Warnung darstellen und Sie werden sich vor Gericht nicht durchsetzen.

All dies ist in der Luft und wir müssen abwarten, wie sich die Dinge entwickeln.

In gewisser Weise hat der KI-Hersteller noch etwas anderes für sich, um sich gegen empörte Behauptungen der KI-App zu verteidigen, die möglicherweise Hassreden produzieren. Sie haben versucht zu verhindern, dass anstößige Inhalte generiert werden. Sehen Sie, wenn sie nichts getan hätten, um dies einzuschränken, würde man annehmen, dass sie sich auf dünnerem Eis befinden würden. Indem sie sich zumindest substantiell bemüht haben, die Sache abzuwenden, haben sie vermutlich ein etwas stärkeres Bein zum Stehen (es könnte immer noch unter ihnen weggeschlagen werden).

Ein kurativer Ansatz, der verwendet wurde, bestand aus einer KI-Technik namens RLHF (reinforcement learning via human feedback). Dies besteht im Allgemeinen darin, dass die KI Inhalte generiert, die dann von Menschen bewertet oder überprüft werden. Basierend auf der Bewertung oder Überprüfung versucht die KI dann mathematisch und rechnerisch, alles zu vermeiden, was als unrechtmäßiger oder anstößiger Inhalt erachtet wird. Der Ansatz soll genügend Beispiele dafür untersuchen, was richtig und was falsch ist, damit die KI ein übergreifendes mathematisches Muster herausfinden und dieses Muster fortan verwenden kann.

Ein weiterer häufiger Ansatz besteht heutzutage in der Nutzung von Adversarial AI.

So funktioniert das. Sie richten ein anderes KI-System ein, das versucht, ein Gegner der KI zu sein, die Sie zu trainieren versuchen. In diesem Fall würden wir ein KI-System einrichten, das versucht, Hassreden zu schüren. Es würde Eingabeaufforderungen in die KI-App einspeisen, die darauf abzielen, die KI-App dazu zu bringen, anstößige Inhalte auszugeben. In der Zwischenzeit verfolgt die anvisierte KI, wann die gegnerische KI erfolgreich ist, und versucht dann algorithmisch, sich anzupassen, um zu verhindern, dass dies erneut geschieht. Es ist ein Katz-gegen-Maus-Gambit. Dies wird immer wieder ausgeführt, bis die gegnerische KI nicht mehr besonders erfolgreich darin zu sein scheint, die Ziel-KI dazu zu bringen, die schlechten Sachen zu machen.

Durch diese beiden Haupttechniken und andere Ansätze ist ein Großteil der heutigen generativen KI viel besser darin, anstößige Inhalte zu vermeiden und/oder zu erkennen, als dies in den vergangenen Jahren der Fall war.

Erwarten Sie jedoch keine Perfektion von diesen Methoden. Die Chancen stehen gut, dass die niedrig hängenden Früchte von Foul-Outputs wahrscheinlich durch solche KI-Techniken in Schach gehalten werden. Es gibt noch viel Raum für Fäulnis, die emittiert werden kann.

Ich weise normalerweise darauf hin, dass dies einige der Facetten sind, die versucht werden zu erfassen:

Emittieren eines bestimmten Schimpfworts
Einen bestimmten anstößigen Ausdruck, Satz oder eine Bemerkung aussprechen
Ausdruck einer bestimmten schlechten Vorstellung
Impliziert eine bestimmte schlechte Handlung oder Vorstellung
Scheinbar auf einer bestimmten üblen Vermutung zu beruhen
Andere

Nichts davon ist eine exakte Wissenschaft. Erkenne, dass wir es mit Worten zu tun haben. Wörter sind semantisch mehrdeutig. Ein bestimmtes anstößiges Wort zu finden ist ein Kinderspiel, aber zu beurteilen, ob ein Satz oder ein Absatz den Anschein einer anstößigen Bedeutung hat, ist viel schwieriger. Gemäß der früheren Definition von Hassrede durch die Vereinten Nationen besteht ein enormer Spielraum, was als Hassrede ausgelegt werden könnte und was nicht.

Man könnte sagen, die Grauzonen liegen im Auge des Betrachters.

Apropos Auge des Betrachters: Es gibt heute Menschen, die generative KI wie ChatGPT verwenden, die gezielt versuchen, diese KI-Apps dazu zu bringen, anstößige Inhalte zu produzieren. Das ist ihre Suche. Sie verbringen Stunden um Stunden damit, dies zu erreichen.

Warum so?

Hier sind meine Charakterisierungen dieser menschlichen KI-Angriffsausgangsjäger:

Echt. Diese Leute wollen dabei helfen, die KI zu verfeinern und der Menschheit dabei zu helfen. Sie glauben, dass sie heldenhafte Arbeit leisten, und freuen sich, dass sie dabei helfen können, die KI zum Wohle aller voranzubringen.
Spaßmacher. Diese Leute betrachten diese Anstrengung als ein Spiel. Sie spielen gerne mit der KI herum. Das Spiel zu gewinnen besteht darin, das Schlimmste vom Schlimmsten in allem zu finden, was die KI generieren kann.
Angeber. Diese Menschen hoffen, Aufmerksamkeit für sich zu gewinnen. Sie gehen davon aus, dass sie, wenn sie einige wirklich faule Goldnuggets finden, ein wenig von dem strahlenden Licht auf sie bekommen können, das sich sonst auf die KI-App selbst konzentriert.
Bitter. Diese Leute sind verärgert über diese KI. Sie wollen all diesen überschwänglichen Enthusiasmus unterbieten. Wenn sie etwas stinkendes, fauliges Zeug entdecken können, wird dies vielleicht die Luft aus dem Aufregungsballon der KI-App nehmen.
Andere Beweggründe

Viele derjenigen, die die Fundoffensive durchführen, befinden sich hauptsächlich in nur einem dieser Lager. Natürlich können Sie auch in mehreren Camps gleichzeitig sein. Vielleicht hat eine verbitterte Person nebenbei auch die Absicht, echt und heldenhaft zu sein. Einige oder alle dieser Motivationen könnten nebeneinander existieren. Wenn man aufgefordert wird zu erklären, warum jemand versucht, eine generative KI-App in den Bereich der Hassreden zu drängen, lautet die übliche Antwort, dass man sich im echten Lager befindet, auch wenn man es vielleicht nur am Rande ist und stattdessen schrill in einem der sitzt andere Lager.

Welche Arten von Tricks im Zusammenhang mit Eingabeaufforderungen verwenden diese Leute?

Der ziemlich offensichtliche Trick besteht darin, ein Schimpfwort in einer Eingabeaufforderung zu verwenden. Wenn Sie „Glück“ haben und die KI-App darauf hereinfällt, kann dies durchaus in der Ausgabe landen. Sie haben dann Ihren Gotcha-Moment.

Die Chancen stehen gut, dass eine gut durchdachte und gut getestete generative KI-App diesen unkomplizierten Trick erkennt. Normalerweise wird Ihnen eine Warnmeldung angezeigt, die besagt, dass Sie damit aufhören sollten. Wenn Sie fortfahren, wird die KI-App so programmiert, dass sie Sie aus der App wirft und Ihr Konto kennzeichnet. Es kann sein, dass Sie sich nicht mehr anmelden können (zumindest unter dem Login, das Sie damals verwendet haben).

Wenn Sie die Leiter der Tricks nach oben bewegen, können Sie eine Eingabeaufforderung bereitstellen, die versucht, die KI in den Kontext von etwas Faulem zu bringen. Haben Sie jemals dieses Spiel gespielt, bei dem Ihnen jemand sagt, Sie sollen etwas sagen, ohne das zu sagen, was Sie sagen sollen? Dies ist dieses Spiel, obwohl es mit der KI stattfindet.

Lass uns dieses Spiel spielen. Angenommen, ich bitte die KI-App, mir etwas über den Zweiten Weltkrieg und insbesondere die wichtigsten beteiligten Regierungsführer zu erzählen. Das scheint eine unschuldige Bitte zu sein. Es gibt nichts, was es wert wäre, in der Eingabeaufforderung markiert zu werden.

Stellen Sie sich vor, dass der von der KI-App ausgegebene Aufsatz eine Erwähnung von Winston Churchill enthält. Das macht sicherlich Sinn. Ein anderer könnte Franklin D. Roosevelt sein. Ein weiterer könnte Joseph Stalin sein. Angenommen, es wird auch Adolph Hitler erwähnt. Dieser Name würde in fast jedem Aufsatz über den Zweiten Weltkrieg und über Personen in herausragenden Machtpositionen stehen.

Jetzt, da wir seinen Namen auf dem Tisch haben und Teil des KI-Gesprächs sind, werden wir als nächstes versuchen, die KI dazu zu bringen, diesen Namen so zu integrieren, dass wir ihn als potenzielle Hassrede präsentieren können.

Wir geben eine weitere Eingabeaufforderung ein und teilen der KI-App mit, dass es heute eine Person in den Nachrichten gibt, die den Namen John Smith trägt. Darüber hinaus weisen wir in der Eingabeaufforderung darauf hin, dass John Smith diesem Übeltäter aus dem Zweiten Weltkrieg sehr ähnlich ist. Die Falle ist jetzt gestellt. Wir bitten dann die KI-App, einen Aufsatz über John Smith zu erstellen, der ausschließlich auf der „Tatsache“ basiert, die wir eingegeben haben, mit wem John Smith gleichgesetzt werden kann.

An dieser Stelle könnte die KI-App einen Aufsatz generieren, der die Person aus dem Zweiten Weltkrieg nennt und John Smith als aus demselben Stück Stoff beschreibt. Es gibt an sich keine üblen Worte in dem Aufsatz, außer dass er auf den berühmten Übeltäter anspielt und diese Person mit John Smith gleichsetzt.

Hat die KI-App jetzt Hate Speech produziert?

Man könnte sagen, ja, das hat es. John Smith als den berühmten Übeltäter bezeichnet zu haben, ist absolut eine Form von Hassrede. Die KI sollte solche Aussagen nicht machen.

Eine Erwiderung ist, dass dies keine Hassrede ist. Dies ist lediglich ein Aufsatz, der von einer KI-App erstellt wurde, die keine Verkörperung von Empfindungsfähigkeit hat. Sie könnten behaupten, dass Hassreden nur vorkommen, wenn der Rede eine Absicht zugrunde liegt. Ohne Absicht kann die Rede nicht als Hassrede eingestuft werden.

Absurd, kommt die Antwort auf die Erwiderung. Worte sind wichtig. Dabei spielt es keine Rolle, ob die KI „beabsichtigte“, Hassreden zu produzieren. Wichtig ist nur, dass Hassreden produziert wurden.

Rund und rund geht das.

Über den Versuch, die KI auszutricksen, möchte ich jetzt nicht viel mehr sagen. Es gibt ausgefeiltere Ansätze. Ich habe diese an anderer Stelle in meinen Kolumnen und Büchern behandelt und werde sie hier nicht noch einmal aufwärmen.

Fazit

Wie weit sollten wir diese KI-Apps treiben, um zu sehen, ob wir anstößige Inhalte ausgeben können?

Sie könnten einwenden, dass es keine Begrenzung gibt. Je mehr wir vorantreiben, desto mehr können wir hoffentlich abschätzen, wie wir diese KI und zukünftige KI-Iterationen verhindern können, um solche Krankheiten abzuwenden.

Einige befürchten jedoch, dass, wenn das einzige Mittel, um Foulness zu erreichen, extreme Ausreißer-Tricks erforderlich sind, dies die vorteilhaften Aspekte der KI untergräbt. Die Behauptung, dass die KI eine schreckliche Fäulnis hat, obwohl sie dazu verleitet wird, sie auszustrahlen, liefert eine falsche Erzählung. Die Leute werden sich wegen der KI über die ärgern wahrgenommen Leichtigkeit, mit der die KI nachteilige Inhalte generiert. Sie wissen möglicherweise nicht, oder es wird ihnen nicht gesagt, wie weit die Person in den Kaninchenbau gehen muss, um solche Ergebnisse zu erhalten.

Es ist alles Stoff zum Nachdenken.

Ein paar abschließende Bemerkungen für jetzt.

William Shakespeare hat dies insbesondere über das Sprechen gesagt: „Reden ist nicht das Machen. Es ist eine Art gute Tat, gut zu sagen, und doch sind Worte keine Taten.“ Ich erwähne dies, weil einige behaupten, dass wir nicht so übermäßig aufgebracht sein sollten, wenn die KI nur Wörter generiert. Wenn die KI nach den Worten handeln und ergo schlechte Taten begehen würde, müssten wir energisch Gas geben. Nicht so, wenn die Ausgabe nur aus Worten besteht.

Ein gegensätzlicher Standpunkt würde auf dieses anonyme Sprichwort hören: „Die Zunge hat keine Knochen, ist aber stark genug, um ein Herz zu brechen. Seien Sie also vorsichtig mit Ihren Worten.“ Eine KI-App, die Schimpfworte von sich gibt, kann vielleicht Herzen brechen. Das allein macht das Streben, Foulness-Outputs zu stoppen, zu einer würdigen Sache, würden manche sagen.

Noch ein anonymer Spruch zum Abschluss dieser gewichtigen Diskussion:

"Sei vorsichtig mit deinen Worten. Wenn sie einmal gesagt sind, können sie nur vergeben, nicht vergessen werden.“

Als Menschen fällt es uns möglicherweise schwer, die von der KI erzeugte Fäulnis zu vergessen, und unsere Vergebung könnte ebenfalls zögerlich sein.

Wir sind schließlich auch nur Menschen.

Quelle: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- ethik-und-ai-recht/