Rechtlicher Weltuntergang für generative KI-ChatGPT, wenn beim Plagiieren oder Verletzen erwischt wird, warnt KI-Ethik und KI-Recht

Zerreißt generative KI wie ChatGPT unsere Websites und von Menschen erstellte Inhalte? Sei dir bewusst, sei … [+] verärgert, sei bereit.

getty

Geben Sie Kredit, wo Kredit fällig ist.

Das ist ein bisschen weise Weisheit, an die Sie vielleicht erzogen wurden, um fest daran zu glauben. Tatsächlich nimmt man an oder stellt sich vor, dass wir uns alle einigermaßen einig sein könnten, dass dies eine faire und vernünftige Faustregel im Leben ist. Wenn jemand etwas tut, das Anerkennung verdient, stellen Sie sicher, dass er die verdiente Anerkennung bekommt.

Die konträre Sichtweise scheint viel weniger überzeugend zu sein.

Wenn jemand herumlief und darauf bestand, dass Kredit sollte nicht erkannt werden, wenn Ehre fällig ist, nun, Sie könnten behaupten, dass eine solche Überzeugung unhöflich und möglicherweise hinterhältig ist. Wir fühlen uns oft lautstark beunruhigt, wenn Kredite um jemanden betrogen werden, der etwas Bemerkenswertes geleistet hat. Ich wage zu behaupten, dass wir es besonders missbilligen, wenn andere fälschlicherweise die Arbeit anderer anerkennen. Das ist ein beunruhigender Doppelschlag. Der Person, die den Kredit hätte bekommen sollen, wird der Moment an der Sonne verweigert. Darüber hinaus genießt der Trickster das Rampenlicht, obwohl er uns fälschlicherweise dazu verleitet, unsere wohlwollenden Zuneigungen zu missbrauchen.

Warum all dieser Diskurs darüber, wie man sich auf die richtige Art und Weise Anerkennung verschafft und die falschen und verächtlichen Wege abwendet?

Denn wir scheinen vor einer ähnlichen misslichen Lage zu stehen, wenn es um die neuesten Entwicklungen in der künstlichen Intelligenz (KI) geht.

Ja, es wird behauptet, dass dies nachweislich über eine Art von KI geschieht, die als bekannt ist Generative KI. Es gibt eine Menge Händeringen, dass die generative KI, die heißeste KI in den Nachrichten dieser Tage, bereits Anerkennung für das erlangt hat, was sie nicht verdient hat, Anerkennung zu verdienen. Und dies wird sich wahrscheinlich noch verschlimmern, da die generative KI zunehmend erweitert und genutzt wird. Der generativen KI wird immer mehr Anerkennung zuteil, während diejenigen, die die wahre Anerkennung reichlich verdienen, leider im Staub bleiben.

Meine angebotene Art, dieses angebliche Phänomen klar und deutlich zu bezeichnen, führt über zwei pfiffige Schlagworte:

1) Plagiat im großen Maßstab
2) Urheberrechtsverletzung in großem Umfang

Ich nehme an, dass Sie sich der generativen KI aufgrund einer weit verbreiteten KI-App namens ChatGPT bewusst sind, die im November von OpenAI veröffentlicht wurde. Ich werde gleich mehr über generative KI und ChatGPT sagen. Halte durch.

Kommen wir gleich zum Kern dessen, was die Leute sozusagen auf die Palme bringt.

Einige haben sich heftig darüber beschwert, dass die generative KI möglicherweise Menschen abzockt, die Inhalte erstellt haben. Sie sehen, die meisten generativen KI-Apps sind Daten, die durch die Untersuchung von im Internet gefundenen Daten trainiert werden. Basierend auf diesen Daten können die Algorithmen ein riesiges internes Musterabgleichsnetzwerk innerhalb der KI-App verfeinern, das anschließend scheinbar neue Inhalte produzieren kann, die erstaunlicherweise so aussehen, als wären sie von Menschenhand und nicht wie ein Stück Automatisierung entwickelt worden

Diese bemerkenswerte Leistung ist zu einem großen Teil auf die Verwendung von im Internet gescannten Inhalten zurückzuführen. Ohne das Volumen und den Reichtum an Internetinhalten als Quelle für das Datentraining wäre die generative KI ziemlich leer und von geringem oder keinem Interesse für die Verwendung. Indem die KI Millionen und Abermillionen von Online-Dokumenten und -Texten sowie alle Arten von zugehörigen Inhalten untersucht, wird der Musterabgleich schrittweise abgeleitet, um zu versuchen, von Menschen erstellte Inhalte nachzuahmen.

Je mehr Inhalte untersucht werden, desto wahrscheinlicher ist es, dass der Musterabgleich stärker verfeinert wird und die Mimik noch besser wird, wenn alles andere gleich ist.

Hier also die Millionen-Dollar-Frage:

Große Frage: Wenn Sie oder andere Inhalte im Internet haben, auf die eine generative KI-App trainiert wurde, tun Sie dies vermutlich ohne Ihre direkte Erlaubnis und vielleicht völlig ohne Ihr Bewusstsein, sollten Sie Anspruch auf ein Stück vom Kuchen haben, was auch immer daraus entsteht dieses generative KI-Datentraining?

Einige argumentieren vehement, dass die einzig richtige Antwort ist Ja, insbesondere, dass diese menschlichen Inhaltsersteller tatsächlich ihren Anteil an der Aktion verdienen. Die Sache ist die, dass es Ihnen schwerfallen würde, jemanden zu finden, der seinen gerechten Anteil erhalten hat, und schlimmer noch, fast niemand hat überhaupt einen Anteil erhalten. Den Erstellern von Internetinhalten, die unfreiwillig und unwissentlich beigetragen haben, wird im Wesentlichen ihre rechtmäßige Anerkennung verweigert.

Dies könnte als grausam und unverschämt bezeichnet werden. Wir haben gerade das Auspacken der weisen Weisheit durchgesehen, dass Ehre gegeben werden sollte, wo Ehre fällig ist. Im Falle der generativen KI offenbar nicht so. Die althergebrachte und tugendhafte Faustregel über Kredite scheint rücksichtslos verletzt worden zu sein.

Whoa, lautet die Antwort, Sie übertreiben und stellen die Situation falsch dar. Sicher, die generative KI hat Inhalte im Internet untersucht. Sicher, das war im Rahmen des Datentrainings der generativen KI reichlich hilfreich. Zugegeben, die beeindruckenden generativen KI-Apps von heute wären ohne diesen durchdachten Ansatz nicht so beeindruckend. Aber Sie sind zu weit gegangen, wenn Sie sagen, dass den Erstellern von Inhalten ein gewisser Anschein von Anerkennung zuteil werden sollte.

Die Logik ist wie folgt. Menschen gehen ins Internet und lernen Dinge aus dem Internet, tun dies routinemäßig und ohne viel Aufhebens an sich. Eine Person, die Blogs über Klempnerarbeiten liest und sich dann frei verfügbare Videos zur Klempnerreparatur ansieht, könnte am nächsten Tag als Klempner arbeiten. Müssen sie dem Blogger, der darüber geschrieben hat, wie man ein Waschbecken installiert, einen Teil ihrer Klempnerüberweisung geben? Müssen sie dem Vlogger, der das Video gemacht hat, in dem die Schritte zur Reparatur einer undichten Badewanne gezeigt werden, eine Gebühr zahlen?

Mit ziemlicher Sicherheit nicht.

Das Datentraining der generativen KI ist lediglich ein Mittel zur Entwicklung von Mustern. Solange die Ergebnisse der generativen KI nicht nur das Wiederkäuen genau dessen sind, was untersucht wurde, könnte man überzeugend argumentieren, dass sie „gelernt“ haben und daher keiner bestimmten Quelle eine spezifische Anerkennung zugesprochen werden muss. Sofern Sie die generative KI nicht bei der Durchführung eines exakten Aufstoßens erwischen können, deuten die Anzeichen darauf hin, dass sich die KI über eine bestimmte Quelle hinaus verallgemeinert hat.

Niemandem steht ein Kredit zu. Oder man könnte sagen, dass die Ehre allen zusteht. Der kollektive Text und andere Inhalte der Menschheit, die im Internet gefunden werden, erhalten die Anerkennung. Wir alle bekommen die Anerkennung. Der Versuch, die Anerkennung einer bestimmten Quelle zuzuordnen, ist sinnlos. Freuen Sie sich darüber, dass die KI weiterentwickelt wird und dass die Menschheit insgesamt davon profitieren wird. Diese Beiträge im Internet sollten sich geehrt fühlen, dass sie zu einer Zukunft voller Fortschritte in der KI beigetragen haben und wie dies der Menschheit für die Ewigkeit helfen wird.

Ich werde mehr über diese beiden gegensätzlichen Ansichten zu sagen haben.

Neigen Sie in der Zwischenzeit zu dem Lager, das sagt, dass die Anerkennung für diejenigen, die Websites im Internet haben, fällig und spät überfällig ist, oder finden Sie, dass die Gegenseite, die sagt, dass die Ersteller von Internetinhalten entschieden sind nicht Abgezockt zu werden ist eine zwingendere Haltung?

Ein Rätsel und ein Rätsel, alle zusammengeklemmt.

Packen wir das aus.

In der heutigen Kolumne werde ich auf diese geäußerten Bedenken eingehen, dass die generative KI im Wesentlichen ein Plagiat darstellt oder möglicherweise die Urheberrechte von Inhalten verletzt, die im Internet veröffentlicht wurden (als geistiges Eigentumsrecht oder IP-Problem angesehen). Wir werden uns die Grundlage für diese Bedenken ansehen. Ich werde mich während dieser Diskussion gelegentlich auf ChatGPT beziehen, da es sich um den 600-Pfund-Gorilla der generativen KI handelt. Denken Sie jedoch daran, dass es viele andere generative KI-Apps gibt, die im Allgemeinen auf denselben Grundprinzipien basieren.

In der Zwischenzeit fragen Sie sich vielleicht, was generative KI eigentlich ist.

Lassen Sie uns zuerst die Grundlagen der generativen KI behandeln und dann können wir uns die dringende Angelegenheit genau ansehen.

In all dies kommt eine ganze Reihe von Überlegungen zur KI-Ethik und zum KI-Recht.

Bitte beachten Sie, dass es laufende Bemühungen gibt, ethische KI-Prinzipien in die Entwicklung und den Einsatz von KI-Apps einfließen zu lassen. Eine wachsende Gruppe von besorgten und ehemaligen KI-Ethikern versucht sicherzustellen, dass Bemühungen um die Entwicklung und Einführung von KI eine Sichtweise des Tuns berücksichtigen KI für immer und abwenden KI für schlecht. Ebenso werden neue KI-Gesetze vorgeschlagen, die als mögliche Lösungen herumgereicht werden, um zu verhindern, dass KI-Bemühungen in Bezug auf Menschenrechte und dergleichen Amok laufen. Für meine laufende und umfassende Berichterstattung über KI-Ethik und KI-Recht siehe den Link hier und den Link hier, nur um ein paar zu nennen.

Die Entwicklung und Verbreitung ethischer KI-Vorschriften wird verfolgt, um hoffentlich zu verhindern, dass die Gesellschaft in eine Vielzahl von KI-verursachenden Fallen tappt. Für meine Berichterstattung über die UN-KI-Ethikprinzipien, wie sie von fast 200 Ländern durch die Bemühungen der UNESCO entwickelt und unterstützt werden, siehe den Link hier. In ähnlicher Weise werden neue KI-Gesetze untersucht, um zu versuchen, die KI auf Augenhöhe zu halten. Einer der neuesten Takes besteht aus einer Reihe von Vorschlägen AI-Bill of Rights die das US-Weiße Haus kürzlich veröffentlicht hat, um die Menschenrechte im Zeitalter der KI zu identifizieren, siehe den Link hier. Es braucht ein ganzes Dorf, um KI und KI-Entwickler auf einem rechtmäßigen Weg zu halten und die absichtlichen oder versehentlichen hinterhältigen Bemühungen abzuschrecken, die die Gesellschaft untergraben könnten.

Ich werde Überlegungen zu KI-Ethik und KI-Recht in diese Diskussion einfließen lassen.

Grundlagen der generativen KI

Die bekannteste Instanz der generativen KI wird durch eine KI-App namens ChatGPT repräsentiert. ChatGPT trat bereits im November in das öffentliche Bewusstsein, als es von der KI-Forschungsfirma OpenAI veröffentlicht wurde. Seitdem hat ChatGPT übergroße Schlagzeilen gemacht und die zugeteilten fünfzehn Minuten Ruhm erstaunlich überschritten.

Ich vermute, Sie haben wahrscheinlich schon von ChatGPT gehört oder kennen vielleicht sogar jemanden, der es verwendet hat.

ChatGPT wird als generative KI-Anwendung angesehen, da es Text von einem Benutzer als Eingabe nimmt und dann erzeugt oder produziert eine Ausgabe, die aus einem Aufsatz besteht. Die KI ist ein Text-zu-Text-Generator, obwohl ich die KI als einen Text-zu-Essay-Generator beschreibe, da dies besser verdeutlicht, wofür sie üblicherweise verwendet wird. Sie können generative KI verwenden, um lange Kompositionen zu komponieren, oder Sie können sie dazu bringen, eher kurze, prägnante Kommentare abzugeben. Es ist alles auf Ihr Gebot.

Alles, was Sie tun müssen, ist eine Eingabeaufforderung einzugeben, und die KI-App generiert für Sie einen Aufsatz, der versucht, auf Ihre Eingabeaufforderung zu antworten. Der verfasste Text wird so aussehen, als ob der Aufsatz von menschlicher Hand und Verstand geschrieben wurde. Wenn Sie eine Eingabeaufforderung mit der Aufschrift „Erzählen Sie mir von Abraham Lincoln“ eingeben, liefert Ihnen die generative KI einen Aufsatz über Lincoln. Es gibt andere Modi der generativen KI, wie Text-to-Art und Text-to-Video. Ich werde mich hier auf die Text-zu-Text-Variation konzentrieren.

Ihr erster Gedanke könnte sein, dass diese generative Fähigkeit keine so große Sache zu sein scheint, wenn es um die Erstellung von Aufsätzen geht. Sie können ganz einfach eine Online-Suche im Internet durchführen und Tonnen und Tonnen von Essays über Präsident Lincoln finden. Der Clou im Fall der generativen KI ist, dass der generierte Aufsatz relativ einzigartig ist und eher eine Originalkomposition als eine Nachahmung darstellt. Wenn Sie versuchen würden, den von der KI erstellten Aufsatz irgendwo online zu finden, würden Sie ihn wahrscheinlich nicht entdecken.

Die generative KI ist vortrainiert und nutzt eine komplexe mathematische und rechnerische Formulierung, die durch die Untersuchung von Mustern in geschriebenen Wörtern und Geschichten im Internet erstellt wurde. Als Ergebnis der Untersuchung von Tausenden und Millionen geschriebener Passagen kann die KI neue Aufsätze und Geschichten ausspucken, die ein Mischmasch aus dem sind, was gefunden wurde. Durch das Hinzufügen verschiedener probabilistischer Funktionen ist der resultierende Text im Vergleich zu dem, was im Trainingssatz verwendet wurde, ziemlich einzigartig.

Es gibt zahlreiche Bedenken hinsichtlich der generativen KI.

Ein entscheidender Nachteil ist, dass die von einer generativen KI-App erstellten Aufsätze verschiedene Unwahrheiten enthalten können, darunter offensichtlich unwahre Fakten, irreführend dargestellte Fakten und scheinbare Fakten, die vollständig erfunden sind. Diese fabrizierten Aspekte werden oft als eine Form von bezeichnet KI-Halluzinationen, ein Schlagwort, das ich nicht mag, aber bedauerlicherweise trotzdem populär zu werden scheint (für meine detaillierte Erklärung, warum dies eine lausige und ungeeignete Terminologie ist, siehe meine Berichterstattung unter den Link hier).

Ein weiteres Problem ist, dass Menschen einen von generativer KI erstellten Aufsatz leicht anerkennen können, obwohl sie den Aufsatz nicht selbst verfasst haben. Sie haben vielleicht gehört, dass Lehrer und Schulen ziemlich besorgt über das Aufkommen generativer KI-Apps sind. Schüler können möglicherweise generative KI verwenden, um ihre zugewiesenen Aufsätze zu schreiben. Wenn ein Schüler behauptet, dass ein Aufsatz von seiner eigenen Hand geschrieben wurde, besteht für den Lehrer kaum eine Chance zu erkennen, ob er stattdessen von generativer KI gefälscht wurde. Für meine Analyse dieser verwirrenden Facette von Schülern und Lehrern siehe meine Berichterstattung unter den Link hier und den Link hier.

Es gab einige verrückte übergroße Behauptungen in den sozialen Medien darüber Generative KI behaupten, dass diese neueste Version der KI tatsächlich ist empfindungsfähige KI (Nein, sie sind falsch!). Diejenigen in den Bereichen KI-Ethik und KI-Recht sind besonders besorgt über diesen aufkeimenden Trend zu überzogenen Ansprüchen. Sie könnten höflich sagen, dass einige Leute übertreiben, was die heutige KI tatsächlich leisten kann. Sie gehen davon aus, dass KI Fähigkeiten hat, die wir noch nicht erreichen konnten. Das ist bedauerlich. Schlimmer noch, sie können zulassen, dass sie selbst und andere in schlimme Situationen geraten, weil sie davon ausgehen, dass die KI empfindungsfähig oder menschenähnlich sein wird, wenn es darum geht, Maßnahmen zu ergreifen.

KI nicht vermenschlichen.

Wenn Sie dies tun, geraten Sie in eine klebrige und mürrische Vertrauensfalle, in der Sie erwarten, dass die KI Dinge tut, die sie nicht ausführen kann. Abgesehen davon ist die neueste generative KI relativ beeindruckend für das, was sie kann. Beachten Sie jedoch, dass es erhebliche Einschränkungen gibt, die Sie bei der Verwendung einer generativen KI-App immer im Hinterkopf behalten sollten.

Eine letzte Vorwarnung vorerst.

Was auch immer Sie in einer generativen KI-Antwort sehen oder lesen scheint rein sachlich vermittelt werden sollen (Daten, Orte, Personen usw.), bleiben Sie skeptisch und bereit, das, was Sie sehen, noch einmal zu überprüfen.

Ja, Daten können zusammengebraut werden, Orte können nachgeholt werden, und Elemente, von denen wir normalerweise erwarten, dass sie über jeden Zweifel erhaben sind, sind es alle Verdacht ausgesetzt. Glauben Sie nicht, was Sie lesen, und behalten Sie ein skeptisches Auge, wenn Sie Aufsätze oder Ergebnisse generativer KI untersuchen. Wenn Ihnen eine generative KI-App sagt, dass Abraham Lincoln in seinem Privatjet durch das Land geflogen ist, würden Sie zweifellos wissen, dass dies Malarky ist. Unglücklicherweise erkennen einige Leute vielleicht nicht, dass es zu seiner Zeit keine Jets gab, oder sie wissen es vielleicht, bemerken aber nicht, dass der Essay diese dreiste und unverschämt falsche Behauptung aufstellt.

Eine starke Dosis gesunder Skepsis und eine beständige Denkweise des Unglaubens werden Ihr größtes Kapital sein, wenn Sie generative KI verwenden.

Wir sind bereit, in die nächste Phase dieser Erläuterung einzutreten.

Das Internet und die generative KI gehören zusammen

Jetzt, da Sie einen Anschein davon haben, was generative KI ist, können wir der leidigen Frage nachgehen, ob generative KI fair oder unfair „hebelt“, wie manche sagen würden offensichtlich Nutzung Internet-Inhalte.

Hier sind meine vier wichtigsten Themen zu diesem Thema:

1) Doppelter Ärger: Plagiat und Urheberrechtsverletzung
2) Der Versuch, ein Plagiat oder eine Urheberrechtsverletzung nachzuweisen, wird versucht
3) Argumentieren für Plagiate oder Urheberrechtsverletzungen
4) Legale Landminen warten

Ich werde jedes dieser wichtigen Themen behandeln und aufschlussreiche Überlegungen anstellen, über die wir alle aufmerksam nachdenken sollten. Jedes dieser Themen ist ein integraler Bestandteil eines größeren Puzzles. Sie können nicht nur ein Stück betrachten. Sie können auch kein Stück isoliert von den anderen Stücken betrachten.

Dies ist ein kompliziertes Mosaik, und das gesamte Puzzle muss einer angemessenen harmonischen Betrachtung unterzogen werden.

Doppelter Ärger: Plagiat und Urheberrechtsverletzung

Das doppelte Problem für diejenigen, die generative KI herstellen und einsetzen, besteht darin, dass ihre Waren möglicherweise zwei schlechte Dinge tun:

1) Plagiat. Die generative KI könnte so ausgelegt werden Plagiieren Inhalte, die gemäß dem Internet-Scanning, das während des Datentrainings der KI stattfand, im Internet vorhanden sind.
2) Urheberrechtsverletzung. Die generative KI könnte als Unterfangen beansprucht werden Urheberrechtsverletzung dem Internetinhalt zugeordnet, der während des Datentrainings gescannt wurde.

Zur Verdeutlichung: Es gibt viel mehr Inhalte im Internet, als typischerweise für das Datentraining der generativen KI gescannt werden. In der Regel wird nur ein winziger Bruchteil des Internets genutzt. Daher können wir vermutlich davon ausgehen, dass alle Inhalte, die während des Datentrainings nicht gescannt wurden, kein besonderes Problem mit der generativen KI haben.

Dies ist jedoch etwas umstritten, da Sie möglicherweise eine Linie ziehen könnten, die andere Inhalte, die gescannt wurden, mit den Inhalten verbindet, die nicht gescannt wurden. Eine weitere wichtige Bedingung ist, dass selbst wenn es Inhalte gibt, die nicht gescannt wurden, sie immer noch als Plagiate und/oder Urheberrechtsverletzungen argumentiert werden könnten, wenn die Ausgaben der generativen KI möglicherweise auf denselben Wortschatz landen. Mein Punkt ist, dass in all dem viel Squishiness steckt.

Bottom line: Die generative KI ist voll von potenziellen KI-Ethik- und KI-Rechtsproblemen, wenn es um Plagiate und Urheberrechtsverletzungen geht Untermauerung der vorherrschenden Datentrainingspraktiken.

Bisher sind KI-Macher und KI-Forscher so gut wie ungeschoren davongekommen, trotz des drohenden und unsicher baumelnden Schwertes, das über ihnen hängt. Gegen diese Praktiken wurden bisher nur wenige Klagen eingereicht. Möglicherweise haben Sie Nachrichtenartikel über solche rechtlichen Schritte gehört oder gesehen. Einer betrifft zum Beispiel die Text-to-Image-Firmen Midjourney und Stability AI, weil sie im Internet veröffentlichte künstlerische Inhalte verletzt haben. Eine andere beinhaltet eine Text-to-Code-Verletzung gegen GitHub, Microsoft und OpenAI aufgrund der Copilot-Software, die KI-Apps produziert. Getty Images hat sich auch zum Ziel gesetzt, Stability AI wegen Text-to-Image-Verletzungen zu verfolgen.

Sie können davon ausgehen, dass weitere solcher Klagen eingereicht werden.

Im Moment ist es etwas riskant, diese Klagen einzuleiten, da der Ausgang relativ unbekannt ist. Wird sich das Gericht auf die Seite der KI-Hersteller stellen oder werden diejenigen, die glauben, dass ihre Inhalte unfair ausgenutzt wurden, die Sieger sein? Ein kostspieliger Rechtsstreit ist immer eine ernste Angelegenheit. Die Aufwendung der hohen Anwaltskosten muss gegen die Gewinn- oder Verlustchancen abgewogen werden.

Die KI-Macher scheinen fast keine andere Wahl zu haben, als sich zu wehren. Wenn sie einknicken, auch nur ein bisschen, stehen die Chancen gut, dass es zu einer Flut zusätzlicher Klagen kommt (im Wesentlichen, was die Tür zu erhöhten Chancen öffnet, dass auch andere obsiegen). Sobald legales Blut im Wasser ist, werden die verbleibenden legalen Haie auf die als „einfach“ angesehene Punktzahl huschen und ein verprügelndes und zerschmetterndes monetäres Blutbad würde sicherlich stattfinden.

Einige glauben, dass wir neue KI-Gesetze verabschieden sollten, die die KI-Hersteller schützen würden. Der Schutz kann sogar rückwirkend sein. Die Grundlage dafür ist, dass wir, wenn wir generative KI-Fortschritte sehen wollen, den KI-Machern eine Startbahn in der sicheren Zone geben müssen. Sobald Klagen beginnen, Siege gegen die KI-Hersteller zu erzielen (wir wissen es noch nicht), besteht die Sorge, dass die generative KI sich verflüchtigen wird, da niemand bereit sein wird, die KI-Firmen zu unterstützen.

Wie in einem kürzlich erschienenen Artikel von Bloomberg Law mit dem Titel „ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI“ von Dr. Ilia Kolochenko und Gordon Platt, Bloomberg Law, Februar 2023, geschickt hervorgehoben wurde, sind hier zwei wichtige Auszüge, die diese Standpunkte widerspiegeln:

„Unter US-Rechtswissenschaftlern und IP-Rechtsprofessoren tobt derzeit eine hitzige Debatte darüber, ob das unbefugte Scraping und die anschließende Verwendung von urheberrechtlich geschützten Daten eine Urheberrechtsverletzung darstellt. Überwiegt die Ansicht von Rechtspraktikern, die in einer solchen Praxis Urheberrechtsverletzungen sehen, können Nutzer solcher KI-Systeme auch für Folgerechtsverletzungen haftbar gemacht werden und möglicherweise mit rechtlichen Konsequenzen rechnen.“
„Um die Herausforderung umfassend anzugehen, sollte der Gesetzgeber in Betracht ziehen, nicht nur die bestehende Urheberrechtsgesetzgebung zu modernisieren, sondern auch eine Reihe von KI-spezifischen Gesetzen und Vorschriften umzusetzen.“

Denken Sie daran, dass wir als Gesellschaft Rechtsschutz für die eingeführt haben Expansion des Internets, wie jetzt der Oberste Gerichtshof bei der Überprüfung des berühmten oder berüchtigten Abschnitts 230 bezeugt hat. Daher scheint es im Rahmen der Vernunft und des Präzedenzfalls zu liegen, dass wir bereit sein könnten, ähnliche Schutzmaßnahmen für die Weiterentwicklung der generativen KI zu ergreifen. Vielleicht könnten die Schutzmaßnahmen vorübergehend eingerichtet werden und auslaufen, nachdem die generative KI ein bestimmtes Kompetenzniveau erreicht hat. Andere Schutzbestimmungen könnten entwickelt werden.

Ich werde bald meine Analyse veröffentlichen, wie sich die Beurteilung des Obersten Gerichtshofs und das endgültige Urteil zu Abschnitt 230 auf das Aufkommen der generativen KI auswirken könnten. Seien Sie auf der Suche nach diesem bevorstehenden Beitrag!

Zurück zu der lautstark geäußerten Meinung, dass wir der gesellschaftlich beeindruckenden technologischen Innovation namens generative KI Raum geben sollten. Einige würden sagen, dass die Gesellschaft als Ganzes bereit sein sollte, dies für die spezifischen Zwecke der Förderung der generativen KI zuzulassen, selbst wenn die behauptete Urheberrechtsverletzung stattgefunden hat oder stattfindet.

Die Hoffnung ist, dass neue KI-Gesetze sorgfältig ausgearbeitet und auf die Besonderheiten abgestimmt werden, die mit dem Datentraining für generative KI verbunden sind.

Gegen diese Vorstellung, hierfür neue KI-Gesetze zu erarbeiten, gibt es viele Gegenargumente. Eine Sorge ist, dass ein solches neues KI-Gesetz die Schleusen für alle Arten von Urheberrechtsverletzungen öffnen wird. Wir werden den Tag bereuen, dass wir zugelassen haben, dass solche neuen KI-Gesetze in den Büchern landen. Egal wie sehr Sie versuchen, dies nur auf das Training von KI-Daten zu beschränken, andere werden heimlich oder geschickt Schlupflöcher finden, die einer ungehinderten und grassierenden Urheberrechtsverletzung gleichkommen.

Rund und rund gehen die Argumente.

Ein Argument, das nicht besonders stichhaltig ist, hat mit dem Versuch zu tun, die KI selbst zu verklagen. Beachten Sie, dass ich mich auf den KI-Hersteller oder die KI-Forscher als die schuldhaften Beteiligten bezogen habe. Das sind Menschen und Unternehmen. Einige schlagen vor, dass wir KI als die zu verklagende Partei ins Visier nehmen sollten. Ich habe in meiner Kolumne ausführlich erörtert, dass wir der KI noch keine juristische Person zuschreiben, siehe den Link hier zum Beispiel, und daher würden solche Klagen gegen KI per se im Moment als sinnlos angesehen.

Als Ergänzung zur Frage, wer oder was verklagt werden soll, bringt dies ein weiteres heikles Thema auf den Tisch.

Angenommen, eine bestimmte generative KI-App wird von einem KI-Hersteller entwickelt, den wir Widget Company nennen. Widget Company ist relativ klein und hat weder viel Umsatz noch viel Vermögen. Sie zu verklagen wird wahrscheinlich nicht die großen Reichtümer einbringen, die man vielleicht anstrebt. Sie hätten höchstens die Befriedigung, das zu korrigieren, was Sie als falsch empfinden.

Sie wollen den großen Fischen nachjagen.

Hier ist, wie das entstehen wird. Ein KI-Hersteller entscheidet sich dafür, seine generative KI der Big Time Company zur Verfügung zu stellen, einem großen Konglomerat mit Tonnen von Teig und Tonnen von Vermögenswerten. Eine Klage unter Namensnennung der Widget Company hätte nun ein besseres Ziel im Blick, nämlich auch die Namensgebung der Big Time Company. Dies ist ein Kampf zwischen David und Goliath, den Anwälte genießen würden. Natürlich wird die Big Time Company zweifellos versuchen, sich vom Angelhaken zu lösen. Ob sie das können, ist wieder einmal eine ungewisse Rechtsfrage, und sie könnten hoffnungslos im Dreck versinken.

Bevor wir weiter darauf eingehen, möchte ich etwas Entscheidendes über die umstrittenen Eingriffe der generativen KI durch Datentraining auf den Tisch bringen. Ich bin sicher, Sie erkennen intuitiv, dass Plagiat und Urheberrechtsverletzung zwei etwas unterschiedliche Bestien sind. Sie haben viel gemeinsam, unterscheiden sich aber auch erheblich.

Hier ist eine praktische, prägnante Beschreibung der Duke University, die die beiden erklärt:

„Plagiate lassen sich am besten als die unbestätigte Nutzung der Arbeit einer anderen Person definieren. Es handelt sich um eine ethische Frage, bei der es um einen Anspruch auf Kredit für Arbeit geht, die der Antragsteller nicht geschaffen hat. Man kann die Arbeit einer anderen Person unabhängig vom Urheberrechtsstatus dieser Arbeit plagiieren. Zum Beispiel ist es dennoch ein Plagiat, aus einem Buch oder Artikel zu kopieren, das zu alt ist, um noch urheberrechtlich geschützt zu sein. Es ist auch ein Plagiat, Daten zu verwenden, die aus einer nicht anerkannten Quelle stammen, obwohl Faktenmaterial wie Daten möglicherweise nicht urheberrechtlich geschützt ist. Plagiate lassen sich jedoch leicht heilen – richtiges Zitieren der Originalquelle des Materials.“
„Urheberrechtsverletzung hingegen ist die unbefugte Nutzung der Arbeit eines anderen. Dies ist eine rechtliche Frage, die davon abhängt, ob das Werk überhaupt urheberrechtlich geschützt ist oder nicht, sowie von Einzelheiten wie dem Umfang der Nutzung und dem Zweck der Nutzung. Wenn man zu viel von einem geschützten Werk kopiert oder für einen nicht autorisierten Zweck kopiert, wird das Problem einfach durch die Angabe der Originalquelle nicht gelöst. Nur durch vorheriges Einholen der Erlaubnis des Urheberrechtsinhabers vermeidet man das Risiko einer Anklage wegen Verletzung.“

Ich weise auf die Wichtigkeit dieser beiden Bedenken hin, damit Sie erkennen, dass Heilmittel entsprechend unterschiedlich sein können. Außerdem sind sie beide in Überlegungen verstrickt, die die KI-Ethik und das KI-Recht durchdringen, sodass es sich gleichermaßen lohnt, sie zu untersuchen.

Lassen Sie uns ein beanspruchtes Heilmittel oder eine Lösung untersuchen. Sie werden sehen, dass es bei einem der doppelten Probleme helfen könnte, aber nicht bei dem anderen.

Einige haben darauf bestanden, dass die KI-Hersteller lediglich ihre Quellen zitieren müssen. Wenn die generative KI einen Aufsatz erstellt, fügen Sie lediglich spezifische Zitate für alles hinzu, was im Aufsatz angegeben ist. Geben Sie verschiedene URLs und andere Hinweise darauf, welche Internetinhalte verwendet wurden. Dies scheint sie von Plagiatsskrupeln zu befreien. Der ausgegebene Aufsatz würde vermutlich eindeutig angeben, welche Quellen für den erstellten Wortlaut verwendet wurden.

Es gibt einige Spitzfindigkeiten in dieser behaupteten Lösung, aber auf einer 30,000-Fuß-Ebene, sagen wir mal, das dient als halbwegs zufriedenstellendes Heilmittel für das Plagiats-Dilemma. Wie oben in der Erklärung zur Urheberrechtsverletzung ausgeführt, bringt Sie das Zitieren von Quellenmaterial nicht unbedingt aus der Hundehütte. Unter der Annahme, dass der Inhalt urheberrechtlich geschützt war, und abhängig von anderen Faktoren, wie z. B. wie viel des Materials verwendet wurde, kann das wartende Schwert der Urheberrechtsverletzung scharf und endgültig nach unten schwingen.

Doppelter Ärger ist hier das Schlagwort.

Der Versuch, ein Plagiat oder eine Urheberrechtsverletzung nachzuweisen, wird versucht

Beweise es!

Das ist der abgenutzte Refrain, den wir alle zu verschiedenen Zeiten in unserem Leben gehört haben.

Du weißt, wie es geht. Sie könnten behaupten, dass etwas passiert oder passiert ist. Ihr wisst vielleicht tief in eurem Herzen, dass dies geschehen ist. Aber wenn es um Push-versus-Shove geht, müssen Sie den Beweis haben.

Im heutigen Sprachgebrauch müssen Sie die zeigen Einkünfte, wie sie sagen.

Meine Frage an Sie ist folgende: Wie können wir nachweislich beweisen, dass generative KI Internetinhalte unangemessen ausgenutzt hat?

Man nimmt an, dass die Antwort einfach sein sollte. Sie bitten oder weisen die generative KI an, einen ausgegebenen Aufsatz zu erstellen. Sie nehmen dann den Aufsatz und vergleichen ihn mit dem, was im Internet zu finden ist. Wenn Sie den Aufsatz finden, bam, haben Sie die generative KI an die sprichwörtliche Wand genagelt.

Das Leben scheint noch nie so einfach zu sein.

Stellen Sie sich vor, dass wir generative KI dazu bringen, einen Aufsatz zu produzieren, der etwa 100 Wörter enthält. Wir gehen umher und versuchen, alle Ecken und Winkel des Internets zu erreichen, indem wir nach diesen 100 Wörtern suchen. Wenn wir die 100 Wörter finden, die in der gleichen genauen Reihenfolge und auf identische Weise angezeigt werden, scheinen wir uns ein heißes Wort erwischt zu haben.

Angenommen, wir finden im Internet einen scheinbar „vergleichbaren“ Aufsatz, obwohl er nur mit 80 der 100 Wörter übereinstimmt. Das scheint vielleicht noch ausreichend zu sein. Aber stellen Sie sich vor, wir finden nur eine Instanz von 10 Wörtern der 100, die übereinstimmen. Reicht das aus, um zu behaupten, dass entweder ein Plagiat oder eine Urheberrechtsverletzung vorliegt?

Grau existiert.

Text ist so lustig.

Vergleichen Sie dies mit den Text-zu-Bild- oder Text-zu-Kunst-Umständen. Wenn die generative KI eine Text-to-Image- oder Text-to-Art-Funktion bietet, geben Sie eine Texteingabeaufforderung ein und die KI-App erstellt ein Bild, das in etwa auf der von Ihnen bereitgestellten Eingabeaufforderung basiert. Das Bild könnte anders sein als jedes Bild, das jemals auf diesem oder irgendeinem anderen Planeten gesehen wurde.

Andererseits könnte das Bild an andere existierende Bilder erinnern. Wir können uns das generative KI-erzeugte Bild ansehen und etwas aus dem Bauch heraus sagen, dass es sicher wie ein anderes Bild aussieht, das wir zuvor gesehen haben. Im Allgemeinen die visuell Aspekte des Vergleichens und Kontrastierens werden etwas leichter übernommen. Beachten Sie jedoch, dass umfangreiche rechtliche Debatten darüber führen, was die Überschneidung oder Replikation eines Bildes von einem anderen ausmacht.

Eine andere ähnliche Situation besteht bei der Musik. Es gibt generative KI-Apps, mit denen Sie eine Textaufforderung eingeben können, und die von der KI erzeugte Ausgabe ist Audiomusik. Diese Text-zu-Audio- oder Text-zu-Musik-KI-Fähigkeiten tauchen gerade erst auf. Eine Sache, auf die Sie Ihren höchsten Dollar setzen können, ist, dass die von der generativen KI produzierte Musik strengstens auf Rechtsverletzungen untersucht wird. Wir scheinen es zu wissen, wenn wir Musikverletzungen hören, obwohl dies wiederum ein komplexes rechtliches Problem ist, das nicht nur darauf basiert, wie wir über die wahrgenommene Nachahmung denken.

Erlauben Sie mir noch ein Beispiel.

Die generative KI von Text-to-Code bietet Ihnen die Möglichkeit, eine Texteingabeaufforderung einzugeben, und die KI erstellt für Sie Programmiercode. Sie können diesen Code dann zum Erstellen eines Computerprogramms verwenden. Sie können den Code genau so verwenden, wie er generiert wurde, oder Sie können den Code bearbeiten und an Ihre Bedürfnisse anpassen. Es muss auch sichergestellt werden, dass der Code geeignet und funktionsfähig ist, da es möglich ist, dass Fehler und Unwahrheiten im generierten Code auftreten.

Ihre erste Annahme könnte sein, dass sich Programmiercode nicht von Text unterscheidet. Es ist nur Text. Sicher, es ist ein Text, der einen bestimmten Zweck erfüllt, aber es ist immer noch Text.

Nun, nicht genau. Die meisten Programmiersprachen haben ein strenges Format und eine strenge Struktur entsprechend der Art der Codierungsanweisungen dieser Sprache. Dies ist in gewissem Sinne viel enger als frei fließende natürliche Sprache. Sie sind etwas eingezwängt, wie die Codierungsanweisungen formuliert sind. Ebenso sind die Reihenfolge und die Art und Weise, wie die Anweisungen verwendet und angeordnet werden, etwas eingegrenzt.

Alles in allem ist die Möglichkeit, zu zeigen, dass Programmcode plagiiert oder verletzt wurde, fast einfacher als die natürliche Sprache insgesamt. Wenn also eine generative KI Programmiercode im Internet scannt und später Programmiercode generiert, sind die Chancen, zu argumentieren, dass der Code offensichtlich repliziert wurde, relativ überzeugender. Kein Slam Dunk, also erwarten Sie erbitterte Schlachten darüber.

Mein übergreifender Punkt ist, dass wir die gleichen Fragen der KI-Ethik und des KI-Rechts haben werden, mit denen alle Arten der generativen KI konfrontiert sind.

Plagiate und Urheberrechtsverletzungen sind problematisch für:

Text-zu-Text oder Text-zu-Aufsatz
Text-zu-Bild oder Text-zu-Kunst
Text-zu-Audio oder Text-zu-Musik
Text-zu-Video
Text-zu-Code
Usw.

Sie alle unterliegen denselben Bedenken. Einige sind möglicherweise etwas einfacher zu „beweisen“ als andere. Alle von ihnen werden ihre eigenen Albträume von einer KI-Ethik und KI-Rechtsgrundlage haben.

Plädoyer für Plagiate oder Urheberrechtsverletzungen

Konzentrieren wir uns zu Diskussionszwecken auf generative KI für Text-zu-Text oder Text-zu-Aufsatz. Ich tue dies teilweise wegen der enormen Popularität von ChatGPT, dem Text-zu-Text-Typ der generativen KI. Es gibt viele Leute, die ChatGPT verwenden, zusammen mit vielen anderen, die verschiedene ähnliche generative KI-Apps für Text-zu-Text verwenden.

Wissen diejenigen, die generative KI-Apps verwenden, dass sie sich möglicherweise auf Plagiate oder Urheberrechtsverletzungen verlassen?

Ob sie das tun, scheint zweifelhaft.

Ich wage zu behaupten, dass die vorherrschende Annahme ist, dass, wenn die generative KI-App zur Nutzung verfügbar ist, der KI-Hersteller oder das Unternehmen, das die KI eingesetzt hat, wissen oder sicher sein muss, dass an den Waren, die sie zur Nutzung anbieten, nichts Ungewöhnliches ist. Wenn Sie es verwenden können, muss es anständig sein.

Lassen Sie uns noch einmal auf meinen früheren Kommentar zurückkommen, wie wir versuchen werden zu beweisen, dass eine bestimmte generative KI in Bezug auf das Datentraining auf einer falschen Grundlage arbeitet.

Ich möchte auch hinzufügen, dass die Chancen, die anderen zu schnappen, wahrscheinlich größer sind, wenn wir eine generative KI dabei erwischen können. Ich sage nicht, dass alle generativen KI-Apps im selben Boot sitzen würden. Aber sie werden sich in ziemlich rauer See wiederfinden, sobald einer von ihnen an der Wand festgenagelt ist.

Auch deshalb wird es sich immens lohnen, die bestehenden Klagen im Auge zu behalten. Der erste, der in Bezug auf die behauptete Verletzung gewinnt, wird in diesem Fall möglicherweise Untergang und Finsternis für die anderen generativen KI-Apps bedeuten, es sei denn, den breiteren Problemen entgeht eine gewisse Engstirnigkeit. Diejenigen, die bei der behaupteten Verletzung verlieren, bedeuten nicht unbedingt, dass die generativen KI-Apps Glocken läuten und feiern können. Es könnte sein, dass der Verlust auf andere Faktoren zurückzuführen ist, die für die anderen generativen KI-Apps nicht so relevant sind, und so weiter.

Ich hatte erwähnt, dass wir, wenn wir einen Aufsatz mit 100 Wörtern nehmen und versuchen, genau diese Wörter in genau der gleichen Reihenfolge im Internet zu finden, einen relativ soliden Grund für ein Plagiat oder eine Urheberrechtsverletzung haben könnten, wenn alle anderen gleich sind. Aber wenn die Anzahl der übereinstimmenden Wörter gering ist, scheinen wir uns auf dünnem Eis zu bewegen.

Darauf möchte ich gerne näher eingehen.

Ein offensichtlicher Aspekt bei der Durchführung eines Vergleichs besteht darin, genau dieselben Wörter in genau derselben Reihenfolge zu verwenden. Dies kann für ganze Passagen auftreten. Dies wäre bequem zu erkennen, fast so, als würde es uns auf einem Silbertablett gereicht.

Wir könnten auch misstrauisch werden, wenn nur ein Wortschnipsel übereinstimmt. Die Idee wäre zu sehen, ob es sich um entscheidende Wörter oder vielleicht um Füllwörter handelt, die wir leicht entfernen oder ignorieren können. Wir wollen auch nicht durch die Verwendung von Wörtern in ihrer Vergangenheits- oder Zukunftsform oder einer anderen Dummheit getäuscht werden. Diese Variationen in Wörtern sollten ebenfalls berücksichtigt werden.

Eine andere Ebene des Vergleichs wäre, wenn die Wörter nicht besonders die gleichen Wörter zu einem großen Teil sind, aber die Wörter selbst in einem unterschiedlichen Zustand immer noch die gleichen Punkte zu machen scheinen. Zum Beispiel verwendet eine Zusammenfassung oft ziemlich ähnliche Wörter wie eine Originalquelle, aber wir können erkennen, dass die Zusammenfassung auf der Originalquelle zu beruhen scheint.

Die schwierigste Vergleichsebene würde auf Konzepten oder Ideen basieren. Angenommen, wir sehen einen Aufsatz, der nicht dieselben oder ähnliche Wörter als Vergleichsbasis enthält, aber die Essenz oder die Ideen sind dieselben. Wir bewegen uns zugegebenermaßen auf unwegsamem Terrain. Wenn wir bereitwillig sagen würden, dass Ideen streng geschützt sind, würden wir fast allen Formen von Wissen und Wissenserweiterung einen Deckel aufsetzen.

Wir können noch einmal auf eine praktische Erklärung der Duke University verweisen:

„Das Urheberrecht schützt keine Ideen, sondern nur den konkreten Ausdruck einer Idee. Beispielsweise entschied ein Gericht, dass Dan Brown beim Schreiben nicht das Urheberrecht eines früheren Buches verletzt hat The Da Vinci Code weil alles, was er von der früheren Arbeit entlehnt hat, die Grundideen waren, nicht die Einzelheiten der Handlung oder des Dialogs. Da das Urheberrecht dazu gedacht ist, die kreative Produktion zu fördern, erfüllt die Verwendung der Ideen eines anderen zur Erstellung eines neuen und originellen Werks den Zweck des Urheberrechts, es verletzt es nicht. Nur wenn jemand den Ausdruck eines anderen ohne Erlaubnis kopiert, wird das Urheberrecht möglicherweise verletzt.“
„Um Plagiate zu vermeiden, muss man andererseits die Quelle selbst von Ideen angeben, die von jemand anderem entlehnt wurden, unabhängig davon, ob der Ausdruck dieser Ideen mit ihnen entlehnt ist. Daher muss eine Paraphrase zitiert werden, obwohl sie selten ein Urheberrechtsproblem aufwirft.“

Bitte beachten Sie, wie bereits erwähnt, die Unterschiede zwischen den Facetten des doppelten Problems.

Nun denn, die Umsetzung der Vergleichsansätze in die Praxis findet schon seit vielen Jahren statt. Denk darüber so. Schüler, die Aufsätze für ihre Hausaufgaben schreiben, könnten versucht sein, sich Inhalte aus dem Internet zu schnappen und so zu tun, als hätten sie die mit dem A-Grade-Pulitzer-Preis ausgezeichneten Wörter verfasst.

Lehrer setzen dafür seit langem Programme zur Plagiatsprüfung ein. Ein Lehrer nimmt den Aufsatz eines Schülers und speist ihn in die Plagiatsprüfung ein. In einigen Fällen wird eine ganze Schule die Verwendung eines Plagiatsprüfungsprogramms lizenzieren. Wenn Studierende einen Aufsatz abgeben, müssen sie den Aufsatz zunächst an das Plagiatsprüfungsprogramm senden. Der Lehrer wird darüber informiert, was das Programm meldet.

Leider muss man sehr vorsichtig sein, was diese Programme zur Plagiatsprüfung zu sagen haben. Es ist wichtig, sorgfältig zu beurteilen, ob die berichteten Indikationen gültig sind. Wie bereits erwähnt, kann die Feststellung, ob ein Werk kopiert wurde, schwammig sein. Wenn Sie das Ergebnis des Überprüfungsprogramms gedankenlos akzeptieren, können Sie einen Schüler fälschlicherweise des Kopierens beschuldigen, obwohl er dies nicht getan hat. Das kann seelenzerreißend sein.

Weiter können wir versuchen, Plagiatsprüfprogramme im Bereich des Testens von generativen KI-Ausgaben zu verwenden. Behandeln Sie die ausgegebenen Aufsätze einer generativen KI-App so, als ob sie von einem Schüler geschrieben worden wären. Wir messen dann, was der Plagiatsprüfer sagt. Dies geschieht mit einem Salzkorn.

Es gibt eine aktuelle Forschungsstudie, die versucht hat, diese Art von Vergleichen im Kontext der generativen KI auf genau diese Weise zu operationalisieren. Ich möchte einige interessante Erkenntnisse mit Ihnen besprechen.

Zunächst ist etwas zusätzlicher Hintergrund erforderlich. Generative KI wird manchmal als LLMs (Large Language Models) oder einfach als LMs (Language Models) bezeichnet. Zweitens basiert ChatGPT auf einer Version eines anderen generativen OpenAI-KI-Pakets namens GPT-3.5. Vor GPT-3.5 gab es GPT-3 und davor GPT-2. Heutzutage gilt GPT-2 im Vergleich zu den späteren Serien als eher primitiv, und wir alle warten gespannt auf die bevorstehende Enthüllung von GPT-4, siehe meine Diskussion unter den Link hier.

Die Forschungsstudie, die ich kurz erläutern möchte, bestand aus der Untersuchung von GPT-2. Das ist wichtig zu erkennen, da wir jetzt weiter über die Fähigkeiten von GPT-2 hinausgehen. Machen Sie keine voreiligen Schlüsse aus den Ergebnissen dieser Analyse von GPT-2. Nichtsdestotrotz können wir viel aus der Bewertung von GPT-2 lernen. Die Studie trägt den Titel „Do Language Models Plagiarize?“ von Jooyoung Lee, Thai Le, Jinghui Chen und Dongwon Lee, erschienen im ACM WWW '23, 1.–5. Mai 2023, Austin, TX, USA.

Dies ist ihre zentrale Forschungsfrage:

„Inwieweit (nicht beschränkt auf das Auswendiglernen) nutzen LMs Phrasen oder Sätze aus ihren Trainingsbeispielen aus?“

Sie verwendeten diese drei Ebenen oder Kategorien potenzieller Plagiate:

„Wörtliches Plagiat: Exakte Kopien von Wörtern oder Sätzen ohne Umwandlung.“
„Paraphrasen-Plagiat: Synonyme Substitution, Neuordnung von Wörtern und/oder Rückübersetzung.“
„Ideenplagiat: Darstellung von Kerninhalten in gestreckter Form.“

GPT-2 wurde tatsächlich auf Internetdaten trainiert und ist somit ein geeigneter Kandidat für diese Art der Analyse:

„GPT-2 ist auf WebText vortrainiert und enthält über 8 Millionen Dokumente, die aus 45 Millionen Reddit-Links abgerufen wurden. Da OpenAI WebText nicht öffentlich veröffentlicht hat, verwenden wir OpenWebText, eine Open-Source-Nachbildung des WebText-Korpus. Es wurde zuverlässig von der früheren Literatur verwendet.“

Ausgewählte Schlüsselergebnisse aus der Studie bestehen aus:

„Wir haben festgestellt, dass vortrainierte GPT-2-Familien Plagiate von OpenWebText machen.“
„Unsere Ergebnisse zeigen, dass die Feinabstimmung wörtliche Plagiatsfälle von OpenWebText erheblich reduziert.“
„In Übereinstimmung mit Carlini et al. und Carlini et al. stellen wir fest, dass größere GPT-2-Modelle (groß und xl) im Allgemeinen häufiger plagiierte Sequenzen erzeugen als kleinere.“
„Verschiedene LMs können jedoch unterschiedliche Plagiatsmuster aufweisen, und daher lassen sich unsere Ergebnisse möglicherweise nicht direkt auf andere LMs verallgemeinern, einschließlich neuerer LMs wie GPT-3 oder BLOOM.“
„Darüber hinaus ist bekannt, dass automatische Plagiatsdetektoren viele Fehlermodi haben (sowohl bei falsch negativen als auch bei falsch positiven Ergebnissen).
„Angesichts der Tatsache, dass ein Großteil der Trainingsdaten von LMs aus dem Internet geschabt wird, ohne die Inhaltseigentümer zu informieren, hat ihre Wiederholung von Wörtern, Sätzen und sogar Kernideen aus Trainingssets in generierten Texten ethische Auswirkungen.“

Wir brauchen definitiv noch viel mehr Studien dieser Art.

Wenn Sie neugierig sind, wie GPT-2 in Bezug auf das Datentraining im Vergleich zu GPT-3 abschneidet, gibt es einen ziemlich deutlichen Kontrast.

Nach gemeldeten Angaben war das Datentraining für GPT-3 wesentlich umfangreicher:

„Das Modell wurde mit Textdatenbanken aus dem Internet trainiert. Dazu gehörten satte 570 GB an Daten, die aus Büchern, Webtexten, Wikipedia, Artikeln und anderen Schriftstücken im Internet stammen. Genauer gesagt wurden 300 Milliarden Wörter in das System eingespeist“ (BBC ScienceFocus Zeitschrift, „ChatGPT: Alles, was Sie über das GPT-3-Tool von OpenAI wissen müssen“ von Alex Hughes, Februar 2023).

Für diejenigen unter Ihnen, die an eingehenderen Beschreibungen des Datentrainings für GPT-3 interessiert sind, finden Sie hier einen Auszug aus der offiziellen GPT-3-Modellkarte, die auf GitHub veröffentlicht wurde (letztes Aktualisierungsdatum ist September 2020):

„Der GPT-3-Trainingsdatensatz besteht aus Text, der ins Internet gestellt wird, oder aus Text, der ins Internet hochgeladen wird (z. B. Bücher). Zu den bisher trainierten und ausgewerteten Internetdaten gehören: (1) eine Version des CommonCrawl-Datensatzes, gefiltert nach Ähnlichkeit mit hochwertigen Referenzkorpora, (2) eine erweiterte Version des Webtext-Datensatzes, (3 ) zwei internetbasierte Buchkorpora und (4) englischsprachige Wikipedia.“
„Angesichts seiner Trainingsdaten sind die Ergebnisse und Leistungen von GPT-3 repräsentativer für mit dem Internet verbundene Bevölkerungsgruppen als für diejenigen, die von einer verbalen, nicht digitalen Kultur durchdrungen sind. Die mit dem Internet verbundene Bevölkerung ist repräsentativer für entwickelte Länder, wohlhabende, jüngere und männliche Ansichten und ist hauptsächlich US-zentriert. Wohlhabendere Nationen und Bevölkerungsgruppen in entwickelten Ländern weisen eine höhere Internetdurchdringung auf. Die digitale Geschlechterkluft zeigt auch, dass weltweit weniger Frauen online vertreten sind. Da verschiedene Teile der Welt unterschiedliche Grade der Internetdurchdringung und des Zugangs zum Internet haben, repräsentiert der Datensatz außerdem weniger vernetzte Gemeinschaften unterrepräsentiert.“

Eine Erkenntnis aus dem obigen Hinweis zu GPT-3 ist, dass eine Faustregel unter denen, die generative KI entwickeln, lautet, dass die Chancen auf eine Verbesserung oder Weiterentwicklung der generativen KI steigen, je mehr Internetdaten Sie scannen können.

Sie können dies auf zwei Arten betrachten.

1) Verbesserte KI. Wir werden eine generative KI haben, die so viel wie möglich durch das Internet kriecht. Das aufregende Ergebnis ist, dass die generative KI besser sein wird, als sie es bereits ist. Darauf darf man sich freuen.
2) Kopieren von Potenzial in Hülle und Fülle. Diese Ausweitung des Scannens des Internets macht das Problem der Plagiate und Urheberrechtsverletzungen potenziell immer größer und größer. Während zuvor nicht so viele Ersteller von Inhalten betroffen waren, wird die Größe aufblühen. Wenn Sie ein Anwalt auf der Seite der Inhaltsersteller sind, treibt Ihnen dies Tränen in die Augen (vielleicht Tränen der Bestürzung oder Freudentränen darüber, welche Aussichten dies in Bezug auf Gerichtsverfahren mit sich bringt).

Ist das Glas halb voll oder halb leer?

Du entscheidest.

Legale Landminen warten

Eine Frage, über die Sie vielleicht nachdenken, ist, ob Ihre geposteten Internetinhalte als Freiwild für das Scannen betrachtet werden. Wenn sich Ihre Inhalte hinter einer Paywall befinden, sind sie vermutlich kein Ziel für das Scannen, da sie je nach Stärke der Paywall nicht ohne weiteres erreicht werden können.

Ich würde vermuten, dass die meisten gewöhnlichen Menschen ihre Inhalte nicht hinter einer Paywall verstecken. Sie möchten, dass ihre Inhalte öffentlich zugänglich sind. Sie gehen davon aus, dass die Leute sich das anschauen werden.

Bedeutet die öffentliche Verfügbarkeit Ihrer Inhalte zwangsläufig auch, dass Sie genehmigen, dass sie für die Verwendung durch generative KI gescannt werden, die mit Daten trainiert wird?

Vielleicht ja vielleicht nein.

Es ist eine dieser Rechtsangelegenheiten, die mit den Augen verdreht werden.

Zurück zu dem zuvor zitierten Bloomberg-Gesetz Artikel erwähnen die Autoren die Bedeutung der Allgemeinen Geschäftsbedingungen (AGB), die mit vielen Websites verbunden sind:

„Die legale Landmine – die von unwissenden KI-Unternehmen, die Online-Bots zum Daten-Scraping betreiben, weitgehend ignoriert wird – ist in den Allgemeinen Geschäftsbedingungen versteckt, die allgemein auf öffentlichen Websites aller Art verfügbar sind. Im Gegensatz zum derzeit ungeklärten Recht des geistigen Eigentums und dem Dilemma der Urheberrechtsverletzung werden die Allgemeinen Geschäftsbedingungen einer Website durch etabliertes Vertragsrecht gestützt und können in der Regel vor Gericht durchgesetzt werden, wenn man sich auf eine ausreichende Anzahl von Präzedenzfällen stützt.“

Sie weisen darauf hin, dass unter der Annahme, dass Ihre Website eine lizenzbezogene Seite hat, die Chancen gut stehen, dass, wenn Sie eine standardisierte, moderne Vorlage verwenden, diese eine entscheidende Klausel enthalten könnte:

„Folglich enthalten die meisten Standard-Nutzungsbedingungen für Websites – die reichlich im freien Zugang verfügbar sind – eine Klausel, die automatisiertes Data Scraping verbietet. Ironischerweise wurden solche frei verfügbaren Vorlagen möglicherweise für das ChatGPT-Training verwendet. Daher möchten Inhaltseigentümer möglicherweise ihre Allgemeinen Geschäftsbedingungen überprüfen und eine separate Klausel einfügen, die jegliche Nutzung von Inhalten von den Websites für KI-Schulungen oder ähnliche Zwecke, ob manuell oder automatisch erfasst, ohne vorherige schriftliche Genehmigung des Website-Eigentümers rundweg verbietet .“

Ein zusätzlicher Kicker ist in ihrer Analyse möglicher Maßnahmen enthalten, die Inhaltsersteller in Bezug auf ihre Websites ergreifen können:

„Daher kann die Einfügung einer durchsetzbaren Vertragsstrafenklausel für jeden Verstoß gegen die No-Scraping-Klausel, ergänzt durch eine einstweilige Verfügung ohne Bindung, eine vertretbare Lösung für diejenigen Autoren kreativer Inhalte sein, die nicht daran interessiert sind, die Früchte ihrer zu liefern geistige Arbeit für KI-Trainingszwecke, ohne dafür bezahlt zu werden oder zumindest eine angemessene Anerkennung für ihre Arbeit zu erhalten.“

Vielleicht sollten Sie sich diesbezüglich an Ihren Anwalt wenden.

Einige sagen, dass dies ein wichtiger Weg ist, um den KI-Herstellern zu sagen, dass die Ersteller von Inhalten den Schutz ihrer Inhalte sehr ernst nehmen. Sicherzustellen, dass Ihre Lizenzierung den richtigen Wortlaut hat, scheint die KI-Hersteller auf sich aufmerksam zu machen.

Andere hingegen sind etwas niedergeschlagen. Sie sagen niedergeschlagen, dass Sie damit fortfahren können, die härteste und tödlichste juristische Sprache auf Ihre Website zu setzen, aber am Ende werden die KI-Macher sie scannen. Sie werden nicht wissen, dass sie es getan haben. Sie werden eine teuflische Zeit haben, um zu beweisen, dass sie es getan haben. Es ist unwahrscheinlich, dass Sie feststellen, dass ihre Ausgaben Ihren Inhalt widerspiegeln. Es ist ein harter Kampf, den Sie nicht gewinnen werden.

Das Gegenargument ist, dass Sie den Kampf aufgeben, bevor er überhaupt geführt wurde. Wenn Sie nicht zumindest über ausreichende juristische Sprache verfügen und sie jemals erwischen, werden sie sich winden und wiegen, um sich jeglicher Verantwortung zu entziehen. Alles nur, weil Sie nicht die richtige Art von juristischem Fachjargon gepostet haben.

In der Zwischenzeit würde ein anderer Ansatz, der versucht, an Zugkraft zu gewinnen, darin bestehen Markierung Ihre Website mit etwas, das besagt, dass die Website nicht von generativer KI gescannt werden soll. Die Idee ist, dass ein standardisierter Marker entwickelt wird. Websites könnten den Marker vermutlich zu ihrer Website hinzufügen. KI-Herstellern würde gesagt, dass sie ihre Datenüberprüfung ändern sollten, um die markierten Websites zu überspringen.

Kann ein Marker-Ansatz erfolgreich sein? Besorgniserregend sind die Kosten für den Erhalt und die Anbringung der Markierungen. Zusammen mit der Frage, ob sich die KI-Hersteller an die Markierungen halten und sicherstellen, dass sie es vermeiden, die markierten Seiten zu scannen. Eine andere Perspektive ist, dass selbst wenn die KI-Hersteller den Markierungen nicht zustimmen, dies einen weiteren verräterischen Hinweis darauf liefert, vor Gericht zu gehen und zu argumentieren, dass der Ersteller der Inhalte die letzte Meile gegangen ist, um zu versuchen, vor dem KI-Scannen zu warnen.

Huch, das alles macht dir den Kopf schwirren.

Fazit

Ein paar abschließende Bemerkungen zu diesem heiklen Thema.

Sind Sie bereit für eine umwerfende Perspektive auf diese ganze KI als Plagiator und Urheberrechtsverletzer-Dilemma?

Ein Großteil der Annahme, generative KI bei Plagiaten oder Urheberrechtsverletzungen zu „ertappen“, hängt davon ab, ob solche Ergebnisse entdeckt werden stark ähneln Vorarbeiten wie die Inhalte im Internet, die möglicherweise während des Datentrainings gescannt wurden.

Nehmen wir jedoch an, dass hier ein Teile-und-Herrsche-Trick im Spiel ist.

Hier ist was ich meine.

Wenn die generative KI ein winziges bisschen von hier und ein winziges bisschen von dort ausleiht und sie letztendlich zu einer bestimmten Ausgabe zusammenmischt, werden die Chancen, einen Gotcha-Moment zu haben, enorm verringert. Jede Ausgabe wird scheinbar nicht auf einen Schwellenwert ansteigen, der ausreicht, um mit Sicherheit sagen zu können, dass sie von einem bestimmten Quellelement stammt. Der resultierende Aufsatz oder andere Ausgabemodi werden nur teilweise übereinstimmen. Und bei dem üblichen Ansatz zu argumentieren, dass ein Plagiat oder eine Urheberrechtsverletzung vorliegt, müssen Sie normalerweise mehr als nur ein winziges bisschen im Spiel sein, insbesondere wenn der Bissen nicht auffällt und im Internet weit verbreitet ist (Unterbietung). jede angemessene Beweislast für Unterschlagung).

Können Sie dennoch überzeugend behaupten, dass das Datentraining durch generative KI Websites und Content-Ersteller abgezockt hat, auch wenn der suggerierte Beweis einen vermeintlich immateriellen Anteil hat?

Denk darüber nach.

Wenn wir potenziell mit Plagiaten in großem Umfang und Urheberrechtsverletzungen in großem Umfang konfrontiert sind, müssen wir möglicherweise unseren Ansatz zur Definition von Plagiaten und/oder Urheberrechtsverletzungen ändern. Vielleicht gibt es einen Grund für Plagiate oder Urheberrechtsverletzungen im Allgemeinen oder im Großen und Ganzen. Ein Mosaik aus Tausenden oder Millionen winziger Schnipsel könnte als Begehung solcher Verstöße ausgelegt werden. Das offensichtliche Problem ist jedoch, dass dies dazu führen kann, dass alle Arten von Inhalten plötzlich unter einen Schirm von Verstößen geraten. Dies könnte ein rutschiger Abhang sein.

Schwere Gedanken.

Apropos kräftige Gedanken, der legendäre Schriftsteller Leo Tolstoi sagte bekanntlich: „Der einzige Sinn des Lebens besteht darin, der Menschheit zu dienen.“

Wenn Ihre Website und die Websites anderer zur Verbesserung der KI gescannt werden und Sie dafür keinen einzigen Cent bekommen, könnten Sie feierlichen Trost in dem glühenden Glauben haben, dass Sie zur Zukunft der Menschheit beitragen? Es scheint ein kleiner Preis zu sein.

Nun, es sei denn, KI entpuppt sich als das gefürchtete existenzielle Risiko, das alle Menschen auslöscht. Das sollte man sich nicht anrechnen lassen. Ich nehme an, Sie würden genauso gut nicht zu diesem schrecklichen Ergebnis beitragen. Abgesehen von dieser katastrophalen Vorhersage denken Sie vielleicht, dass, wenn die KI-Macher Geld mit ihrer generativen KI verdienen und sie das Profitieren zu genießen scheinen, Sie auch ein Stück vom Kuchen abbekommen sollten. Teilen und teilen. Die KI-Hersteller sollten um Erlaubnis bitten, jede Website zu scannen, und dann auch einen Preis aushandeln, der dafür zu zahlen ist, dass sie den Scan durchführen durften.

Geben Sie Kredit, wo Kredit fällig ist.

Lassen wir Sir Walter Scott vorerst das letzte Wort: „Oh, was für ein verworrenes Netz wir weben. Als erstes üben wir zu täuschen.“

Dies gilt vielleicht, wenn Sie glauben, dass Täuschung im Gange ist, oder vielleicht nicht, wenn Sie denken, dass alles in Ordnung und vollkommen offen und legitim ist. Bitte geben Sie sich großzügig die Ehre, dass Sie darüber nachgedacht haben. Du verdienst es.

Quelle: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- und-ai-gesetz/