Was Nvidias neues Text-to-3D für Engineering und Produktdesign bedeutet

tl; dr: Die generative KI entwickelt sich in einem rasanten Tempo. Der neueste Algorithmus von Nvidia wandelt Text doppelt so schnell in 3D-Mesh um wie Projekte, die vor knapp 2 Monaten veröffentlicht wurden. Das bedeutet, dass die technischen Möglichkeiten bereits jetzt unsere Fähigkeit, damit zu arbeiten, übersteigen.

Letzten Wochen Krepppapier von Nvidia-Wissenschaftlern demonstrierten die exponentielle Geschwindigkeit, mit der sich der Bereich der generativen KI entwickelt. Diese explosionsartige Aktivität – besonders sichtbar in den letzten 9 Monaten – wird sich auf alle Bereiche des Lebens auswirken, nicht zuletzt auf Produktdesign, Konstruktion und Produktion. Die Änderungen werden die Branche von strukturellen Zwängen bei der Art und Weise, wie Ideen kommuniziert werden, befreien, schnellere Innovationszyklen ermöglichen und es ihr letztendlich ermöglichen, ihre Nachhaltigkeitsversprechen zu erfüllen.

Beispielnetze aus den Magic 3D-Algorithmen von Nvidia Research mit den Eingabeaufforderungen, die zu ihrer Generierung verwendet wurden.

Nvidia Deep Imagination Research

Nachdem man jahrelang gesagt hatte, dass KI unsere Arbeitsweise grundlegend revolutionieren würde, erwarteten nur wenige, dass die Kreativbranche zu ihren ersten Opfern gehören würde. Das Aufkommen des menschenähnlichen Textgenerators von GPT-3 im Jahr 2020 rückte die Möglichkeiten schärfer in den Fokus. Seitdem war es ein wilder Ritt: DALL-E (Text-to-Image), Whisper (Spracherkennung) und zuletzt Stable Diffusion (Text-to-Image) haben nicht nur die Fähigkeiten von Sprach- und visuellen KI-Tools erweitert, sondern auch reduzierte die für ihre Nutzung erforderlichen Ressourcen (von 175 Mrd. Parametern für GPT-3 auf 900 Mio. für Stable Diffusion).

Die Größe von Stable Diffusion bedeutet weniger als 5 GB Speicherplatz – kann auf jedem Laptop ausgeführt werden. Nicht nur das; Im Gegensatz zu OpenAI (das hauptsächlich von Microsoft finanziert wird und GPT-3, DALL-E und Whisper veröffentlicht), ist Stable Diffusion Open Source, was bedeutet, dass andere viel leichter auf seinen Erkenntnissen aufbauen können. Damit sehen wir erst den Beginn des Innovationszyklus – es kommt noch viel mehr, wie Nvidias Papier jetzt zeigt.

Die Unterstützer von Stable Diffusion (stability.ai) treiben diesen Trend weiter voran, indem sie anderen Teams technologische und finanzielle Zuschüsse gewähren, die die Erforschung in neue Richtungen lenken. Darüber hinaus macht eine Fülle von Projekten die Tools einem immer breiteren Nutzerkreis zugänglich. Darunter befinden sich Plugins für Blender, ein Open-Source-Designtool, und das proprietäre Photoshop-Äquivalent von Adobe. Der vollständige API-Zugriff auf die Tools wird mit großen Venture-Capital-Dollars finanziert, was bedeutet, dass Hunderte Millionen Softwareentwickler, nicht nur einige Hunderttausend Dateningenieure, nun ihre eigenen Tools auf diesen Algorithmen erstellen werden.

Sprache, Bilder und Text gehören zu den ersten Branchen, die von diesen Technologien gestört werden. Aber 3D ist nicht weit dahinter. Jenseits der generativen Nischenkunst sind Cartoons der offensichtliche erste Anwendungspunkt. Es gibt bereits einen Pokémon-Generator, der auf Stable Diffusion basiert. Als nächstes folgen visuelle Effekte und Filme. Aber viele andere Sektoren werden wahrscheinlich gestört werden – darunter die Innenarchitektur, wobei Interiorai.com die Führung übernimmt.

Bei all dieser Aufregung fühlt sich die Anwendung der Innovationen auf Design & Engineering wie ein nachträglicher Einfall an. Dennoch dürfte es der Bereich sein, der letztendlich am stärksten betroffen ist. Natürlich gibt es anfängliche Herausforderungen: Zum einen sind Stable Diffusion und seine Konkurrenten noch nicht sehr präzise. Das ist kein Problem für Cartoons, aber es ist eine große Herausforderung für jeden Versuch, Text in vollständige 3D-Geometrien umzuwandeln, die in industriellen Kontexten verwendet werden. Das ist ein Bereich, der aufkeimendes Interesse hat (ein Projekt namens Bits101 wurde 2015 in Israel gestartet). Dies mag der heilige Gral der Branche sein, aber es gibt viele Zwischenherausforderungen, die möglicherweise viel einfacher zu lösen sind. Dazu gehört eine verbesserte Objekterkennung (der Yolo-Algorithmus wird bereits erfolgreich eingesetzt), die zu einer verbesserten Zitierung und Annotation führen wird – was die Qualität verbessert und Fehler reduziert. Plugins sollen es auch einfacher machen, mit generativer KI grundlegende Designs (Primitives) zu entwickeln, die dann in Designtools weiter bearbeitet werden können, um die Toleranz je nach Anforderung zu verbessern. Dies ist ein Ansatz, der bereits in Altairs Inspire verwendet wurde, das die Finite-Elemente-Analyse verwendete, um dasselbe zu tun. Diese Primitive können auch als synthetische Datenbank kommentierter Modelle dienen, an denen es in der 3D-CAD-Industrie mangelt. CEO und Gründer von Physna weist in einem Artikel darauf hin ihre eigenen Versuche, diese neuartigen Methoden zur Erstellung detaillierter 3D-Designs zu verwenden, was auch eine Reihe von Fallstricken bei der Verwendung synthetischer Daten zur Steuerung dieser Algorithmen aufzeigt Werkzeugverschleißbibliothek zur Bestimmung der besten Bearbeitungsstrategien.

Es ist wichtig und lukrativ, diese Herausforderungen an und für sich anzugehen. Ihre Hauptwirkung wird jedoch darin bestehen, den Weg von der Idee zum Design weiterzuentwickeln, indem sie letztendlich die Abhängigkeit von 3D-Designs zur Kommunikation der Absicht verringern. Designs, ob 2D oder 3D, haben als primäres Mittel gedient, um die Bedürfnisse der Kunden in Endprodukte umzusetzen. Das schränkt die Branche ein, weil diese Entwürfe als Blackbox dienen, in der all diese wertvollen Kundeneinblicke, Fertigungseinschränkungen und Unternehmensziele gespeichert sind, die nicht entwirrt werden können, aber allein identifiziert werden können. Das heißt, wenn sich etwas ändert, ist es nahezu unmöglich, einfach das Design anzupassen. Dies ist der Grund, warum Fertigungsinnovationen wie der 3D-Druck so lange brauchen, um angenommen zu werden, und kurzfristige Investoren immer wieder enttäuschen. Die Komponenten, aus denen ein Flugzeug besteht, sind trotz einer produktiven Lebensdauer von mehr als 20 Jahren ab dem Moment ihrer Konstruktion „eingestellt“. Es gibt kaum Spielraum für Innovationen – diese müssen bis zur Markteinführung der nächsten Generation warten.

In der Lage zu sein, eine einzige Einschränkung zu ändern und einem Algorithmus wie Stable Diffusion zu erlauben, die Design- und Produktionsparameter wiederherzustellen, wird die Einführung neuer Innovationen erheblich beschleunigen und es uns ermöglichen, leichtere, leistungsfähigere Produkte schneller zu bauen. Wie in der Formel 1 oder im Systems Design werden künftige Ingenieure als Constraint-Manager fungieren, die in der Lage sind, in Worten und in Bezug auf Datenquellen auszudrücken, was das Ziel und die Grenzen des Produkts sind.

Ohne diese Beschleunigung des Engineering-Prozesses für neue und bestehende Produkte können wir die ehrgeizigen Nachhaltigkeitsziele, die wir uns setzen müssen, kaum erreichen. Dazu müssen wir uns zunächst auf eine Sprache einigen, mit der wir über Designs hinaus kommunizieren können. Dieses neue semantische Modell ist die offensichtliche Lücke in den oben skizzierten Innovationen. Eine Reihe von Unternehmen haben bereits begonnen, damit zu experimentieren, wie z nTopologie mit ihren Konzepten von Feldern. Und doch ist das Tempo des Wandels langsam, im Gegensatz zu den Algorithmen, die das semantische Modell füttern wird. Nvidias neuer Algorithmus soll angeblich mehr als doppelt so schnell sein DreamFusion, veröffentlicht vor weniger als 2 Monaten. Produkt- und Engineering-Unternehmen müssen jetzt daran arbeiten, ihre Ideen auf neue, zukunftssichere Weise zu erfassen, um das Beste aus den Möglichkeiten zu machen, die diese Explosion der generativen KI bietet. Die Geschwindigkeit der Veränderung von Algorithmen hat einmal mehr gezeigt, dass das Morsegesetz überall dort gilt, wo Werkzeuge digitalisiert werden. Die Herausforderung bleibt unsere menschliche Unfähigkeit, diesen Wandel anzunehmen und trotz der Dringlichkeit der Aufgabe neue Kommunikationsmethoden einzusetzen, die in der Lage sind, ihr Potenzial freizusetzen.

Quelle: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/