DeuAq.com >> Leben >  >> Wissenschaft

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Der Einsatz künstlicher Intelligenz (KI) hat in nahezu jeder Branche der Welt Einzug gehalten, komplexe Probleme gelöst, schwierige Fähigkeiten in Sekundenschnelle erlernt und die Menschen im Allgemeinen mit fortschrittlichen Berechnungen umgehauen, von denen wir nie zu träumen gewagt hätten.

Aber während die meisten Menschen KI zum Wohle der Menschheit, zur Verbesserung der Gesellschaft und zur Lösung der großen Fragen von heute einsetzen möchten, habe ich mich entschieden, sie für einen höheren Zweck zu verwenden – die Nachbildung einiger der bekanntesten Zeichentrickfiguren durch eine bildgenerierende KI.

So funktioniert es

Bereits im Januar 2021 haben die sehr intelligenten Leute bei OpenAI ein Programm erstellt, das, wenn es mit einer Textfolge gefüttert wird, daraus ein Bild generieren kann. Dies könnte „ein Löwe auf einem Sofa“, „ein schwarzes Loch in einer Kiste“ oder eine andere ebenso seltsame Aufforderung sein. Diese Technologie erzeugte jedoch oft verschwommene Bilder oder hatte Schwierigkeiten, die Eingabeaufforderung, die ihr gegeben wurde, vollständig zu verstehen. Im April 2022 brachte OpenAI die zweite Iteration dieses Produkts auf den Markt – Dall-E 2.

Jetzt sind Sie in der Lage, qualitativ hochwertige Bilder basierend auf Ihren formulierten Eingabeaufforderungen zu erhalten, die in Sekundenschnelle hochdetaillierte Bilder bieten.

Bei dieser Technologie ist es wichtig zu beachten, dass das Endergebnis umso besser ist, je mehr Informationen Sie geben. Mir fehlen jedoch die kreativen Fähigkeiten, um wirklich ein verbales Bild zu zeichnen ... und das macht sich bei meinen KI-generierten Zeichentrickfiguren ziemlich bemerkbar. Die Software ist in der Lage, ihre beste Leistung zu erbringen, wenn ihr ein Kunststil und viele Beschreibungen gegeben werden. Ich habe mich stattdessen für vage Kunstbegriffe und einen Mangel an Details entschieden - was könnte schief gehen!

BoJack-Reiter

Eingabeaufforderung: Pferd im Anzug als Ölgemälde

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Seien wir ehrlich, basierend auf der Beschreibung „Pferd im Anzug“ hat Dall-E 2 meine Beschreibung getroffen – das ist in der Tat ein Pferd im Anzug, und meine Forderung nach einem Ölgemäldestil wurde absolut perfekt getroffen. Ich würde sogar gerne daran denken, wenn es eine Staffel gäbe, in der BoJack Horseman ein Adliger aus der Mitte des Jahrhunderts war, wäre mein Versuch, eine KI dazu zu bringen, ihn nachzubilden, absolut erfolgreich.

Ich denke, wenn Dall-E 2 mehr Informationen darüber erhalten hätte, hätten wir eine perfekte Nachbildung von BoJack in einem Ölgemälde bekommen können!

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Es gab zwei weitere Beispiele von Pferden in Anzügen, beide ebenfalls im Stil eines Ölgemäldes. Ich denke, wir sind uns alle einig, dass sie genauso elegant sind wie der andere Versuch der KI - wer hätte gedacht, dass Pferde einen Anzug so gut stylen können?

Teenage Mutant Ninja Turtle

Eingabeaufforderung: Schildkröte, die eine schwarze Maske trägt und ein Schwert und eine Pizza als Cartoon hält

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Es funktionierte...! Nun, diesmal ist es zumindest erkennbar. Die Ansage eines „Cartoons“ leistete hier einen großen Beitrag und erzeugte eine kindlichere Version der ursprünglichen Teenage Mutant Ninja Turtles .

Indem Dall-E ihm etwas mehr Informationen gab als ich es mit dem Pferd getan hatte, konnte er einen genaueren Versuch starten.

Obwohl dies keineswegs eine exakte Nachbildung ist, ist es ein weiterer beeindruckender Versuch, der auf einer begrenzten Eingabeaufforderung basiert.

Donald Duck

Eingabeaufforderung: Ente mit blauem Hemd und roter Fliege als Bleistiftzeichnung

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Was ich aus den beiden obigen Versuchen hätte lernen sollen, ist, dass der Cartoon-Kunststil hier der richtige Weg war ... Ich habe es nicht gelernt. Dies ist ein Segen und ein Fluch, denn obwohl dies mit Sicherheit der am wenigsten genaue Versuch ist, ist es auch mein Favorit.

Das sind beides Enten, beide haben rote Schleifen und blaue Hemden, beide sind sogar in unterschiedlichen Zeichenstilen gezeichnet, aber sie könnten sich nicht weniger ähnlich sehen.

Obwohl ich mir nicht sicher bin, wie viele zusätzliche Informationen ich hätte füttern können (außer einem Hut), scheint das Endbild ein offensichtliches Ergebnis zu sein - es ist schließlich genau das, wonach ich gefragt habe.

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Yogi-Bär

Eingabeaufforderung: Bär mit grünem Hut und grüner Krawatte als Animation

Wir haben einer KI Zeichentrickfiguren schlecht beschrieben. Hier ist, was es gezeichnet hat

Okay, wir haben uns hier wirklich verlaufen. Beim Versuch, einen Yogi-Bären zu finden Doppelgänger, scheine ich bei einem Maskottchen zum St. Patrick's Day gelandet zu sein.

Wieder einmal sind alle Punkte richtig. Sie sind beide Bären mit grünen Krawatten und Hüten, sie sehen sich einfach nicht ähnlich.

Zumindest war ich dieses Mal mehr auf Marke mit dem Kunststil!

Hat Dall-E 2 funktioniert?

Obwohl ich denke, dass dies eine gescheiterte Mission war, glaube ich nicht, dass es etwas mit den Fähigkeiten von Dall-E 2 zu tun hat. Die Software hat ihre beeindruckenden Fähigkeiten in einer Vielzahl von Eingabeaufforderungen, Kunststilen und Situationen unter Beweis gestellt , liegt der Mangel an Ähnlichkeit an einigen Schlüsselproblemen.

Zuerst ging ich darauf ein und dachte, Dall-E wäre auf der gleichen Wellenlänge wie ich. Als jemand, der Zeichentrickfiguren nachbilden möchte, sind die Eingabeaufforderungen für mich offensichtlich - natürlich ist "eine Ente mit blauem Hemd und roter Fliege" Donald Duck! Aber zu einem Programm, das seiner Natur nach sehr wörtlich ist, bitte ich um etwas ganz anderes.

Künstler mit einer viel besseren Vorstellungskraft als ich haben auch gezeigt, dass Sie mit einer detaillierteren Aufforderung und einem besseren Verständnis der Plattform viel beeindruckendere Ergebnisse erzielen können.

Dall-E 2 hat auch eine Funktion, die mir ein viel genaueres Ergebnis geliefert hätte. Wenn Sie ein Bild einfügen, werden Hunderte von Versionen davon in seinem eigenen Stil erstellt. Im Nachhinein eine viel logischere Herangehensweise an diese Aufgabe.

Weiterlesen:

  • Technologie der Zukunft:22 Ideen, die unsere Welt verändern werden
  • Diese Roboter-Fingerspitzen imitieren die Nervensignale einer menschlichen Hand
  • Müssen wir uns vor menschenähnlichen Androiden fürchten?