Die letzte Woche habe ich Workflows mit Dalle-3 erstellt und die Qualität war zufriedenstellend. Zufriedenstellend heißt nicht gut. Ein großes Manko ist das Dalle-3 oder Midjourney nicht so gut Texte darstellen können. Für alle die aber im Trainings/Workshop Bereich unterwegs sind, ist das von Nachteil. Wir wollen unsere Botschaften platzieren und idealerweise passende Bilder mit Texten haben.
Mit Stability AI gib es jetzt eine Alternative, die das sehr gut kann „Stable Diffusion 3 „
Ich hatte heute Morgen den Newsletter von Dr. Daniel Bender gelesen und Daniel hat von Stable Diffusion 3 und dem API Release gesprochen.
Stable Diffusion 3 API Release: Outperforms Competitors
Stable Diffusion 3 (SD3) and Stable Diffusion 3 Turbo, which were already announced in the week after the Stable Cascade release, are available now via the Stability AI Developer Platform API.
The published research paper shows that based on human preference evaluations outperforms state-of-the-art text-to-image generation systems such as DALL·E 3 (integrated in ChatGPT) and Midjourney v6 in text rendering (typography) and prompt following while being on par in visual aesthetics. (Aus Daniels Newsletter)
Stable Diffusion v3 is out (API only so far)
Realized from the @TypingMindApp newsletter feature announcement that #SD3 launched. Somehow a sign that there is far too much happening and I can't follow all the AI news out there.
Registering with a Google account will give you 25 free credits, which can be used to generate images with SD3 (6.5 credits) and SD3 Turbo (4 credits). The prices are quite competitive as you get 1000 credits for $10 and with that 1 credit corresponds to 1 cent. For comparison, generating an image with DALL·E 3 via the OpenAI API costs 8 cent in the same size.
Wie sieht ein einfacher Workflow aus?
Den Workflow habe ich zum Testen aufgesetzt und funktioniert wunderbar.
Fazit
Ich werde jetzt meine Bilder mit Stability AI erstellen lassen. Damit habe ich größere Vorteile. Mit den Prompts von Stability AI habe ich mich noch nicht beschäftigt das wird, so denke ich, nicht so aufwendig sein. Ein weiterer Vorteil ist, das man auch noch mehr Funktionen hat und Videos erstellen kann.
Wir erleben das KI Systeme immer besser und schneller für alle mögliche Anwendungsfälle und spezialisierten Code schreiben kann. Die Fehlerquoto wird immer geringer.
In dem Post zeige ich wie man Infografiken mit GPTVision in einem zweistufigen Prompt Ansatz auswerten kann. Die Umsetzung erfolg mit No-Code Tools, Airtable, Make, OpenAi und GPTVision
In diesem Blogbeitrag teile ich meine Erfahrungen mit der Erstellung konsistenter Infografiken mithilfe von GPT-4o. Ich beschreibe, wie ich einen effizienten Workflow entwickelt habe, um aus beliebigen Texten hochwertige Bildprompts zu generieren, die speziell für 16:9-Infografiken optimiert sind
Der Blog Post zeigt die Probleme beim Upload von grossen Dateien zu youtube und wie man sich helfen kann. Des weiteren einen coolen Prompts um Videos zusammenzufassen.