Ridicoled Stable Diffusion 3 eccelle nell'orrore corporeo generato dall'intelligenza artificiale

Posted On: Giugno 13, 2024
Posted By: Benvenuto Moze
Comments: 0

Ingrandire / Immagine generata dall'intelligenza artificiale utilizzando Stable Diffusion 3 di una ragazza sdraiata sull'erba.

Mercoledì, Stability AI ha rilasciato i pesi per Spread stabile 3 medio, un modello di montaggio di immagini basato sull'intelligenza artificiale che trasforma i suggerimenti di testo in immagini generate dall'intelligenza artificiale. Tuttavia, il suo arrivo è stato ridicolizzato online, perché genera immagini di esseri umani in un modo che sembra un passo indietro rispetto ad altri moderni modelli di fotomontaggio come Midjourney o DALL-E 3. Di conseguenza, può produrre atrocità visive selvagge e anatomicamente errate. . Facilmente.

Un argomento su Reddit intitolato “Questa versione dovrebbe essere uno scherzo? [SD3-2B],“Descrive in dettaglio i sorprendenti fallimenti dell'SD3 Medium nel rendere gli esseri umani, in particolare gli arti umani come mani e piedi. Un altro thread intitolato: “Perché l'SD3 è così pessimo nel generare ragazze sdraiate sull'erba?“Mostra problemi simili, ma per interi corpi umani.

Le mani hanno tradizionalmente rappresentato una sfida per i generatori di immagini AI a causa della mancanza di buoni esempi nei primi set di dati di addestramento, ma recentemente diversi modelli di sintesi delle immagini sembrano aver superato il problema. In questo senso, l'SD3 sembra un grande passo indietro per gli appassionati di fotomontaggio che si riuniscono su Reddit, soprattutto rispetto alle recenti versioni Stability come l'SD XL Turbo di novembre.

“Non è passato molto tempo da quando StableDiffusion era in concorrenza con Midjourney, e ora al confronto sembra uno scherzo. Almeno i nostri set di dati sono sicuri ed etici!” libri Un utente Reddit.

Immagine generata dall'intelligenza artificiale utilizzando Stable Diffusion 3 Medium.
Immagine generata dall'intelligenza artificiale utilizzando Stable Diffusion 3 di una donna sdraiata sull'erba.
Immagine generata dall'intelligenza artificiale creata con Stable Diffusion 3 che mostra mani deformate.
Immagine generata dall'intelligenza artificiale utilizzando Stable Diffusion 3 di una donna sdraiata sull'erba.
Immagine generata dall'intelligenza artificiale creata con Stable Diffusion 3 che mostra mani deformate.
Immagine media SD3 generata dall'intelligenza artificiale, creata da un utente Reddit con il messaggio “Donna che indossa un vestito sulla spiaggia”.
Un'immagine SD3 media generata dall'intelligenza artificiale, creata da un utente Reddit utilizzando “una foto di una persona che fa un pisolino in salotto”.

Gli appassionati di immagini AI hanno finora attribuito il fallimento di Stable Diffusion 3 all'insistenza di Stable nel filtrare i contenuti per adulti (spesso chiamati contenuti “NSFW”) dai dati di addestramento SD3 che insegnano al modello come generare immagini. “Che ci crediate o no, la pesante censura dei modelli porta anche all'eliminazione dell'anatomia umana, quindi… ecco cosa è successo.” libri Un utente Reddit nel thread.

READ Mark Darrah di BioWare ritiene che Veilguard sia il primo Dragon Age in cui "il combattimento è davvero divertente".

Fondamentalmente, ogni volta che un utente chiede un'idea che non è ben rappresentata nel set di dati di addestramento del modello AI, il modello di sintesi delle immagini analizzerà la sua migliore interpretazione di ciò che l'utente sta chiedendo. E a volte può essere davvero terrificante.

pubblicazione Spread stabile 2.0 Nel 2022, ha sofferto di problemi simili nel ritrarre bene gli esseri umani, e i ricercatori di intelligenza artificiale hanno presto scoperto che censurare contenuti per adulti contenenti nudità potrebbe esacerbare il problema. Ostacolare gravemente La capacità di un modello AI di creare un'anatomia umana accurata. All'epoca, Stability AI aveva invertito la rotta con SD 2.1 e SD XL, riacquistando alcune funzionalità perdute filtrando in modo aggressivo i contenuti NSFW.

Un altro problema che può verificarsi durante il pre-addestramento del modello è che a volte il filtro NSFW utilizzato dai ricercatori per rimuovere le immagini di adulti dal set di dati è troppo esigente, rimuovendo accidentalmente immagini che potrebbero non essere offensive e impedendo al modello di rappresentare esseri umani in determinate situazioni. . “[SD3] “Funziona bene finché non ci sono esseri umani nell'immagine, e penso che il loro filtro nsfw potenziato per filtrare i dati di addestramento abbia deciso che qualsiasi cosa umana sia nsfw.” libri Un Redditor su questo argomento.

Usare un Dimostrazione online gratuita Dall'SD3 su Hugging Face, abbiamo eseguito le istruzioni e abbiamo visto risultati simili a quelli riportati da altri. Ad esempio, il messaggio “Uomo che mostra le mani” restituiva l'immagine di un uomo che teneva indietro due mani enormi, anche se ciascuna mano aveva almeno cinque dita.

Esempio di SD3 Medium che abbiamo creato con il messaggio “Donna sdraiata sulla spiaggia”.
nSD3 Esempio medio che abbiamo creato con il prompt “Uomo che mostra le mani”.

Stabilità dell'intelligenza artificiale
Un esempio SD3 Medium che abbiamo creato con il messaggio “Donna che mostra le mani”.

Stabilità dell'intelligenza artificiale
Esempio SD3 Medium che abbiamo creato con il messaggio “Barbaro macho che impugna armi accanto a una TV CRT, cinema, 8K, illuminazione da studio”.
Esempio di SD3 Medium che abbiamo creato con il messaggio “Gatto in macchina con una lattina di birra”.

Stability ha annunciato Stable Diffusion 3 a febbraio e la società prevede di renderlo disponibile in diverse dimensioni. Il rilascio di oggi riguarda la versione “media”, ovvero un modello con 2 miliardi di parametri. Oltre alla presenza di pesi Disponibile sull'abbraccio del visoÈ anche disponibile per la prova tramite l'azienda piattaforma di stabilità. I pesi possono essere scaricati e utilizzati gratuitamente all'indirizzo Licenza non commerciale Appena.

READ Gli utenti iPhone sono sorpresi da un hack di ricarica poco conosciuto

Poco dopo l'annuncio di febbraio, un ritardo nel rilascio dei pesi del modello SD3 ha portato a voci secondo cui il rilascio era stato ritardato a causa di problemi tecnici o di cattiva gestione. Stabilità dell'intelligenza artificiale poiché recentemente l'azienda è caduta in disordine dimissioni Al suo fondatore e CEO Imad Mushtaq a marzo e poi a una serie di Licenziamenti. Immediatamente prima, tre ingegneri principali – Robin Rumbach, Andreas Plattmann e Dominique Lorenz –Lascia l'azienda. I suoi problemi risalgono a tempi ancora più antichi, quando emersero notizie sulla cattiva situazione finanziaria dell'azienda Il rapporto Dal 2023.

Per alcuni fan di Stable Diffusion, i fallimenti di Stable Diffusion 3 Medium sono una manifestazione visibile della cattiva gestione dell'azienda e un chiaro segnale che le cose stanno andando in pezzi. Sebbene la società non abbia dichiarato fallimento, alcuni utenti lo hanno fatto Faceva battute cupe Sulla possibilità dopo aver visto SD3 Medium:

“Penso che ora possano fallire in modo sicuro ed etico [sic] La strada, dopotutto.