L'IA qui défie l'imagination

17 Jul 2023

En voyant les tarés de 4chan sur différent boards. J'ai pu voir qu'ils utilisaient localement du Stable Diffusion et donc... maitre de toute création possible et inimaginable.

J'ai donc suivi le pas, installé localement le StableDiffusion, "piraté" des fichiers semble-t-il au bon fonctionnement du truc... une fois toute les merdes et surcouche de Windows que je n'utiliserais jamais au quotidien (Python, CUDA) je me suis amusé à comprendre comment ce truc fonctionnais. Test de bon fonctionnement validé... pour dire que tout est bien installé, c'est ok...

Mais y a plein d'option, c'est un cockpit d'avion ce truc... Y a les Prompt mais aussi les négative prompt... les "Seed" (graine), et d'autre truc comme le denoise, le CFG Scale, sampling steps, sampling method dont j'arrive toujours pas à comprendre ne serait-ce que le début d'une logique. Y a plein de tuto qui utilisent TOUS un logiciel, modèle ou réfèrence différente... c'est assez compliqué de se retrouver. (A tel point que ma source pour crée mon premier Lora c'est un truc assez obscure en utilisant Google Drive)

J'ai essayé plein de modèle autre que le basique "Stable Diffusion 1.5" à la vue de certaine création très réussi.

Et en parallèle, j'ai découvert le monde du "Modèle, Lora" et cie crée par la communauté...

Le modèle c'est simple, c'est le style artistique qu'on souhait comme rendu et les "Lora" ça peut être plusieurs truc si j'ai bien compris, comme un environnement artistique, ou un personnage spécifique. Bien évidemment, les Loras demande a être entrainé

D'ailleurs vu que c'est local, vous vous doutez bien que ça demande une certaine config... 8 GB de VRAM c'est limite, limite pour vous dire... et ça prends parfois plus de temps que via le Web / Mindjourney..

J'ai pu faire quelques bon truc "à la main" ou en recopiant quelques prompt / graine.

Là j'ai voulu recrée 3 perso d'American Dad (sans l'aide d'un lora), c'était compliqué au début... mais avec img2img, ça simplifie pas mal.

La un modèle "Pixar / Disney 3D" que j'ai trouvé plutôt "mignon".

Et là, depuis 2 jours, j'ai tenté de crée mon premier Lora. Plus ou moins avec succès au vu du résultat. J'ai pris Grenat de FF9, fouillez à droite / gauche d'internet pour trouver moult Artwork / Fan art correct et envoyé à entrainer sur un serveur via Google Drive. J'ai ensuite téléchargé le Lora entrainé... et je trouve que ça fait le job pour un truc de test... (bon, ça m'a bouffer une demi-journée... m'enfin bon, je suis content que ça ai fonctionné)...

Ceci n'est pas un cosplay et cette femme n'existe pas

Après en fouillant plus loin, je n'ai encore pas tenter de faire des paysages, des truc un peu plus "artistique"...
C'est puissant, mais c'est pas parfait, on sent surtout que la limite vient pour la plupart des modèles...

Par exemple, celui de Disney / Pixar... les personnages n'arrête pas de sourire, c'est assez chiant... même en précisant "angry" dans les prompt ou en mettant "smile" dans le negative prompt...

Mais bon, de loin, je le trouve plus intéressant que Mindjourney... de près un peu moins, car la commu est très "NSFW" comparé à celle de Mindjourney, j'ai l'impression que c'est plus rare de tomber sur des truc "whaou"...

D'ailleurs, si je devais donner une raison de pourquoi j'ai envie de changer de GPU, Stable Diffusion viendrait en premier plutôt que les JV.