モデルレビュー - この記事は連載の一部です

パート 1: この記事

こんにちは、Einarです。

ご存知の通り、現在のAIイラストモデルの多くは、堅牢ながらも柔軟性を持つStable Diffusion 1.5に基づいています。新しいバージョン（2.0、その後に2.1）も出ましたが、あまり受け入れられませんでした（できることが大幅に限られていたためです）。

最近では、StabilityAIがSDXLと呼ばれる新しいモデルを出しました。これは古いSDモデルよりもずっと柔軟で、SDがトレーニングされた512x512の画像よりもはるかに高解像度で出力できます。

しかし、元のSDと同様に、SDXLも主に写実的な画像でトレーニングされているため、アニメアートを表現するのは得意ではありません。それでもコミュニティはいくつかの素晴らしいモデルを提供してくれました（リンク1, リンク2）。これらは良い一時的な解決策でしたが、様々なSD 1.5のマージができることに比べるとまだ柔軟性に欠けます（例えば、詠子さんの「ツーサイドアップ」ヘアスタイルを生成するのに苦労しました）。

しかし最近、Cagliostro Research LabがAnimagine XLモデルのバージョン3をリリースし、状況は変わりました。これは重要なリリースで、これは単なるマージではなく、ファインチューンです。つまり、Danbooruイメージボードの大規模なデータセットで数ヶ月にわたり追加トレーニングが行われ、一流のアニメスタイルモデルになるように作られました。

「よくわからないけど、すごい感じがする！」

そうですね、ゆかちゃん！私もずっとSDXLをテストしたいと思っていました。でも色々な理由でそれができませんでした。しかし、それが今日変わります！この投稿では、星光の英雄たちのキャラクターたちでAnimagineXLをテストしていきますよ！

テストについて一言…
#

テストには、よく使われているA1111 webuiのフォーク、SD.Nextを使ってみました。SD.NextはSDXLに対応していて、A1111とは少し違う特徴があります。「diffusers」というライブラリーを採用していて、プロンプトの解釈もちょっと独自です。この「SD.Nextライフ」については後で詳しく触れる予定ですから、ご興味があれば是非チェックしてみてください。とりあえず、今は少し違うということを覚えておいてくださいね。

サンプラーやサンプリング設定については、AnimagineXLが推奨する設定（Euler a, ステップは28）を採用しました。ときどき、「Style Enhancer XL LoRA」を0.6の強度で使用しましたし、「hires fix」も利用しましたが、いくつか注意点があります。これらの詳細については、レビューの終わりで少しお話しします。

ハードウェアについては、Paperspaceクラウドサービスを使用し、NVIDIA Quadro RTX A4000のグラボ（16G VRAM）で全てのプロンプトを実行しました。この冒険を通じて、いくつかのプロンプトは共有される予定です。

日常シナリオのレビュー
#

始めに基本から見ていきましょう！AnimagineXLでは、プロンプトを少し特殊な方法で解釈しますので、基本的な形式は以下のようになります。

1girl,<キャラクター名>, <該当するシリーズ名（あれば）>, <プロンプトの残り>

品質タグは最後に入れます。このテストでは、LinaqrufさんのAnimagineXLのHuggingfaceテストページにあるタグにanime coloringを加えて使用しました：

anime artwork, anime style, key visual, vibrant, studio anime,
highly detailed, anime coloring, newest, masterpiece,
best quality, modern

そしてネガティブプロンプトには、推奨される設定を使用しました：

nsfw, lowres, lowres, worst quality, low quality, bad anatomy, bad hands,
text, error, missing fingers, extra digit, fewer digits, cropped,
worst quality, low quality, normal quality, jpeg artifacts,
signature, watermark, username, blurry, artist name, photo,
deformed, black and white, realism, disfigured, low contrast

技術的な話はこのくらいにして、下のプロンプトで生成されたまやちゃんの姿を見てみましょう！

1girl, solo, medium breasts, toned, intricate dark brown hair , blue eyes,
(short hair:1.1),  (bob cut:1.2),  left swept bangs,
futuristic black bracelet on right wrist,  hand in pants, smile, happy,
enthusiastic,  yellow t-shirt, lowleg denim shorts, navel, groin,
open fly, detailed ultra photorealistic street in a suburb of Tokyo,
detached house, road sign, waterway, wall, (afternoon:1.2), cowboy shot,
anime artwork, anime style, key visual, vibrant, studio anime,
highly detailed, anime coloring, masterpiece,
best quality,<lora:style-enhancer-xl:0.6>

なかなかいいと思いませんか？手の部分が少し不正確になっているのが気になるかもしれませんね。SD 1.5のアニメ風モデルに比べると、ちょっと精度が落ちるんです（実は、手がより良く表現されているSD 1.5のアニメ風モデルのいくつかは、写実的なモデルとマージされているため、このような結果が出ていると予想されています）。

それでは、もう少し複雑な例、詠子さんを見てみましょう。詠子さんの「ツーサイドアップ」ヘアスタイルは、最近のアニメ風SD 1.5モデルでは生成がかなり難しいです。というのも、元のNAIモデルにあった情報の多くが、様々なマージを経た後に失われてしまったためです。

1girl, (solo:1.1),  cowboy shot, contrapposto, hand on hip, arm at side,
cool pose,  (mature female:1.0), medium breasts,
intricate (dark brown hair:1.0), (short hair:1.0), (two side up:1.0),
(ahoge:1.0), red eyes, confident smile, collared blouse, navel, miniskirt,
thighhighs, earrings,
detailed ultra photorealistic entrance to a skyscraper in Tokyo,
salary men in the background, building entrance, sun reflecting on glass,
summer, outdoors, afternoon anime artwork, anime style, key visual,
vibrant, studio anime,  highly detailed, anime coloring,
newest, masterpiece, best quality, modern

いい感じですね！注目して欲しいのは、プロンプトに重みを加えることなく、詠子さんのヘアスタイルが上手く出力されたことです。（比較のために言うと、VividOrangeMixでは少なくとも1.5の重みを使います。）

最後に、アニャさんの結果を見てみましょう：

1girl, solo, standing, medium breasts, waving, (mature female:1.0),
intricate (silver hair:1.1),  very long hair, ponytail, high ponytail,
green eyes. enigmatic smile office lady, black suit, formal wear,
(jacket:1.0), tie, black pencil skirt, black thighhighs,
detailed ultra photorealistic office, window, desk, chair, computer,
ceiling, ceiling light, Tokyo, Japan, cowboy shot,
anime artwork, anime style, key visual, vibrant, studio anime,
highly detailed, anime coloring, masterpiece, best quality

再び、とても、とてもいい感じですね。アニャさんと彼女の職場がとてもよく捉えられています。

複雑なキャラクターと衣装
#

正しく生成するのが難しいキャラクターもいます。特に男性キャラクターや、まやちゃんのパワードスーツなどは、適切に生成するのが難しいです。過去には、自分の好みに合うイラストを見つけるために50～60枚生成したこともありました。しかし、驚くべきことに、AnimagineXLを使ってみると、かなり簡単に生成できました：

1girl, solo, anime, anime coloring, standing, medium breasts,
intricate baby blue hair, blue eyes,  (very long hair:1.1), blunt bangs,
crossed arms, serious, determined, white bodycon futuristic cyberarmor,
breastplate, vambraces, faulds, cuisses,
detailed ultra photorealistic rooftop of skyscraper in Tokyo, city view,
skyline, dawn, sunrise, cowboy shot,  masterpiece, best quality

彼女のアーマーのほとんどの生成結果は似たような外観になるため、プロンプトを少し調整するだけで比較的安定した形で生成できることを意味します。SDXLくんにファンタジーアーマーを描かせないように、ネガティブプロンプトにfantasy, knightを入れました。

同様に、SDの作動方式により、SD 1.5では色が服の一部から別の部分に「滲む」ことがよくあり、たとえばまやちゃんやゆかちゃんの制服を正しく生成するには少し手間がかかります。しかし、SDXLを使うと、これはただプロンプトを一つ打ち込むだけのことです：

1girl, (solo:1.1),  standing, cowboy shot,  medium breasts, athletic,
intricate (light pink hair:1.0), (very long hair:1.0), (twintails:1.0),
(high twintails, long twintails:1.0), (uneven twintails:1.0), (purple eyes:1.0),
smile, serafuku, (white sailor shirt:1.0), (dark blue pleated skirt:1.0),
(dark blue sailor collar:1.0), (aqua neckerchief:1.0), short sleeves,
detailed ultra photorealistic classroom, chalkboard, school desk,
school chair, book, indoors, morning,  anime artwork, anime style,
key visual, vibrant, studio anime,  highly detailed, anime coloring,
newest, masterpiece, best quality, modern, <lora:style-enhancer-xl:0.6>

見てください、完璧に見えますよね。

それでは、男性キャラクターについて見ていきましょう。物語の主人公をきちんと生成できないモデルなんて、望んでいませんよね？武志さんはプロンプトの調整が少し必要でした（ネガティブプロンプトに1girl,femaleも追加しましたが）、それでも全体的にはかなり簡単に生成できました：

1man, solo, standing, mature male, toned male, male focus,
dark brown hair, dark brown eyes, (very short hair:1.1), pixie cut,
(ahoge:0.9), hair between eyes, frameless glasses, hands in pockets,
white polo shirt, breast pocket, dark brown trousers, light smile,
evening, detailed ultra photorealistic living room in a house in Tokyo,
couch, bookshelf, carpet, TV, window, (cowboy shot:1.1), anime artwork,
anime style, key visual, vibrant, studio anime,  highly detailed,
anime coloring, masterpiece, best quality,<lora:style-enhancer-xl:0.6>

武志さんの背教者のアーマーは、私にとっていつも問題でした。彼のシーンを数週間先延ばしにするほどで、良い画像を見つける手間をかけたくなかったんです。ある時点では、正しく出力されることを確認するためにControlNetの「reference only」モデルを使わざるを得ないほど難しかったです！一方で、AnimagineXLはほとんど手間をかけずに生成を可能にしました。ここではプロンプトを少し調整して、彼があまりにも大人びて見えないようにしました（再び、ネガティブプロンプトに1girl, femaleを追加しました）：

1man, solo, standing, (mature male:0.9), (toned male:0.8), male focus,
dark brown hair, dark brown eyes, (very short hair:1.1), pixie cut,
(ahoge:0.9), hair between eyes, crossed arms, blue cyberarmor, breastplate,
vambraces, cuisses, serious, determined, evening,
detailed ultra photorealistic street in Tokyo, deserted, buildings on fire,
rubble, cinematic composition, (cowboy shot:1.1), anime artwork,
anime style, key visual, vibrant, studio anime,  highly detailed,
anime coloring, masterpiece, best quality,<lora:style-enhancer-xl:0.6>

武志さん、とてもかっこいいですね！

その上、SD 1.5では可能だけど難しい細かなディテールも、AnimagineXLではとても簡単になります。たとえば、女の子が下着（またはビキニ）を着ていて、ストラップが肩から落ちているシーンを表現することなどです。SD 1.5ではしばしばそういったディテールが全く現れなかったり、落ちたストラップとその場にあるはずのストラップが両方表示されたりしていましたが、AnimagineXLではとても簡単です：

1girl, (solo:1.1),  standing,  strap slip,  medium breasts, toned,
(short hair:1.1), intricate (dark brown hair:1.0), blue eyes, (bob cut:1.1),
blunt ends, (left swept bangs:1.0),  smile, yellow camisole, no pants,
black frilly panties, navel, groin,
detailed ultra photorealistic bedroom with a balcony, single bed,table,
poster, picture frame, plushie, dawn, sunrise, indoors, anime artwork,
anime style, key visual, vibrant, studio anime,  highly detailed,
anime coloring, newest, masterpiece, best quality, modern

これにより、AIに何を、どのように描かせるかというシーンの表現の柔軟性が大きく増します。

ダイナミックイラスト
#

AipictorsやTwitter、ちちぷいで私のイラストを見た人は、私がダイナミックなシーンが大好きなことを知っています（結局、星光の英雄たちがとてもアクション志向であるべきですからね）。これらはほとんどのAIモデルの弱点です。十分な学習データがないため、適切に生成するのが難しいんです。今までのところ、AnimagineXLが革命的というわけではありませんが、ある種のシーンを作るのはかなり楽にしてくれます。この例では、まやちゃんがNCS（彼女が右手首につけている黒いブレスレット）を起動して変身している様子が示されています：

1girl, solo, medium breasts, intricate dark brown hair , blue eyes,
(short hair:1.1), (bob cut:1.2),
left swept bangs, futuristic black bracelet on right wrist,
(raised fist:1.1),  arm at side, serious, determined,  serafuku,
white sailor shirt, dark blue sailor collar, dark blue pleated skirt,
aqua neckerchief, short sleeves, (torn clothes:1.0),
torn shirt showing the bra underneath,
detailed ultra photorealistic school rooftop, school, building, fence,
night, night sky, cinematic angle, cinematic lighting, Tokyo, lightning,
electricity, glowing lines, whirlwind, tornado,
electricity around the bracelet, cowboy shot,  anime artwork,
anime style, key visual, vibrant, studio anime,  highly detailed,
anime coloring, masterpiece, best quality,<lora:style-enhancer-xl:0.6>,
<lora:tornclothesv6-8:1.0>

手首の周りの火花に注目してください。これはSD 1.5ではほぼ不可能でした（Anything 3.0を使った時にできた唯一の例です）。また、破損した服を生成するために追加のLoRAがロードされていることにも気がついたかもしれません。これは覚えておいてください、もうすぐ詳しく説明します。

長所
#

このモデルには多くの長所があります。私が見つけた最も目立ついい点は以下の通りです：

デフォルトで非常にいいスタイル：いい見た目の画像を得るためにプロンプトを微調整する必要がありません
スタイル、キャラクター、シリーズでかなり柔軟
般的にプロンプトが比較的簡単
SDでは決して生成できなかった画像を生成することができる

改善点
#

もちろん、完璧なAIイラストモデルがあれば、他のモデルを作る必要はないですよね？ AnimagineXLのいくつかの短所は、モデル自体によるものではなく、むしろSDXLベースによるものです。主な問題点の一つは、SDでは簡単だったいくつかのコンセプトが、SDXLでは再現が難しいということです：破れた服が一例ですので、まやちゃんの変身効果を得るために追加のLoRAを使用しなければなりませんでした。同様に、前にも言ったように、手の生成はSDモデルの方がAnimagineXLよりも劣っています。というのも、これは純粋にアニメ風モデルであり、他のモデルは写実的なモデルとのマージがあったからです。

デモページでは「hires fix」に対してLatentアップスケーラーが使用されていますが、ピクセル化された画像を作り出さないためには非常に高いデノイズ値（0.55または0.6）が必要となりますが、それには代償があります。つまり、アップスケールすると画像に大きなバリエーションが生じる可能性があります。Latentではないアップスケーラー、例えばESRGANやRealESRGANは、より低い（0.4〜0.45）デノイズ強度でうまく機能します。

また、SDXL用のLoRAトレーニングにはもう少し計算リソースが必要なため、このモデルに利用可能なLoRAは少ないです。しかし、時間が経つにつれて状況が改善することを期待しています。

最後に
#

さて、AnimagineXLには本当に感動しました。大好きですし、これまで使ったモデルの中でおそらく最高の一つです。今まで試したことのある全てをうまく処理してくれましたし、ControlNetのようなもっと複雑なアプローチをテストし始めたら、何が得られるか想像もつきません！グラボが対応しているなら、間違いなく使ってみることをお勧めします。失望することはないでしょう。

これでレビューを終わります。楽しんでいただけたでしょうか？今後もいくつかのレビューを計画していますので、どうぞお楽しみに。AnimagineXLで作成した画像の選集も以下に用意しています。見てみてね。では、また次回！

Einarでした。