CyberRealistic CyberIllustrious v8.0 Redux キャラクターの高忠実度描画

1. 1. 序論：ジェネレーティブAIにおける写実性とキャラクター表現の収斂
2. 2. モデル特性とアーキテクチャ分析
2.1. 2.1 開発背景と位置づけ：CyberRealisticの系譜
2.2. 2.2 ベースモデル「Illustrious XL」の影響
2.3. 2.3 v8.0 Reduxにおける技術的特異点
3. 3. パラメータ設定の最適化と技術的根拠
3.1. 3.1 推奨サンプラーとステップ数
3.2. 3.2 CFGスケール（Guidance Scale）の繊細な調整
3.3. 3.3 解像度とアスペクト比の戦略
3.4. 3.4 高解像度化（Hires. Fix）とアップスケーラーの選定
4. 4. プロンプトエンジニアリングの理論と実践
4.1. 4.1 プロンプト構造の黄金比
4.2. 4.2 ネガティブプロンプトによる画風制御
5. 5. トレンド画風の調査分析
5.1. 5.1 Cosplay Realism（コスプレ・リアリズム）
5.2. 5.2 Cinematic Cyberpunk（シネマティック・サイバーパンク）
5.3. 5.3 Editorial Fashion（エディトリアル・ファッション）
6. 6. ケーススタディ：『新世紀エヴァンゲリオン』綾波レイの高品質描画（LoRAなし）
6.1. 6.1 キャラクター特性の分解とタグ選定
6.2. 6.2 プロンプト構成案（レシピ）
6.2.1. シナリオA：近未来的なポートレート（Portrait）
6.2.2. シナリオB：全身・エディトリアル風（Full Body / Editorial）
6.3. 6.3 詳細生成設定 (Configuration Table)
6.4. 6.4 高度な修正テクニック：ADetailerの活用
7. 7. 結論
8. 引用文献

1. 序論：ジェネレーティブAIにおける写実性とキャラクター表現の収斂

画像生成AIの技術的進歩において、2023年から2024年にかけての最大のトピックは、Stable Diffusion XL（SDXL）アーキテクチャの成熟と、それに伴う「特化型ベースモデル」の台頭であった。かつて、写実的（Photorealistic）な生成と、アニメーションやイラストレーション（Anime/Illustration）の生成は、それぞれ異なるモデル、異なる学習データ、異なるプロンプトエンジニアリングを必要とする、断絶された領域であった。しかし、「CyberRealistic CyberIllustrious v8.0 Redux」（以下、本報告書では「CyberIllustrious v8 Redux」と呼称）の登場は、この二項対立的な境界線を溶解させ、新たな表現領域を確立する記念碑的な事例となっている。

本報告書は、Civitaiにて公開され、高い評価を獲得しているこのモデルについて、その技術的特性、推奨されるパラメータ設定、コミュニティ内でトレンドとなっている画風を網羅的に調査・分析したものである。さらに、具体的なケーススタディとして、アニメーション作品『新世紀エヴァンゲリオン』の象徴的キャラクターである「綾波レイ」を対象とし、追加学習データ（LoRA）を使用せずに、モデルの潜在能力のみで高品質かつフォトリアリスティックに描画するための手法を詳述する。これは単なるマニュアルの枠を超え、現代の画像生成AIが到達した「2.5次元的リアリズム」の深層を探る技術文書として位置づけられる。

2. モデル特性とアーキテクチャ分析

2.1 開発背景と位置づけ：CyberRealisticの系譜

Cyberdelia氏によって開発された「CyberRealistic」シリーズは、元来Stable Diffusion 1.5（SD1.5）アーキテクチャにおいて、フォトリアリズムの極北を目指したモデル群として知られていた¹。SD1.5時代における同モデルは、少ないプロンプト記述量で高品質な写真風画像を生成できる点（"minimal prompt engineering"）で評価されていた。

しかし、SDXLの登場により、画像生成の解像度と構成力は飛躍的に向上した。「CyberIllustrious」シリーズは、このSDXLエコシステムの中で、特に「Illustrious XL」というアニメ特化型のベースモデルを出発点としつつ、そこにCyberRealisticの持つ強力な写実テクスチャを融合（マージまたはファインチューニング）させるという、野心的なアプローチを採っている²。

2.2 ベースモデル「Illustrious XL」の影響

CyberIllustrious v8 Reduxの特性を理解する上で、その母体である「Illustrious XL」の性質を把握することは不可欠である。Illustrious XLは、Pony Diffusion V6などと並び、SDXL世代を代表するアニメ特化モデルであるが、その最大の特徴は「Danbooruタグシステムへの高度な適合性」と「SDXL本来の画質保持能力」のバランスにある⁵。

Pony系モデルが独自のスコアタグ（score_9, score_8_up 等）を必須とし、独特のプロンプト作法を要求するのに対し、Illustrious XLベースのCyberIllustriousは、より汎用的なタグ付けと自然言語プロンプトの双方に対して柔軟な受容性を持つ²。これは、ユーザーがSD1.5時代に培ったプロンプト技術を継承しつつ、SDXLの高解像度という恩恵を受けられることを意味する。

2.3 v8.0 Reduxにおける技術的特異点

「Redux」と銘打たれたバージョンv8.0は、以前のバージョン（v7.0や無印v8.0）と比較して、以下の点で顕著な改善が見られる⁴。

解剖学的整合性の向上: 生成AIの宿命的課題である「指の数」や「四肢の構造」において、驚異的な安定性を実現している。開発者のコメントによれば、「サプライズ的な余分な手足」が大幅に抑制され、信頼性の高い5本指の描画が可能となっている⁷。
写実と描画のハイブリッド（2.5D表現）: 本モデルは完全な実写（Raw Photo）を目指す一方で、イラストレーション由来の「理想化された美」を保持している。これにより、「現実にはあり得ないほど美しい被写体」を「現実のカメラで撮影したかのような質感」で出力する、いわゆる「コスプレ・リアリズム」や「シネマティック・イラストレーション」と呼ばれる画風において、他の追随を許さない性能を発揮する⁴。
ベイクドVAE (Baked-in VAE): Variational Autoencoder (VAE) がモデルファイルに事前に組み込まれているため、ユーザーは外部VAEの選定に迷うことなく、適切な彩度とコントラストを得ることができる。これはワークフローの簡素化に大きく寄与している¹。

3. パラメータ設定の最適化と技術的根拠

CyberIllustrious v8 Reduxは、そのハイブリッドな特性ゆえに、一般的なSDXLモデルやSD1.5モデルとは異なる独自のパラメータ設定を要求する。以下に、調査データに基づく推奨設定とその技術的根拠を詳述する。

3.1 推奨サンプラーとステップ数

生成プロセスの核心であるサンプラーの選択は、最終的な画像の質感（Texture）とノイズ除去の挙動に直結する。

スクロールできます

設定項目	推奨値	技術的背景と分析
Sampler	DPM++ 2M Karras	最も推奨されるサンプラーである¹。 DPM++ 2Mは収束が早く、Karrasスケジューラと組み合わせることで、高周波成分（微細なテクスチャ）の再現性に優れる。アニメ的滑らかさと実写的な粗さのバランスが良い。
Alternative	Euler a	柔らかい表現（Soft cinematic bokeh）を好む場合に有効¹。ただし、ステップ数を増やすと構図が変化し続ける特性があるため、再現性の観点ではDPM++ 2Mに劣る場合がある。
Experimental	DPM++ SDE Karras	演算コストは高いが、より有機的なノイズ感を付与できるため、肌のリアリズムを極限まで追求する場合に選択肢となる³。
Sampling Steps	25 - 30	SDXLモデルは一般的に少ないステップ数で高品質な画像を生成できるが、 CyberIllustriousにおいては25〜30ステップが「書き込み不足」と「過学習による焼き付き」を回避するスイートスポットである¹。

3.2 CFGスケール（Guidance Scale）の繊細な調整

本モデルにおいて最も注意を要するのがCFGスケールである。

SD1.5ベースのCyberRealisticでは7.0〜8.0という比較的高めの値が推奨されていたが1、Illustrious XLベースの本モデルでは、高いCFG値は画像のコントラストを過剰にし、テクスチャを破壊する要因となる。

推奨範囲: 4.0 - 5.5 ²
分析: Illustriousベースのモデルはプロンプトに対する感度（Adherence）が非常に高いため、低いCFG値でもユーザーの意図を十分に反映する。むしろ値を下げることで、照明の柔らかさや肌の質感が向上し、AI特有の「プラスチック感」を低減できる⁸。
例外: 強いスタイル指定（例：サイバーパンクのネオン描写など）を行う場合は、一時的に7.0付近まで上げることで、色味を強調する手法も有効である。

3.3 解像度とアスペクト比の戦略

SDXLアーキテクチャは、SD1.5の512x512とは異なり、約1024x1024ピクセルの面積（約1メガピクセル）で学習されている。

推奨解像度:

Portrait (縦長): 896x1152, 832x1216 ³
Square (正方形): 1024x1024
Landscape (横長): 1152x896, 1216x832
警告: 512x512での生成は推奨されない。SDXLモデルで低解像度生成を行うと、画像がぼやけたり、構図が破綻（被写体が重複するなど）したりする可能性が高い¹。

3.4 高解像度化（Hires. Fix）とアップスケーラーの選定

フォトリアリズムを達成するためには、Hires. Fix（高解像度修正）によるディテールの追加が不可欠である。

Upscaler: 4x_NMKD-Siax_200k または 4x_NickelbackFS_72000_G ¹。これらは写真の質感保持に特化したアップスケーラーであり、アニメ用のR-ESRGAN 4x+ Anime6Bなどを使用すると、せっかくのリアルな肌の質感がのっぺりとした塗りに変換されてしまうリスクがある。
Denoising Strength: 0.3 〜 0.4。形状を変化させずにテクスチャのみを高精細化するための安全圏である。

4. プロンプトエンジニアリングの理論と実践

CyberIllustrious v8 Reduxは、Illustrious XLの「タグ理解力」とCyberRealisticの「自然言語理解力」を併せ持つハイブリッドモデルである。この特性を活かすプロンプト戦略が必要となる。

4.1 プロンプト構造の黄金比

高品質な出力を得るためには、以下の構造でプロンプトを組み立てることが推奨される。

品質修飾子 (Quality Boosters):

masterpiece, best quality, ultra-detailed, photorealistic, 8k, raw photo ¹。
注意: Pony系モデルで必須の score_9, score_8_up 等のタグは、本モデルでは必須ではないが、入れても悪影響はない。しかし、photorealistic や realistic といった自然言語の指示の方が、画風への影響力は強い²。

主題定義 (Subject Definition):

Danbooruタグ（例: 1girl, blue hair）と自然言語（例: woman, curly hair）のどちらも機能するが、特定のキャラクターや詳細な特徴を指定する場合はDanbooruタグの方が精度が高い²。
ただし、より写実的な人物像を出力したい場合は、1girl ではなく woman, 22-year-old female のような自然言語を使用することが推奨される²。

環境・照明・撮影設定 (Environment & Lighting):

natural lighting, depth of field, candid moment, color graded, soft cinematic bokeh ¹。これらは画像に空気感を与え、3Dレンダリングのような硬さを取り除くために重要である。

4.2 ネガティブプロンプトによる画風制御

本モデルは「写実」と「アニメ」の中間に位置するため、どちらかに寄せたい場合はネガティブプロンプトによる「引き算」が極めて重要になる。

リアルに寄せたい場合: cartoon, anime, illustration, painting, cgi, 3d render, low quality, flat color, cel shading, (drawn, furry, comic:1.5) ²。
Embeddingの活用: lazyhand, lazyneg, lazyreal 等のembedding（埋め込みベクトル）を使用することで、複雑なネガティブプロンプトを記述せずとも、効率的に品質を底上げすることが可能である¹⁰。特に lazyreal をネガティブに入れるとアニメ調に、ポジティブに入れるとリアル調になるという特性は、画風のコントロールに有用である。

5. トレンド画風の調査分析

CyberIllustrious v8 Reduxを使用するクリエイターコミュニティにおいて、現在主流となっている、あるいは特に評価が高い画風（トレンド）を分析した結果、以下の3つの主要なスタイルが特定された。

5.1 Cosplay Realism（コスプレ・リアリズム）

アニメキャラクターのデザイン（派手な髪色、現実離れした衣装）を維持したまま、質感のみを極限まで現実に近づけるスタイルである。これは「アニメの実写化」とは異なり、「そのキャラクターが現実に存在し、コスプレイヤーとして撮影された」かのような文脈を持つ⁴。

特徴: 肌のキメ、ウィッグのような髪の質感、衣装の縫い目や素材感（ラテックス、サテン等）の強調。
有効なプロンプト: cosplay, realistic texture, raw photo, dslr, soft lighting

5.2 Cinematic Cyberpunk（シネマティック・サイバーパンク）

モデル名に「Cyber」と冠されている通り、ネオンサイン、濡れた路面の反射、暗部（Shadows）の階調表現において卓越した性能を示す。

特徴: 高いコントラスト、ボリュメトリックライティング（光の筋）、彩度の高い色彩設計。
有効なプロンプト: cyberpunk, neon lighting, night city, rain, reflection, chromatic aberration, futuristic

5.3 Editorial Fashion（エディトリアル・ファッション）

キャラクターをファッションモデルに見立て、スタジオライティングや自然光を駆使して撮影された、ファッション誌の表紙のようなスタイル¹。

特徴: カメラ目線ではない自然な表情（Candid）、被写界深度による背景ボケ、洗練されたポージング。
有効なプロンプト: fashion photography, editorial, vogue, magazine shot, full body, dynamic pose

6. ケーススタディ：『新世紀エヴァンゲリオン』綾波レイの高品質描画（LoRAなし）

本セクションでは、具体的な応用例として、CyberIllustrious v8 Reduxを用いて『新世紀エヴァンゲリオン』の綾波レイを、LoRA等の追加学習モデルを使用せずに描画するための実践的な手法を解説する。

Illustrious XLベースのモデルは、主要なアニメキャラクターの知識を学習済みデータとして内包しており、適切なタグ付けによって召喚が可能である11。LoRAを使用しない利点は、LoRAによる画質の劣化やスタイルの固定化を避け、モデル本来の表現力を最大限に活かせる点にある。

6.1 キャラクター特性の分解とタグ選定

LoRAなしで特定キャラクターを再現する場合、**「キャラクター固有タグ（Danbooru形式）」と「リアリズムへの誘導タグ（自然言語）」**のハイブリッド構成が最も効果的である²。

キャラクター定義 (Subject Identifiers):

Core Tags: ayanami rei, neon genesis evangelion. これらは必須であり、モデル内の知識ベースにアクセスするためのキーとなる。
Visual Reinforcement: short blue hair, red eyes. モデルの知識が曖昧な場合や、色味が環境光に影響されるのを防ぐために、物理的特徴を明示する。
Outfit: plugsuit, white plugsuit. プラグスーツの形状を呼び出す。
Accessories: interface headset. 頭部のインターフェース装置を指定する。

リアリズムへの架け橋 (Texture & Material):

単に plugsuit と入力すると、モデルはアニメ的な塗り（フラットな色面）を出力しがちである。これを回避するために、素材を指定する。
Recommended: (realistic textural white plugsuit:1.2), (latex suit:1.1), shiny, intricate details. これにより、スーツが「絵」ではなく「物体」として描画される。

6.2 プロンプト構成案（レシピ）

以下のプロンプトは、CyberIllustrious v8 Reduxの特性に合わせて最適化したものである。

シナリオA：近未来的なポートレート（Portrait）

綾波レイの無機質な美しさを、高解像度のクローズアップ写真として捉える設定。

Positive Prompt:

(masterpiece, best quality, ultra-detailed), photorealistic, 8k, raw photo,

solo, ayanami rei, neon genesis evangelion, (realistic textural white plugsuit:1.2), interface headset, short blue hair, red eyes, pale skin,

cinematic lighting, soft shadows, depth of field, (detailed face:1.1), looking at viewer, expressionless,

standing in futuristic nerv corridor, sci-fi architecture, cold atmosphere, 35mm photograph, f/1.8, bokeh

Negative Prompt:

(anime, cartoon, illustration, drawing, painting, 2d, flat color, sketch:1.4), (worst quality, low quality, normal quality:1.4),

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry,

(3d render, cgi:1.2), plastic skin, doll, smiling, emotional

解説:

expressionless（無表情）を入れることで、キャラクター性を維持しつつ、実写ポートレートとしての緊張感を演出する。
f/1.8, bokeh で背景をぼかすことにより、キャラクターへの視線誘導と写真的なリアリティを強化する。

シナリオB：全身・エディトリアル風（Full Body / Editorial）

ファッション誌のようなライティングと構図で、プラグスーツの質感を見せる設定。

Positive Prompt:

(masterpiece, best quality, photorealistic), editorial fashion photography, vogue style,

full body, ayanami rei, neon genesis evangelion, (white latex plugsuit:1.3), highly detailed mechanical parts, glossy texture,

dynamic pose, studio lighting, rim lighting, dark background, sharp focus, 8k uhd, dslr