【生成AI】Stable Diffusionはすごいやつ【画像】

最近いろんなところで生成AIって言葉聞きますよね。正直みんなが思ってるよりテクノロジーは進化してると思います。まずはStable Diffusionがどんなものなのか紹介したいと思います。

「AI なんてよくわからない…」という方でも、最近話題の「Stable Diffusion(ステーブル・ディフュージョン)」はとても身近な技術です。難しい理屈抜きで、「まるで魔法みたい!」と感じられるほどのパワーを持っています。この記事では、専門用語をできるだけ省きつつ、その可能性と注意点をざっくりご紹介します。


Stable Diffusion って何?

  • 一言で言うと
    テキスト(文字)の指示だけで、まっさらなキャンバスに絵を描いてくれる AI モデルです。
  • どうやって動くの?
    1. キーワードや文章を入力
    2. AI が無数のイメージの中から「こういう絵を描けばいいかな?」と考える
    3. 最終的に、数秒~数十秒で高解像度の画像を出力

こんなにすごい!Stable Diffusion の可能性

  1. アイデア出しが超スピーディー
    • イラストやデザインのラフ、広告バナー、SNS 投稿用の画像など、頭の中のイメージをすぐカタチに。
  2. 写真みたいにも、アニメ調にも
    • 風景写真風、油絵風、水彩画風、マンガ・アニメ風…多彩なテイストをワンクリックで切り替えられる。
  3. 自分だけのキャラクターづくり
    • 「こういう髪型の子を描いてほしい」「レトロな雰囲気で」「未来都市を背景に」…思いのままにカスタマイズ。
  4. コラボ制作や教育にも活用
    • クリエイター同士の共同作品、学校の授業やワークショップでのビジュアル教材など、用途は無限大。
  5. オープンソースで自由に使える
    • 誰でも無料でダウンロードでき、改造したり自分好みに学習データを追加したりできるのも魅力。

でも、問題点や注意点もある

  1. 著作権・ライセンスのグレーゾーン
    • AI が学習した元画像の出典がはっきりしない場合があり、商用利用時には要注意。
  2. バイアスや偏り
    • 学習データに偏りがあると、出力結果にも偏見が反映されることがある。
  3. “完全”な一発生成ではない
    • 細部が荒れたり、予期せぬポーズや手足の形状の崩れが起きることも。
  4. 高性能 GPU が必要
    • クオリティ重視だと強力なグラフィックボードが求められ、パソコン環境への投資が必要な場合も。
  5. 倫理的な問題
    • フェイク画像の生成や、許可なく有名人の顔を使った作品づくりなど、使い方次第でトラブルのもとに。

AIへの注文の仕方

1. プロンプトとは?

AI に「こんな絵を描いてほしい」と伝える“注文書”のようなものです。

  • キーワード(単語):たとえば「青い海」「夕焼け」「キャラクター」など。
  • 修飾語(ディテール):さらに「リアル」「アニメ風」「細部まで鮮明に」など、イメージを肉付けします。
  • 文法的なつながりはあまり気にせず、箇条書きのイメージで並べるだけでOKです。

2. プロンプトを組み合わせる3つの要素

  1. 主題(何を描くか)
    • 例:人物、風景、モノ…
    • 「少女」「サイバーパンクの街並み」「ヴィンテージカメラ」など。
  2. スタイル(どう描くか)
    • 例:写実的、アニメ調、水彩画風、油絵風…
    • 「watercolor style」「anime illustration」「photorealistic」など。
  3. 雰囲気・構図(どんな空気感か、どう見せるか)
    • 例:明るい、幻想的、ドラマチック、ローアングル…
    • 「bright and airy」「dramatic lighting」「low angle view」など。

これらを組み合わせることで、AI に対してより具体的なイメージを伝えられます。


3. プロンプト作成のステップ

  1. イメージを言語化する
    • 紙に「こんな感じ!」をザックリ書き出す(箇条書きでOK)。
  2. キーワードを整理する
    • 上記3要素(主題/スタイル/雰囲気)に分けてみる。
  3. 組み合わせて並べる
    • 「少女」「anime style」「soft pastel colors」「sunset background」のように。
  4. 実際に AI に入力してみる
    • 出力結果を見て、足りない要素や不要な要素を追加・削除する。
  5. 微調整を繰り返す
    • 「もっと暖かい光に」「背景をシンプルに」など、一部を修正して理想のイメージに近づける。

4. よくある応用テクニック

  • カメラ設定の指定
    • 「wide angle」「close up」「depth of field」などで遠近感やフォーカスを演出。
  • 色味の指定
    • 「vibrant colors」「pastel tones」「monochrome」など、色調をコントロール。
  • ディテールの強調
    • 「high detail」「intricate patterns」「sharp focus」などで細部の描写を強化。
  • 不要要素の除外
    • 「no text」「no watermark」「exclude people」など、入れたくないものを明示的に排除。

5. 具体例:街並みイラストのプロンプト

“bustling Akihabara street, anime style, vibrant neon signs, five maids in different colored outfits standing evenly spaced, detailed buildings, soft evening glow, cinematic lighting, no text”
  • 主題:bustling Akihabara street / five maids in different colored outfits…
  • スタイル:anime style / detailed buildings…
  • 雰囲気:vibrant neon signs / soft evening glow / cinematic lighting…
  • 除外:no text

6. ポイントまとめ

  • 具体的に、かつ簡潔に:長すぎず、主要なキーワードだけ並べる。
  • 段階的に足し引き:初回はざっくり、慣れたら細かい修飾語を追加。
  • ネガティブプロンプト活用:入れたくない要素は明示的に除外。
  • 英語と日本語の併用もアリ:環境によって反応が変わるので試してみる。

VAEってなんだろうか

「なんだか難しそう……」と感じる “VAE(ブイエーイー)” ですが、実は「データをぎゅっと小さくまとめて、また元に戻せる仕組み」を学ぶモデルの一種です。まずはイメージからご説明します。


VAE をパン屋さんにたとえると?

  1. 材料をまとめる(エンコード)
    • パンを焼く前に、小麦粉や水、イーストなどを「レシピ袋」にぎゅっと詰めるイメージ。
  2. 袋の中身をふくらませる(デコード)
    • 袋を開けたら、中から新しいふかふかのパンが出てくる。
  3. ちょっとランダムなアレンジ
    • 同じレシピ袋でも、「今日はちょっとふんわり」「今日はちょっとしっとり」と、袋を振る加減でパンの出来上がりが少しずつ変わる感じ。

袋(潜在変数)には「データの特徴」がギュッとまとまって入っていて、そこからいろんなバリエーションの結果を作り出せるのが VAE の面白いところです。


VAE でできること

  1. 新しいデータを生み出す
    • まっさらな袋(ランダムな種)を使って、似ているけれど微妙に違うサンプルを作れます。たとえば、顔写真データを学習させれば、まったくの新顔を「ぷち生成」できます。
  2. データの特徴を探る・整理する
    • 袋の中を調べると、「ここは色」「ここは形」「ここは大きさ」といったパーツが分かれているので、何がデータを決めているのか見えやすくなります。
  3. 異常検知
    • 正常なデータで袋を学習しておくと、ちょっと変わった(異常な)データは上手に袋から再現できず「おや?」と気づける仕組みになります。
  4. データの補完・修復
    • 欠けている部分がある画像や音声も、袋からうまく穴埋めできる場合があります。

主な VAE の仲間(種類)

モデル名特徴イメージ
β-VAE袋の「分け方」を強めに学習。どのパーツが何か分かりやすい。
条件付き VAE (CVAE)「赤い花」や「青い空」のように、好きな条件を教えてから袋を使う。
VQ-VAE袋を「いくつかのパターン」にパシッと分けて保存。データ圧縮に強い。
階層型 VAE大きい特徴と小さい特徴、両方を何段階にも分けて学習。細かい表現に便利。
Flow-VAE袋の形をもっと自由に曲げ伸ばしできるようにしたアレンジ版。

まとめ

  • VAE は「ぎゅっとまとめて、ふくらませる」仕組み で、データから特徴を抜き出しつつ、新しいサンプルを生み出せる。
  • 料理や袋詰めにたとえるとイメージしやすく、異常検知や欠損補完などにも応用できる。
  • β-VAE や条件付き VAE など、用途に合わせてさまざまなバリエーションがある。

まずは「袋にぎゅっと詰める」「袋からパンを作る」といったイメージを思い浮かべていただき、VAE の楽しさ・便利さを感じてみてください!

ピンパンガールを作ってみた

上で説明したVAE。美しくかわいい女性を描ける「yayoi_mix」というVAEを使用してみました。

生成成功例

生成失敗例

これ、パッと見はいい感じですけどよく見ると…ちょっと怖いですよね。指の本数がおかしかったり。不自然な生成がされることもある。

さらに動画にも!

テキストから、画像から、動画にできる動画生成AIもたくさん出てきてます。

ちょっと意味わからない動画だけど・・・・

まとめ

Stable Diffusion は、誰でも手軽に創造性を解き放てる革新的なツールです。アイデアが形になる速さと多彩な表現力は、“AI なんてよくわからない”という方にも一度は体験してほしい魅力があります。ただし、著作権や偏り、倫理的な使い方には気をつけて、適切に利用しましょう。

「自分のイメージをパッとビジュアル化してみたい!」そんなときは、ぜひ一度、Stable Diffusion を触ってみてください。思わぬインスピレーションが得られるかもしれません。

ピンパンをシェアしよう!

ABOUT US

PinkPanda
いろんな情報をまとめるポータルサイト♪ 不具合やご要望はTwitterとかで!中の人はプログラマーとかじゃないから限界は浅い。
nuts、小悪魔ageha、LARME、ラブベリーといった女性誌の元編集者。現在はブランディングやプロモーションなどを行うディレクター業。そんな中時間を見つけてコツコツまとめます。
応援&ご支援はウィッシュリスト