画像生成AIのStable Diffusionに日本特化の商用利用可能なtext-to-imageモデルJapanese Stable Diffusion XL (JSDXL)が登場したと聞いて、さっそく触ってみました。
日本語で入力したプロンプトをそのまま理解できること、また日本の文化を学習させたデータをもとに画像生成できることがポイントです。
実際に日本語でお題を与えて何枚か画像を生成してみたところ、確かに日本語のプロンプトをそのまま理解してそれらしい画像を生成してくれました。一方で、全般的にStable Diffusionが出始めた初期の頃頃を彷彿とさせる荒い画像で、特に人物は構成が崩れがちで苦手な模様です。
1枚目がJapanese Stable Diffusion XL (JSDXL)のデモ環境、2枚目がSDXL Fooocus-MRE環境(LoRAに日本人モデルのayame_LoRA_sdxl_v20b.safetensorsを適用)で生成した画像です。
京都の町並み
何となく二寧坂を彷彿とさせるそれっぽい町並みが出てきました。ディティールの細かさはなかなかのもの。
標準モデルは日本の古い町並みではありますが、京都感はあまり感じられず。また全体的に綺麗すぎてCGっぽい感じです。
茶室
茶室というキーワードだけでも、一応、日本の畳部屋っぽいものは出てきましたが、細かいところを見るとツッコミどころ満載な茶室です。
標準モデルには、a traditional Japanese tea roomというキーワードで描かせてみました。画像としてはなかなか洗練されていますが、茶室ではない!
露天風呂
露天風呂というキーワードでこの画像。木造りなのでまあ日本風ではありますが、イメージしていたような温泉の露天風呂ではない感じです。
標準モデルにJapanese traditional open-air hot spring bathというお題で出てきたのがこちら。まあプライベート露天風呂つき和風旅館の雰囲気は出ています。
盆栽
最近は海外でも愛好家が増えてきているという盆栽。ただ「盆栽」というお題で描かせました。ちゃんと盆栽感のある画像です。
標準モデルには、bonsaiとだけ指示してみたら、ちゃんと理解した様子。もはやbonsaiは海外でも通じる英語になってきているんですね。
おせち料理
おせち料理というJapanese specificなキーワードもちゃんと理解した様子です。細かく見ると怪しいモノが多々ありますが、全般的にはそれっぽい感じ。
標準モデルには、Japanese traditional dishes for new yearというお題に対してこんな感じ。おせち料理を学習していないモデルにおせち料理を描かせるのは難しいですね。
初詣
初詣というお題で神社の鳥居が出てきたので、ちゃんと学習しているようです。ただ、鳥居のデコレーション等、意味不明な感じが不気味。
標準モデルにhatsu moudeと入れてみたら、なぜかこんな画像が。どうやってこの画像を思いついたのか、AIの思考過程が見てみたい。
続いて、First shrine visit of the New Yearで描いてもらったのがこちら。完全にチャイナ感が出てますね。
ラーメン
世界を代表する和食としてラーメンを描いてもらいましたが、こりゃ駄目だ。まだまだ学習が足りていませんね。
標準モデルにramenとだけ指示して描かせた方がまだマシでした。箸の持ち方とか、ツッコミどころは満載ですが…
寿司
もう1つ、和食を代表するキーワードとして寿司とビールを選択。右上とか右下など、不気味なネタはありますが、日本の握り寿司をちゃんと理解しているのが伝わってきます。
標準モデルは、いわゆるカリフォルニア・ロールのような、海外の人たちが寿司だと思っているSushiを描いてきました。これが標準モデルの限界ですね。
新幹線
新幹線とだけ指示すると、一応それらしい絵は出てきましたが、かなり粗くて怪しいです。
標準モデルもshinkansenというキーワードだけでこんなのを描いてきました。
着物姿の女性
最後に、着物姿の女性を描いてもらいました。何枚かトライして、一応ちゃんとした人間の画像が出てきたのがこちら。人物は苦手なようです。
人物の完成度は圧倒的に標準モデル+ayameに軍配が上がりました。何枚描かせても安定しています。
こんな感じで一長一短ありますが、画像生成AIの世界でも少しずつ日本文化への理解が進んできているようで嬉しい限りです。今後の進化が楽しみですね。