進化が加速する生成AI界隈ですが、今回のサプライズは音楽生成AIのSUNO v4のクオリティ!
そして、画像生成AI、動画生成AIもこの1年間だけでも着実に進化を遂げてきています。今回、一般公開されたOpenAIのSoraを始め、KlingとHailuoも含めた2024/12時点の最新技術で過去の作品をリメイクしてみたところ、その差は歴然でした。
Spring breeze
Image to Video
2024/1に当時の最先端の生成AIを駆使して制作したSpring breezeを2024/12の最新技術でリメイクしたのがこちらです。
楽曲はSUNO v4、画像生成はGoogleが提供しているImageFX、動画生成は中国のスタートアップが提供するKlingを使用しました。
動画は960×960ピクセルで生成。スマホの4G回線だと読み込みに時間がかかるため、画質・音質は劣りますがYouTube版も載せておきます。
最初に試しに作成したのが1ショット目の桜の花びらが舞い、女性が振り返るシーンでしたが、プロンプトなしでいきなりこの品質の動画が作られたのには腰を抜かしました。
また、SUNO v4による新しい楽曲は、イントロで一気にぐっと盛り上げてからのAメロ、プリコーラスでの展開、間奏を挟んでからのメリハリの効いたサビが印象的な仕上がりです。
そして、こちらが2024/1に制作したオリジナル版。この時は、楽曲はSuno v1、画像生成はStable Diffusion、動画生成はRunwayを使用。
当時はこれでも大いに感動しましたが、改めて今回のリメイク版と比較すると、楽曲のクオリティ、動画の動き等で大きな進化があったことがうかがえます。たった11ヶ月の間に同じプロンプト、歌詞でもこれだけ品質の高いミュージックビデオが手軽に作れるようになりました。
今回の動画生成では、前回と同様のプロンプトでまず画像を生成した後に、その画像を動画生成AIに与えて自動で動画を生成させました。いわゆる、Image to Videoという技術です。例えば、下のお茶を飲む女性の動画は、両手にお椀を乗せた画像をAIに与えただけで何も指示していませんが、AIが画像を解釈して口に運んで飲む動画を自動で生成しています。
こちらは、先ほどと同じ映像で別バージョンの楽曲です。キャッチーなイントロからアップテンポなメロディーライン展開で、アウトロは指定した歌詞を超えてAIが自由に創作したもの。
Text to Video
新たな挑戦として、今までのようにまず画像生成AIで静止画を作成した上で動画生成AIに読み込ませて動画を生成するというステップではなく、プロンプトから一気に動画を生成するText to Videoのみで制作したのがこちら。
Sora
ChatGPTを開発したOpenAIによる動画生成AIのSoraは2024/2に発表されると、その圧倒的な品質の高さで世界を驚かせましたが、限定されたユーザーのみに開放されてテスト期間が続いていました。
それから10ヶ月が経過した2024/12に遂にSoraがChatGPTの有料ユーザー向けに一般開放されたのでさっそく試してみたのがこちら。720×720ピクセルで生成した5秒の動画がベースです。
Soraの動画生成数が限られていたため、この動画はそれぞれ初回の生成で得られたものを繋いで制作しましたが、さすが先行していただけあって安定のクオリティです。
そして速い!有料ユーザー向けというのもありますが、1動画あたり30秒前後で生成できました。
ImageFXやKling、Hailuoと比較したときの特徴はこんな印象です。
- 人物のバラエティの幅が広い。若い日本人女性というプロンプトでも様々なタイプが登場する。他の生成AIにありがちな分かりやすい美人ではなく、普通に街を歩いていそうな感じ。
- 質感、特に肌の質感がリアル。他の生成AIでは肌がツルンとし過ぎていてまだCGっぽさが残りがちだが、Soraの人物はよりリアルなテクスチャ。
- カメラワークや人物の動きの幅が広い。動きに関しては指定していないが、ズームで寄せてみたり背景を早回しにする等、色々な表現を試みる傾向が高い。
Kling V1.5
自然な表情や動き、精緻な描き込み等、もはやAIとは分からないレベルに到達しているのでは!1440×1440の高精細です。
ただ、無料のV1.0は品質が低くてイマイチだったため、今回は有料のV1.5を使って生成しました。といっても、かかった費用はたったの$2.99(500円ほど)です。
驚きの高品質の動画生成ですが、よく見ると随所におかしな点が散見されるのは現時点での動画生成AIの限界でしょう。Klingは特に日本文化の学習がまだ不十分のように思います。
シーン3(お茶) | あぐらはかいちゃだめ! |
シーン4(東京の夜) | Apple Vision Pro操作中? |
シーン5(渋谷の雑踏) | テンション高すぎ |
シーン7(箱根の湖) | 箱根の山並みじゃない |
シーン8(温泉) | 露天すぎ。巨大なカニカマ? |
シーン9(鎌倉の夕暮れ) | 遠くに見えるお寺が中国風 |
Hailuo
同様に中国のスタートアップHailuoによる動画生成AIでText to Videoにトライしたのがこちらです。1280×720のハイビジョン画質で生成。
無料版でもハイビジョン画質の高精細な描き込みでなかなかのクオリティ。KlingのText to Imageと比較すると幾つかの特徴があります。
- 若い女性がなかなか出てこない。
- プロンプトにより忠実な作画にこだわる傾向あり。Japanese womanイコール着物になりがち。
- 京都、お茶、東京、渋谷、箱根、鎌倉といった日本についての学習は比較的充実している。
Play Olion with you
続いて、2024/4に公開した名作、Play Olion with youをリメイク。
まずは当時のオリジナル版から。楽曲はUdio、画像生成はStable Diffusion、動画生成はPikaで制作しました。3ヶ月前に制作したSakura Promiseと比較すると、特に楽曲のクオリティが大きく向上しているのが分かります。
ただ、画像はまだCGっぽさが残っているのと、表情に不自然な動きが目立ちます。
ImageFX + Kling v1
こちらが今回のリメイク版です。楽曲はSUNO v4で制作し、ImageFXによる画像生成とKling v1による動画生成(Image to Video)で仕上げました。
要所でエッジボイスを効かせた女性ボーカルがしっとりと歌い上げるバラードは完成度が高くて驚きました。アウトロのアレンジとラストの「笑顔で会おう」のメロディーラインなど、細部まで破綻なく作り込まれている印象。
そして、ImageFXによる画像はCGっぽさが少なくなり、スナップショットのような自然な感じで、Klingによる動画は手持ちカメラっぽい効果がいい感じです。
苦労したのはImageFXの制約。本作品の原作であるPlay Olion with youは女子高生が主人公の物語でしたが、ImageFXではどうやら未成年の女性や学校の制服等が絡む画像はコンプライアンス的にNGとしているようです。そのため、原作の雰囲気をなるべく損なわないように白のブラウスを基調とした20代の女性の設定で描きました。
別の楽曲バージョンはこちら。メロディアスな展開がいいですね。
Sora
SoraのText to Videoで生成した動画はこちら。前述した通り、Soraは同じプロンプトでも生成する度にかなりテイストの異なる動画が生成されるため、意外性があって面白い反面、一貫性を保つのが難しい印象です。
また、Soraでは少なくとも女子学生に対するプロンプト制限はない感じでしたが、様々なバリエーションのHigh school uniformが登場します。それなりに学習を積んだ様子ですね。
SUNO v4の特徴
2024/1に初めてSUNOで楽曲を制作した時はAIが自動で演奏して自然なボーカルまで生成するのを目の当たりにしてビックリしました。
その後、競合のUdioが更に頭一つ飛び出たサービスを提供して驚いたのが3ヶ月後の2024/4です。
そして今回、2024/12にSUNO v4が公開されたのでさっそく使ってみたところ、その完成度の高さに再び驚きました。ポイントはこんな感じです。
- イントロからAメロ、Bメロ、サビ、アウトロまで3分ほどのフル長尺の楽曲を数十秒で生成(当初は30秒程度の楽曲を何度も繋いで1曲に仕上げていました)
- 日本語の歌詞をほぼ間違いなく歌い上げる(当初はローマ字で歌詞を与えないと間違いだらけでした)
- 演奏、ボーカルの音質、クオリティが大幅に向上
ここまで来ると、基本的な技術はほぼ完成に近いのでは。今後はよりきめ細やかな対応で完成度を高めていくのだと思います。