最先端の生成AIでミュージックビデオをリメイク2025

2025.11.30

今から２年ほど前に、まだ今のように生成AIで簡単に動画や楽曲が作れなかった頃に当時の最新テクノロジーを駆使してフル生成AIでミュージックビデオ制作に挑戦しました。

2024/12に一度リメイクしたMVを再び2025/11時点での最新技術でリメイクしてみました。この３つを並べて見ると、昨今の生成AIの急激な進化がよくわかります。

気になる記事へジャンプ！

２年間の生成AIの進化は…

２年前と同じプロンプトを使って生成した動画と同じ歌詞から作った楽曲を2025/11の最先端生成AIでリメイクしたMVがこちらです。

日本の心は演歌です

定番のバラード

シティポップ調

進化のポイントは、何と言ってもモデルの人物の一貫性が保てるようになったこと。これまでは、LoRAという技術を使って特定の人物の特徴を追加学習させることで同じような人物の画像を生成することはできましたが、非常に手間がかかり、品質にもバラツキがありました。

それが今回使用した最新の生成AI（GoogleのVeo 3.1 Fastモード）では、あらかじめモデルの写真を１枚与えるだけでその人物の一貫性を保った動画を簡単に生成できるようになりました。

今回のMVでは、画像生成AIでつくった架空のモデルの写真（上）をベースに、指定したプロンプトの様々なシーンに合わせた服装や髪型、立ち居振る舞いを生成AIが文脈から判断して8秒の動画をワンクリックで生成してくれました。

音楽はSUNOの最新バージョンv5で制作。１年前は後発のRiffusionがかなりいい感じでしたが、現在はSUNOの一強になりました。

日本語の歌詞もほぼほぼ正確に歌えるようになり、読み間違えた歌詞があってもエディターでその箇所だけ再生成して置き換えることもできるように。

また、v4では再現できなかったような細かい曲調やジャンルにも広く対応できるようになりました。個人的には、日本の80年代シティ・ポップ調の楽曲が作れるようになったのが嬉しい！そして、演歌もバッチリ生成できました。

２年ほど前に初めてMV制作にチャレンジした時の作品がこちら。隔世の感がありますが、これでも当時としては画期的な内容でした。

この頃は、生成AIによる画像生成のためにはGoogleのクラウド環境を有料でレンタルし、その環境上に画像生成AI(Stable Diffusion)の動作環境を実装したうえで１枚ずつ時間をかけて作成する必要がありました。

また、動画生成(Runway)は更にハードルが高く、生成した画像をベースにちょっとした動きを加えるだけで精一杯でした。楽曲生成も世の中にリリースされたばかりだったSUNOのv1を手探りで使って作りました。

それから１年弱が経過した去年の今頃にリメイクしたのがこちらです。

この作品はGoogleのImageFXで１枚ずつ画像を生成した後に、その画像をもとにKlingで動画化し、SUNO v4で生成した楽曲を被せたもの。

また、当時に発表されたばかりの技術であるText to Video、つまり最初からプロンプトだけで動画を一気に生成する技術を使って制作したのがこちら。

OpenAIのSora

Kling

Hailuo

当時は生成AIの進化に驚きましたが、いま改めて観てみるとシーンごとにモデルがバラバラだったり、あぐらをかいてお茶を立てていたり…とツッコミどころが満載です。

歌の歌詞もところどころ間違えていますが、修正できなかったためガチャ要素に頼るほかありませんでした。

今やスマホのアプリでこうした動画や楽曲が簡単に作れるように。素人ではもはや生成AIによる作品かどうか判別することすら難しい領域まで進化してしまいました。

来年の今頃はいったいどうなっているのか想像できませんが、ここまで来てしまうともう進化の余地は限られているような気もします。いずれにせよ、今後の展開を楽しみにウォッチしていこうと思います。