今から2年ほど前に、まだ今のように生成AIで簡単に動画や楽曲が作れなかった頃に当時の最新テクノロジーを駆使してフル生成AIでミュージックビデオ制作に挑戦しました。
2024/12に一度リメイクしたMVを再び2025/11時点での最新技術でリメイクしてみました。この3つを並べて見ると、昨今の生成AIの急激な進化がよくわかります。
2年間の生成AIの進化は…
2025年11月
2年前と同じプロンプトを使って生成した動画と同じ歌詞から作った楽曲を2025/11の最先端生成AIでリメイクしたMVがこちらです。
動画生成
進化のポイントは、何と言ってもモデルの人物の一貫性が保てるようになったこと。これまでは、LoRAという技術を使って特定の人物の特徴を追加学習させることで同じような人物の画像を生成することはできましたが、非常に手間がかかり、品質にもバラツキがありました。
それが今回使用した最新の生成AI(GoogleのVeo 3.1 Fastモード)では、あらかじめモデルの写真を1枚与えるだけでその人物の一貫性を保った動画を簡単に生成できるようになりました。

今回のMVでは、画像生成AIでつくった架空のモデルの写真(上)をベースに、指定したプロンプトの様々なシーンに合わせた服装や髪型、立ち居振る舞いを生成AIが文脈から判断して8秒の動画をワンクリックで生成してくれました。
楽曲生成
音楽はSUNOの最新バージョンv5で制作。1年前は後発のRiffusionがかなりいい感じでしたが、現在はSUNOの一強になりました。
日本語の歌詞もほぼほぼ正確に歌えるようになり、読み間違えた歌詞があってもエディターでその箇所だけ再生成して置き換えることもできるように。
また、v4では再現できなかったような細かい曲調やジャンルにも広く対応できるようになりました。個人的には、日本の80年代シティ・ポップ調の楽曲が作れるようになったのが嬉しい!そして、演歌もバッチリ生成できました。
2024年1月
2年ほど前に初めてMV制作にチャレンジした時の作品がこちら。隔世の感がありますが、これでも当時としては画期的な内容でした。
この頃は、生成AIによる画像生成のためにはGoogleのクラウド環境を有料でレンタルし、その環境上に画像生成AI(Stable Diffusion)の動作環境を実装したうえで1枚ずつ時間をかけて作成する必要がありました。
また、動画生成(Runway)は更にハードルが高く、生成した画像をベースにちょっとした動きを加えるだけで精一杯でした。楽曲生成も世の中にリリースされたばかりだったSUNOのv1を手探りで使って作りました。
2024年12月
それから1年弱が経過した去年の今頃にリメイクしたのがこちらです。
この作品はGoogleのImageFXで1枚ずつ画像を生成した後に、その画像をもとにKlingで動画化し、SUNO v4で生成した楽曲を被せたもの。
また、当時に発表されたばかりの技術であるText to Video、つまり最初からプロンプトだけで動画を一気に生成する技術を使って制作したのがこちら。
当時は生成AIの進化に驚きましたが、いま改めて観てみるとシーンごとにモデルがバラバラだったり、あぐらをかいてお茶を立てていたり…とツッコミどころが満載です。
歌の歌詞もところどころ間違えていますが、修正できなかったためガチャ要素に頼るほかありませんでした。
今やスマホのアプリでこうした動画や楽曲が簡単に作れるように。素人ではもはや生成AIによる作品かどうか判別することすら難しい領域まで進化してしまいました。
来年の今頃はいったいどうなっているのか想像できませんが、ここまで来てしまうともう進化の余地は限られているような気もします。いずれにせよ、今後の展開を楽しみにウォッチしていこうと思います。



