AI映画音楽テクノロジー

全編AIミュージックビデオ Spring breeze完成

スポンサーリンク
AI
スポンサーリンク

AIだけでミュージックビデオ作成に初挑戦してみました。製作時間は1時間ほどでしたが、クオリティの高さにビックリ!ついこの間までは画像生成だけでも驚いていましたが、あっという間に静止画から動画生成、そして作詞・作曲・ボーカル・演奏までをAIで簡単に作れてしまう時代に。

スポンサーリンク
スポンサーリンク

ミュージックビデオのテーマからChatGPTでストーリー生成

もうすぐ春ということで、「女性が春に日本の様々な場所を訪ねてその美しさに感動する」というテーマを選定。僕が考えたのはこのテーマのみです。あとはすべてAIのクリエイティビティに委ねました。

まずはこのテーマをChatGPTに与えて、10個のシーンからなるストーリーを英語で生成してもらいました。以下はその和訳です。

  1. 若い女性が穏やかな桜の庭を歩く中で、春の風に揺れる繊細な花びらを見て驚く表情を捉えます。
  2. 京都の歴史的な街を探索する中で、彼女が伝統的な日本の建築の美しさに魅了される様子を描き出します。彼女の文化的な豊かさへの感嘆を輝かせます。
  3. 静かな茶庭で、彼女が伝統的な日本の茶道を体験しながら、周りの静寂に浸る瞬間を捉えます。
  4. 賑やかな東京の街で、彼女が現代と伝統の対比に驚きを抱く様子を映し出します。彼女が都会の明かり魅了されます。
  5. 有名な渋谷交差点で、彼女が都会の鼓動に包まれながら、人の波に囲まれた中での興奮とエネルギーを表現します。
  6. 壮大な嵐山の竹の森へ彼女を運び、そこで高い竹の茎が超現実的な雰囲気を作り出す中で、彼女が自然の壮大さに驚嘆する様子を描きます。
  7. 穏やかな箱根の湖畔で、彼女が周囲の美しい山々を映し出す澄んだ水面を見つめる様子を表現します。
  8. 箱根の伝統的な温泉に移り、美しい山々の背景に対する感嘆の表情とともに、彼女が温泉の癒しを楽しむ様子を描き出します。
  9. 鎌倉の海岸で、彼女が太陽が海の上に沈む様子を見ながら、空の色の変化に魅了される瞬間を描きます。
  10. 最後は奈良の静かな寺院の庭で、彼女が日本中を旅して感動的な美しさを噛みしめる中での省察の瞬間を捉えます。
スポンサーリンク

ストーリーからStable Diffusionで画像を生成

続いて、ChatGPTが生成したストーリーをStable Diffusionに与えて、10個のシーンの画像を生成してもらいました。もともと英語で10個のシーンを作ってもらったので、それをそのままStable Diffusionにプロンプトとして指定して生成しただけ。画像のキャプションがそのプロンプトです。

As a young woman strolls through a serene cherry blossom garden, capture her awe-inspired expression as she witnesses the delicate petals dancing in the spring breeze.
While exploring the historic streets of Kyoto, our young woman is captivated by the timeless beauty of traditional Japanese architecture. Let her admiration for the cultural richness shine through.
In a tranquil tea garden, depict the young woman savoring the moment as she experiences a traditional Japanese tea ceremony, immersed in the serenity of the surroundings.
Transition to a bustling Tokyo street, where our protagonist marvels at the juxtaposition of modernity and tradition. Showcase her fascination with the vibrant city lights.
Amidst the iconic Shibuya Crossing, capture the energy and excitement on the young woman’s face as she embraces the urban pulse, surrounded by the rush of people.
Transport her to the enchanting Arashiyama Bamboo Grove, where the towering bamboo stalks create a surreal atmosphere, leaving our protagonist in awe of nature’s grandeur.
At a serene lakeside in Hakone, illustrate the young woman’s reflection as she gazes upon the pristine waters, mirroring the beauty of the surrounding mountains.
Take her to a traditional onsen in Hakone, showcasing the peaceful relaxation on her face as she enjoys the therapeutic hot springs against a backdrop of scenic mountains.
Transition to a coastal scene in Kamakura, where our young woman watches the sun setting over the ocean, captivated by the play of colors in the sky.
Conclude the journey in a peaceful temple garden in Nara, capturing a moment of introspection as the young woman contemplates the profound beauty of her springtime exploration across Japan.
スポンサーリンク

画像からRunwayで4秒のショート動画を作成

Stable Diffusionでシーンごとの画像を10枚生成した後に、動画生成AIのRunwayで4秒の動画に変換しました。Runwayを使用するのは初めてでしたが、無料のアカウントで10個の動画を生成できました。

生成した画像をRunwayにアップロードするだけで、数十秒で動画化してくれます。その際に様々な指定ができますが、今回は動きの大きさを指定するGeneral Motionというパラメータだけを指定しました。デフォルトは5でしたが、これだと顔の一貫性が崩れたり、時にカオスな動画が生成されたため、大半の動画は2で生成しました。

この指定だとカメラがゆっくりと動きながら、被写体も少し顔を動かしたり、髪の毛が風で揺れたり、水面にさざなみが立ったりといった具合に静かな動きのある動画が生成できました。

スポンサーリンク

ストーリーをベースにChatGPTで歌詞を生成

再びChatGPTに「女性が春に日本の様々な場所を訪ねてその美しさに感動する」というテーマから歌詞を生成してもらったのがこちらです。色々とツッコミどころは満載ですが、とりあえずそれっぽいのがいきなり生成されたので即採用。

(イントロ) 春の風が私に語りかける 予感が心を揺さぶる 旅立つ私の心が歌を奏でる 美しさに触れて

(ヴァース1) 桜舞い散る庭で 歩みを進めて 京都の古き街 歴史に触れて 伝統の美しさに包まれ 心が響く 私の冒険が始まる 詩のような瞬間

(プリコーラス) 東京の灯りが踊り出す 都会の脈動 渋谷の交差点、夢と光が交わる 新しさと古の調べが共存する この活気に満ちたシンフォニーで、私は舞い上がる

(サビ) 花の香りに包まれながら 美しい風景巡る 日本の絵画が広がり 私の心に映し出される 美との出会いに心躍らせ 春の調べに乗せて 感動の旅路を歌おう この瞬間を抱きしめて

(ヴァース2) 嵐山の竹の森で 夢幻のような舞踏 箱根の湖畔にて 山々に囲まれて 温泉の湯けむりが癒しを運ぶ 心が穏やかになる 私の目に映るのは、自然の壮大な調べ

(プリコーラス) 鎌倉の海岸で風がささやく 太陽が沈む瞬間 空の色が変わりゆく 美のシンフォニー 感動の瞬間が私を包み込み 心に響く 若い心が見つける、日本の美

(サビ) 花の香りに包まれながら 美しい風景巡る 日本の絵画が広がり 私の心に映し出される 美との出会いに心躍らせ 春の調べに乗せて 感動の旅路を歌おう この瞬間を抱きしめて

(アウトロ) 私の歌が奏でるのは、各地の風景への賛辞 日本の魂に触れる場所で、夢が舞い上がる 若い女性の物語、各章が綴られ 春の抱擁に包まれながら、私の魂は広がる。

スポンサーリンク

歌詞をもとにSUNO AIで歌を生成

今回、最も驚いたのがSUNOによる楽曲生成です。凄いらしいという噂はネットで見ていましたが、初めて使ってみてそのポテンシャルに驚愕しました。

とりあえずSUNOで無料のアカウントを生成したところ、トップ画面の左側にCreateとあるのを見つけてクリックすると、Custom ModeというスイッチがあったのでONにしてみました。

すると、Lyrics(歌詞)というボックスが出てきたので、先ほどChatGPTが生成した歌詞をそのままコピペ。Style of Musicというボックスには、とりあえずJapanese Popと入れてみました。Titleはそのまま歌い出しの歌詞から「春の風」と入力して、下のCreate♬をクリック。これだけです。

すると、画面右側に生成中の表示が出た後にアルバムジャケット風の画像が2種類表示されました。確かに「春の風」っぽいイメージ。どうやらデフォルトで2つのバージョンの曲を同時に生成している様子でした。

数十秒ほどで曲が完成した模様。とりあえず、1番目のジャケットをクリックしたところ流れてきたのがこの曲でした。いきなり息を吸い込むところから始まり、静かなピアノの伴奏とともに女性ボーカルが歌い出しました。

いや、ちょっと待って、ビブラートも効いていて普通に上手い。これ本当にAIが歌っているの?というのが第一印象。イントロが終わると、ドラムが入って次第に盛り上がっていきます。この後も歌は続いていきますが、動画が40秒なので最初のイントロのみをそのまま採用。

たったこれだけの指示で、しかも数十秒で、全く初めて触った僕がこれだけの楽曲をAIで生成できてしまったことにただひたすら驚きました。

最後に、動画を順番に結合し、できたての楽曲Spring breezeをBGMとして動画にかぶせてミュージックビデオの完成です。ここまで実作業時間はせいぜい1時間ほど。これがすべて無料です。しかも、ほとんど何の指定もしていないデフォルト設定のみ。AIの進化はとどまるところを知らず、これからいったいどうなっていくのでしょうか。

【追記】SUNOで他のバージョンの楽曲を作ってみました。どれもなかなか味わい深くて改めて感心した次第です。

ロック

ギターの前奏はカットして歌い出しから。渡辺美里かよ。

ヒップホップ

Yo Yoみたいな展開。

K-pop

スローテンポながら、こんなKポップもありそう。

レゲエ

イントロのリズムを聴いただけで笑ってしまいました。

ハワイアン

ゆったりと歌い上げるバージョン。

ボサ・ノヴァ

今井美樹みたいな。

スポンサーリンク

SUNO AIでより詳細なジャンルの楽曲を制作する方法

SUNOが凄いなと感じたことの1つが日本語の漢字仮名交じり文の歌詞をインプットしてもほぼ正しく読みを理解して歌わせる点。でも、アメリカ発のスタートアップ企業が提供しているサービスのため、ローマ字で歌詞を入力したらどうなるか実験してみました。ローマ字の歌詞はChatGPTにお願いすれば一瞬で生成してくれます。

Haru no kaze ga watashi ni katarikakeru, yokan ga kokoro wo yusaburu Tabidatsu watashi no kokoro ga uta wo kanaderu, utsukushisa ni furete…

すると、明らかにローマ字の歌詞の方が音楽のジャンルを設定するStyle of Musicという指定により寄せた感じの楽曲が生成されることがわかりました。例えば、R&Bというスタイル指定で日本語の歌詞で楽曲を生成しても、なかなかR&Bっぽい曲が作れなかったのが、ローマ字の歌詞で試したところ、いきなりレベルの高い曲が作れてビックリ!

R&B

推測するに、日本語の歌詞で生成する場合は日本語の楽曲を学習した限られたデータベースをもとにAIが生成しているのでは。一方でローマ字の歌詞の場合はずっと大きな世界中の英語の歌詞の楽曲をベースに生成するため、より指定に沿ったそれらしい曲を生成できるのかもしれません。

以降は、すべてローマ字の歌詞で生成した様々なバージョンの楽曲です。いずれもレベルが高くて唸りました。

J-pop

ローマ字の歌詞で作ってみたJ-popバージョン。メロディアスなコード進行がエモい。

K-pop

K-popの解像度も上がった感じがします。そのままコマーシャルに使えるくらいのクオリティ。

ハワイアン

レゲエとハワイアンのミックスみたいな味わい。

ラップ

ラップっぽい楽曲がなかなか作れなかったのですが、スタイルにtrapを指定したところ、ローマ字の歌詞だとそれっぽい曲が作れました。日本語の歌詞だとtrapを指定しても完全に的外れでしたので、やはり言語によってサンプリングに使われている楽曲のプールが違うのだと思います。

トラップミュージックは2000年以降に流行し始めたスタイルで、同じく派手な電子音を用いるアメリカ南部のサザンヒップホップの影響を受けている。ラップにおけるそれまでの主流であるブーンバップと呼ばれるサンプリング主体のトラックとは異なり、重たく暗い雰囲気のビートに細かく刻んだハイハットやシンセや効果音などの電子音が合わさったトラックが使われることが特徴。また、トラップミュージックではボーカルにもボコーダーのようなエフェクトを利かせるスタイルが流行っており、多くの曲にて用いられている。

ヘビーメタル

極めつけはヘヴィ・メタル。日本語の歌詞だとせいぜいハードロック的な楽曲しか作れなかったのが、ローマ字の歌詞だとザ・ヘヴィメタ的な楽曲がすぐに作れました。全くビデオに合っていませんが、このイントロはなかなかでは!

スポンサーリンク

SUNO AIでRemixしながら曲の続きを制作する方法

SUNO AIでは最長で1分20秒ほどの楽曲しか作れませんが、気に入った曲を選択して”Remix”を選択するだけでRemixバージョンを2つ制作できます。続けて”Get Whole Song”を選択すると、そのRemixバージョンを元の曲と繋げた長い曲にしてくれます。

K-popバージョンをベースにRemixを4回繰り返した楽曲はこちら。徐々にコーラスや伴奏の厚みが増していきながら、元々のメロディーラインが少しずつアレンジされて展開していく様子が興味深いです。収拾がつかないままフェードアウト。

その後、他の楽曲のRemixバージョンを作ろうとしたところ、Remixオプションは1回しか適用できなくなったようです。僕のお気に入りのR&BとJ-PopのRemixバージョンを作ってみたのがこちら。

スポンサーリンク
スポンサーリンク
シェアする
takekuraをフォローする
ロサンゼルスMBA生活とその後