新･きまぐれゆきと帳: ミュージックビデオシリーズ「世界怪奇ツアー」を作る

前回からの続き。

音楽をYouTubeに公開するにあたり、画像を用意しなければならない。

ここで初めて、前の年からいじっていた画像生成AIが実用の日の目を見ることになった。

初期のムービーの構成はシンプルで、簡単なループアニメーションとサビの止め絵でできている。

各ムービーでどんな生成AIサービスを使っているかはムービー末尾のテロップに表記している。

初期のころ、よく使っていた生成AIアニメのサービスはKaiberで、静止イラストがわしゃわしゃと動くような感じ。

静止画の生成AIはAdobe FireflyとDreamStudioというウェブサービスを使用していた。

Fireflyは少し癖があり、ものすごい解像度の高い写真クオリティの絵が得意な反面、イラスト調の絵のクオリティは残念無念という感じだった。

DreamStudioの内部はおそらくStable Diffusion XL。ネガティブプロンプトが使えたり、読み込んだ画像を生成AIで再解釈してくれたりと結構便利だったが、Stable Diffusion3の発表と同時に突然サービスがなくなってしまった。

この世界の進歩は早く、OpenAIがすさまじいクオリティの動画生成AI「Sora」のデモを発表し、それがリリースされる前に次々に新しい動画生成AIサービスが他社から出てきた。

もはやKaiberの時代遅れ感はいかんともしがたいので解約し、Lama Dream MachineとRunway Gen 3のサブスクリプションに入った。

静止画のサービスはDreamStudioが使えなくなってしまったので、しばらくDALL-E3を使いながら（ChatGPTのサブスクに入っているので使える）、他のサービスを探していた。

Midjourneyのウェブアプリ版が登場し、このサブスクに入ることにした。以前からMidjourneyの性能の評判は聞いていたが、Discordのアカウントから操作するのが嫌で使わなかったのだ。

Midjourneyは評判に違わず、すごい美麗なイラストレーションや写真調の画像が作れて、インターフェースもわかりやすいので大変満足している。｢コティングリーの妖精｣以降、多用している。

DALL-E3は癖のある独特の画調のイラストができるが、長所はプロンプトの追従性が極めて高いこと。他の生成AIでは命令通りの絵が出ない時に頼りになる。「テケテケ」のサムネ画像もDALL-E3で出した画像にレタッチで手を加えたものだ。

Midjourneyの作業画面。一回のプロンプト入力で四つの画像が生成される。

動画生成AI、Lama Dream Machineのトップ画面。最近のアップデートでお上品になってしまった。

クマ男が爆発をバックに歩いてくる、以前のB級映画っぽいデモが好きだったんだが。

Lama Dream Machineの作業画面。現在はこのサービスをメインに動画を作っている。

ちょっと前にOpenAIのSoraが正式公開されたが、期待されたほどの性能ではなく、

ちゃんと使うには月3万円もお金がかかるので、今はムリ。

FinalCutProで動画編集する。

解説パートで流れるBGMもsunoAIでつくったもの。

ナレーションは無料の合成音声ソフトVOICEVOXを使用。

最近になり、より自然な合成音声が作れるAivisSpeechなどがリリースされたが、

まだ落ち着いたナレーションに適した声がない。今後に期待。

現在（2024年12月）までに70本以上のMVを作ってYouTubeで発表した。

この制作過程で、生成AIの現在における限界も痛感した。

今の生成AIでは次のような題材は作るのが難しい。

※ちなみに、世間で流行っているアニメ美少女のような題材はまったく作らないので、そっち方面の難しさはわかりません。※

・日本の風景

生成AIの学習ソースは欧米のものに偏っているため、日本で当たり前に見ることができる風景を作るのが苦手。

例えば、ランプが横に並ぶ信号機など。欧米式にランプが縦に並んだものが出てくる。畳や障子などもそれっぽい絵は出るが、細部はかなりおかしくなる。

・一本足、一つ目など、本来対になっているものが無いもの

学習ソースの偏りか、制限がかかっているのかは不明。

・体の一部が欠損しているもの

おそらく規制の関係で作ることができない。「首なしライダー」などはレタッチで首を消した。

・軍艦、戦闘機などの機械の正確な描写

特にレシプロ戦闘機を描くのが苦手のようだ。「フィラデルフィア実験」「マンテル大尉に花束を」では苦労した。

｢南極のニンゲン｣の捕鯨船は実際にはまったく形が違うが、イメージということで妥協した。

・乱雑な状態

「バルバドスの動く棺桶」で石室内に乱雑に積まれた棺桶を描かせようと何度も試したがダメだった。

・看板などの文字

デタラメな文字が出てくる。｢時空のおっさん｣ではむしろ異世界らしさが増した。最近の生成AIではちゃんと文字を出せるようになってきているらしい。

・ステレオタイプ(偏見)にひきずられる

例えば日本の風景を出そうとすると、｢富士山｣｢満開の桜｣｢五重塔｣などが何の脈絡もなく出てくる。｢デボンジャーの悪魔｣では下半身がヤギのひづめを持つ、典型的な中世の悪魔のイメージを出そうとしたが、Midjourneyではなぜか筋骨隆々のモンスターしかでなくて、Dall-E3でなんとか作った。Midjourneyは最近のゲームのコンセプトアートの学習によるバイアスがかかっているっぽい。

・奇怪な姿をしたモンスター

「世界怪奇ツアー」では現実にあった事件を題材にしているため、目撃者証言やスケッチに基づいたUMAや宇宙人を出したいのだが、プロンプトだけではうまく作れたためしがない。

ツチノコならなんとかなるだろうと楽観していたのだが、これすらもうまくいかなかった。

こういう場合は僕が自分で手描きでイラストを描いている。

・流血などのゴア描写

ウェブサービスでは当然のように規制されている。ローカルでStable Diffusionを使えば作れるかもしれないが、おそらく発表の段階でYouTubeの規約に引っかかってしまうだろう。

こうした理由から、曲を作ったもののMV化できない曲が三曲ほど存在している。

楽曲だけを音楽配信サービスで流すことも計画しているので、そのうちこれら未発表曲も日の目を見るかもしれない。

次回に続く。

2024年12月26日木曜日

ミュージックビデオシリーズ「世界怪奇ツアー」を作る