バスケットゆいもっぷ・改(9fps)

----(理念)----

概要

  • ゆいもっぷさん の歌に合う映像を作るのに、イラストAIを使うと、少労力で見応えある映像が作れる可能性があり、その方法を確立しようとしています。
    • 現在のところ、1分の映像を作るのに2.9時間かかる (←TVアニメOP位の(全身が)動くシーンの割合 = 半分くらいは静止画を活用)
    • (目標: 1分の映像を1時間で作る)
  • 今回は、前回(22/12/25)に公開した、『バスケットゆいもっぷ』(実質2.9fps) を 9fps に高めました
  • その過程で、 SmoothGraphic をイラストAIのi2i入力画像として使いました

ゆいもっぷさんについて

ゆいもっぷさんの活動について

  • 毎週木曜日や金曜日の 22:00くらいあたりから、テイルズ実況をしてます
  • 隔週土曜日 22:00 から Vキャスター集団(?) マイティスマイル の生放送出演 (センター)
  • 以前は毎週火曜日22:00からVアタック25の視聴枠を開いていました
    • (上限の16人参加が絶えない大人気ぶり)
  • 繁忙期以外には、たまにカラオケ配信をします (ポイント)
    • 激かわ
    • 現在は繁忙期
      • → なので、繁忙期が終わる(3月中旬)までに、前回の配信に合う映像を作る必要がある

これまでの経緯

2022年

  • 10/3 NovelAIがセンセーショナルに登場
  • 11/初旬 重ね合わせ画像をi2iの入力にすると中間画像が得られることを見つけた (=アニメ制作歴を開始)
  • 12/25 動画を初めて公開する

今後の見通し

2023年

  • 2/末 ゆいもっぷの歌 (TVサイズ)に合わせたアニメ映像(80~90秒)10時間 で作って公開
    • 計算上は映像に含まれる動画(40秒)が 8時間で作れる
      • (本当にそうかやってみたい)
  • 3/中旬 ゆいもっぷさん の歌 (フルサイズ) 1曲に合わせたアニメ映像( 4分半程度)を 13時間で作って公開
  • 4/上旬 ゆいもっぷさん の歌 (フルサイズ) 2曲に合わせたアニメ映像(9分程度)を 26時間で作って公開
  • 4/下旬 ゆいもっぷさん の歌 (フルサイズ) 3曲に合わせたアニメ映像(13分半程度)を 39時間で作って公開
    • 3曲39時間では正直量産がきついので、何とか時短をできるポイントをみつけて、3曲20時間 (= 動画1分1.5時間) くらいにできるととてもうれしい

大目的

  • 大量に在庫がある ゆいもっぷさん の歌に合う映像を量産できる体制を整えて、実際に量産する

小目的(今回の目的)

  • SmoothGraphic (以下SG)をつかって、中fps域(3~9fpsくらい?) の中間画像のスムーズな(速くて(1枚1~2分) 少労力な)生成法を確立できるか確かめる (確立できるならする)
  • 前回の重ね合わせ法や、今回のSG法について、↓を知る
    • それぞれ、どのくらいのfpsで使えるのか
    • それぞれ、1枚コマを生成するのに何分かかるのか

----(今回の具体的内容)----

使用ソフト

  • SmoothGraphic Copyright(C)2013-2017 チラ裏エリア
    • NovelAIへのi2i入力用画像生成に使用しました (fps0.5~ = 2秒間隔より密なところで)
    • www.dlsite.com
  • NovelAI
    • (HolaraAI の出力画像が綺麗だったのですが、調査時点(22/12末頃)ではi2iがなく、試しに使ってみれませんでした)
  • ペイント2D
    • (SmoothGraphicに.pngを入れる前に上書き保存するとSGで読み込めるようになる)
  • SAI
    • (たまに消しレタッチ、さらにたまに腕などを別の出力画像から移植)
  • ClipChamp (Microsoftの動画制作ソフト)

前回の動画を作るために使ったソフト

  • https://chara-zokusei.jp/nakawari (重ね合わせ法)
    • fps 0.5 (2秒間隔) より疎なところ では、SGだと i2iに入力して中間画像を得るための画像を得るのが難しいので、こちらも必要です
      • あと、後述しますが、中ほどのfps域(0.5fps~)でも、SGだと苦手な前後画像の組み合わせもあるので、その場合はこっちを使います

できた動画

SmoothGraphicの効果について

  • 0.5fps(2秒間隔)以上の2枚の元画像から、NovelAIでi2iして中間画像を作るための入力画像を、きれいに作るのに使えた
    • 制御点設定手動でないといけなかった
    • SGの説明書きによると、元が15fps以上なら自動制御点設定機能できれいに使えるとのことです
  • 制御点はだいたい、毎回、40組(2枚で80点)設定しました
    • その設定には5分かかりました (= 1分で 8組(16点)設定する = 4秒で1点設定)  - (前回の重ね合わせ法では2組(4点) )
  • SGで 画像を作った後は、1コマにつき、1分ほどで動画に使用する画像をNovelAIで作れました
    • 前後のコマと見比べて、良さそうな画像がNovelAIから出てきたら、NovelAIを引き直すのをやめる
      • (1~2枚目で引けることが多い)

SGだと苦手な前後画像の組み合わせについて

  • 前後の画像のうち、片方の画像では写ってない部分がある場合
    • 片方の画像だけでスニーカーや手首から先などが写ってる場合など
    • 片方の画像で手の先が股の間に隠れてる場合など
  • そのような場合は、前回紹介した重ね合わせ法を使うといいです

今回の動画のスペック

  • 27.1秒
    • 前回 11.5秒だったので2.4倍
  • 動画 244枚
    • 前回 78枚だったので 3.1倍
    • (= 3.1倍なめらか)
  • 9fps (0.11秒間隔)

前回と今回の動画のfpsについて

  • 今回の動画は、前回の動画を、動きを補間して動かした動画でした
  • 動きを補間すると、27.1秒かかったので、原画1枚目から8枚目は、本来、27.1秒かかる動きでした
  • 前回、その27.1秒かかる動きを78枚で描いたので、実質的に 78 / 27.1 = 2.9fps でした
    • (しかし、無理くり11.5秒に2.4倍速再生したので、計算上は6.9fpsになっていたのでした)

背景について(今回やらなかった事項)

  • ↓を使うと、背景をきれいに除去できます (何枚かやってきれいにできました)
    • huggingface.co
    • APIを使って、自動的に何枚もの画像に適用できるのだと思います (おそらく…)
  • 背景を抜いたキャラの画像の背景として、元々画像にあった背景のうち、いいものを選んで、同じ背景を複数のキャラ画像に適用させていけば、目まぐるしくならないと思います
    • 元々あった背景だと、キャラの状況にぴったり適合してるだろうと思います
      • 特に、アクションシーンだと、キャラの動きに合わせて、背景に対して、「平行移動、回転、ズームイン・アウト、ぼかしや明るくするとかのエフェクト」を適宜実施しないといけないので、「別途背景を制作」は労力がかかると思います
    • Premier?, AviUtl?, AfterEffect?, Blender? みたいなソフトを使うと、こういう合成(重ね合わせ)が楽にできるのだと思います

でもやらなかった ~敬愛するドローデーモン先生の至言~

  • "私の背景は本当に迫力があるので、慣れていないとびっくりしてしまうかもしれませんが、まずは慣れてください、話はそれからです" (ドローデーモン先生の有名なセリフのパロディ)
    • …と言いたかったところでしたが、前回実質2.9fpsだったものが、今回9fpsになって、背景もなめらかに変化するようになって、背景の目まぐるしさもだいぶ緩和されてないでしょうか?
    • もしかすると、この背景表現に見る側が慣れて(基本ゆいもっぷしか見ないので気にならないことが判明して) 別に差し替えなくても受け入れられるかもしれないので、このまま続行してみたいと思います
      • (表現したい & 視聴者が見たい のは ゆいもっぷちゃん なので背景に力を入れないがち)
      • はやくゆいもっぷさん の歌映像を作りたい
  • 背景自体は移動速度や移動距離などを表すためにも大事
    • (背景に何かは必要。アクションシーンでは動かす(平行移動、回転、ズームイン・アウト?、ぼかし等エフェクト?) 必要もある)

ドローデーモン先生のブログを読み返して

  • いま読み返しても、自らイラストを描き始めるようになる流れと、応援のメールをもらって2013年の3月に戻ってくる流れ、そして本当に努力に努力を重ねて画力を獲得していくシーンは超胸熱ですね ( もうすぐ10周年)
    • (しかし今ではわたくしは画力も発想もAI任せになってしまいましたわ...)

ドローデーモン先生の教えの研究結果

下手に見えてしまうのは発想がやばすぎるからです
いつの時代も新しい物はたとえ優れていたとしても受け入れられないという扱いを受けます

まだ皆さんが私の絵や発想を受け入れられないのはまだ慣れていないからだと思います
まず慣れてください

慣れた上での正当な評価なら私は受けつけます
実際私の画力は今上がっているのですが、それにすらまだ気付かない人が多いので
まだ本当に慣れていないんだな、と思います

(自信を与えてくださる素晴らしい先生 (心服))

----(これからについて)----

今後の自分の動画制作手順について

どのfps帯でどの中間画像生成用入力画像生成法を使うか

  • 結論のまとめ
    • 3.5秒間隔原画を用意
    • 2秒間隔より疎なところでは重ね合わせ法
    • 2秒間隔より密なところではSG法

SmoothGraphicで対応できるfps域について (0.5fps~)

  • 1秒間でどのくらいキャラが動くのかの説明のために ↓ を見てください
  • SmoothGraphic (SG) の手動設定モードだと、2秒間の動きの中間は作れました (例えば、0sの直後の画像と2sの直後の画像の中間画像)
    • しかし、3秒間の中間となると難しかったです
    • → 2秒間の動きの中間なら作れる (= 0.5fps よりも頻繁なら作れる)

前回の重ね合わせ法の活躍するfps域について(~0.5fps)

  • それより疎fps域(0.5fps,2秒間隔より疎)なところでは前回の重ね合わせ法を使います

重ね合わせ法でどこまで疎な2枚でも中間画像を作れるかの検証

  • 実際、前回の記事にある「8枚の原画」をみると、それぞれの原画間の時間間隔は(ちゃんと動きに必要な時間をとった)↑の間隔表でそれぞれ、↓の秒数の間隔が開いています
  • …というわけで、最大8秒間隔でも間の動きを (今回投稿した動画くらいのクオリティで) 重ね合わせ法で作れることが実証されています (0.5fpsを超えたら、SGを使った方が多分効率が良さそう)
    • (でも、正直、最初の原画が疎な8秒だけ、動画のその後の部分よりクオリティが低い気がする) (…ので、3.5~4秒おきくらいには原画を用意した方がいいかも)
  • でも、用意した原画間の動きはNovelAIが(中間画像生成用画像を与えられて)いい感じに自然な動きを考えてくれる訳ではあるものの、もちろん、NovelAIが考えた動きは、必ずしもアニメ制作者の意図する動きと合致しないので、やはり、3.5秒おき(?)くらいには、「このタイミングではこうなっていてほしい」と指定した方が意図する動画になると思います
    • バスケットゆいもっぷ・改 (今回の動画)も、0.0s と 8.0s の間に原画の指定がないので、ゆいもっぷちゃんが勝手に(原画で指定してない) 座る動きをしている (= 原画1枚目と2枚目は3.5秒程で動けるような構図の差分ではなかった (他の組は3.5秒程度で動ける動きだったけど(←動画を制作して結果的に分かったこと)))

1枚目と2枚目の原画の組だけ8秒かかる構図の差分だった理由について (他は3.5秒)

  • 1枚目の状態から2枚目の状態になるには↓の3つのことをする必要があった (8s)
    • 1. 腰を引いた前かがみ体勢から直立する
    • 2. 真横視点から斜め前視点にカメラ(か本人)が移動する
    • 3. 走り出す
  • 一方、他の原画の組では、↓のことしかしてない
  • 2枚目→3枚目 (3s)
    • 1. カメラが正面に回る (本人は走り続けたまま)
  • 3枚目→4枚目 (2.75s)
    • 1. 本人が驚いて止まる
    • (カメラが寄る)
  • 4枚目→5枚目 (4.75s)
    • 1. カメラが斜め前から斜め後ろやや下に回る
    • 2. 本人は座る
    • (カメラがズームアウト)
  • 5枚目→6枚目 (3.5s)
    • 1. 走り出す (座ってる状態から)
    • (本人がカメラから離れる)
  • 6枚目→7枚目 (4s)
    • 1. カメラが横から正面上にまわる (あるいは本人がカメラに対してそうなるように回転する)
    • (カメラがズームイン)
    • (腕を振り上げてダンク…は原画では指定されていない)
  • 7枚目→8枚目 (0.5s)
    • (ゴールが消える)
  • 多分、カメラが回るのには1動作単位時間かかるのだと思う (←これで時間(3秒)使うことが多い)
    • 一方、カメラのズームや並行移動は他のことをしながらできるのだと思う
  • こういうことに気をつけて、(3.3秒で収まる構図の差分になるように)原画を用意しようと思う
    • 1動作単位強
    • = つまり、 10秒のシーンでは、たったの (3~)4動作弱しかできない
      • 他のアニメ作品の動いてるシーンでも確認してみたい

これからはこうしようと思う

  • 3.5秒間隔(0.29fps)くらいで原画を用意する
    • ex. 10秒の動画だったら、0.0s, 3.3s, 6.7s, 10s の時の状態の原画を用意する (原画4枚)
  • 2秒間隔よりも疎なところ(~0.5fps)では 重ね合わせ法を使って中間画像生成用画像を作る
    • ex. 1.7s, 5.0s, 8.4s の画像が重ね合わせ法で作られる
  • 2秒間隔よりも密なところ(0.5fps~)では SGを使って中間画像生成用画像を作る
    • ex. 0.0s~1.7s の場合
      • 6 fps なら、 10枚中割り画像を作る (= 制御点設定 5分 + 画像生成10分 = 15分)
        • = 10秒の動画なら (SGで作る部分は) 90分 でできる
      • 9 fps なら、 15枚中割り画像を作る (= 制御点設定 5分 + 画像生成15分 = 20分)
        • = 10秒の動画なら (SGで作る部分は) 120分 でできる

今後制作する動画についての見通し(構成、所要時間予測)

一般的なTVアニメのOP映像の構成について

(右端は累計秒数)
イントロ 4秒 (-4)
前サビ 10秒 (-14)
タイトル10秒 (-24)
Aメロ1 10秒
 各シーンは 2秒
Aメロ2 10秒(-44)
Bメロ10秒(-54)
 各シーン3秒とかかも
サビ 33秒 (-87)
 1秒シーンも多い
 まぁ、最後の3秒は止め絵かも 実質30秒

今後自分が作る映像についての見通し(構成・所要時間)

このような構成の映像にしようと思う & 想定作業時間

  • ゆいもっぷさん の歌に合う映像を作るにあたって、アニメOP風の映像にするといいと思った。
(フルサイズ (= 4.5分くらい))
(間奏などは静止画)
(1番)
イントロ静止画
前サビ(10秒) 6fps で動く 60枚 = 90分
タイトル部分 静止画
Aメロ 静止画 +  10秒くらい6fps = 90分
Bメロ 静止画
サビ 10秒9fps, 10秒6fps =  210分
(ここまで390分 = 6.5時間) 

(2番)
Aメロ 静止画 +  10秒くらい6fps = 90分
Bメロ 静止画
サビ 10秒6fps =  90分
(ここまで 9.5時間)

(大サビ)
10秒9fps, 10秒 6fps = 210分
(ここまで13時間)
  • つまり、 映像1分作るのに、 13 / 4.5 = 2.9時間かかる

ツールのTips

SmoothGraphic

  • 上にも書きましたが、うまく読み込めないときは、ペイント2Dで上書き保存するといいと思います
  • 僕はSGで画像を15枚出力させていたのですが、前後のちょうど中間の画像を得るには、SGが出力した画像15枚のうち、どれが中間画像としてよいかな、と選別することはせず、真ん中の 8番の画像を確認せずに 画像生成AIに入れていいと思います (時短)

ClipChamp

  • ズームは Ctrl を押しながら +があるキー(;) を連打した方が楽そう
  • 細い隙間は右クリックで消せる(後ろをつめてもらえる)
  • コマをつかんで、秒数を見ながら左右すると、ちょうど0.11秒間隔にできる
    • もともと、何秒そのコマがあるか確認しておいて、 0.1秒増やしたり減らしたりする感じ

(Windowsの) フォト

  • パソコンの電源設定がバッテリーの保ち重視モードだと、前後の画像移動できない
    • バッテリー重視モードだと、ClipChamp も カクつく

制作のTips

  • 仕上げ段階では、顔だけに着目とか、動画内の一部分を集中して見ると、直したいポイントが見つかりやすい

感想

  • ゆいもっぷちゃん かわいい
  • やっと、ゆいもっぷさんに取り組めるのでうれしい (←これが本願)
  • アニメOP的映像を、1分につき2.9時間で作れるようになった

    • …ということで、ついに、 ゆいもっぷさん の歌に合う映像を量産できる技術が身についたのだと思います
    • …とはいえ、もう少し時短ポイントを見つけて、1分2時間くらいで作れるようになるとうれしい
  • 次回 (2023/04/16)