先日、ControlNetと呼ばれる深層ネットワークを用いて、一つの画像から複数のバリエーション画像を作る機能を実装した。
https://kumahiyo.com/ai/controllnet-variation/

これは土台となる画像に対してその輪郭を抽出し、入力したテキストから生成する画像をその輪郭にフィットするように編集するような機能となっている。
今度は土台となる画像に対して輪郭を抽出するのではなく、骨格(ポーズ)を抽出するような学習モデルを利用して、生成する画像に様々なポーズをとらせるような機能を作ってみた。

ポージングモデルは私の好きな2次元にすることにした。
しかし、画像を生成するStable Diffusionは、デフォルトでは2次元キャラクターの生成は得意ではない。
そこで2次元に特化したモデルをデフォルトのモデルから変更することで解決しようとしたが、ControlNetには対応しておらず動かすことができなかった。
そこでこのモデルをさらにControlNetでも使えるようカスタマイズして無事実装することができた。

Contact
AI に関するお問い合わせは、当サイトのContactページのフォームよりお問い合わせください。