Stable Diffusionでは、文鳥を生成することが難しい。
BunchoともJava Sparrowとも言われるが、どちらの単語でも上手く生成できない。
そこでTextual inversionと言われる手法で文鳥を生成できるようにした。

これは特定のキーワード(例えば、)と、関連する5枚前後の画像を追加で学習させることで、
学習した画像の特徴や色、スタイルを持った画像を生成できるようにするものだ。
土台となるモデルを編集する必要がなく、追加するデータ容量も少なくて済むため非常に便利。

また、学習させる時に「object」か「style」かを選択することができるのだが、
objectは同じような種類が他にない場合に選択し、
styleは同じような種類が他に存在する場合に選択すると上手く活用できるのかなという印象を今は持っている。
今回だと、文鳥と似たような姿かたちの鳥は他にもいるため、styleが上手くハマり、
objectだと上手く画像を生成することができなかった。

作成した学習用データをモデルに渡して生成してみた画像が以下。
多少の違和感はあるが、Textual inversionを適用する前に生成される画像と比べ、
同じプロンプトでも全く違う出来になった。

今回作ったTextual inversionはこちら
https://huggingface.co/sd-concepts-library/sakura-buncho-style

Contact
AI に関するお問い合わせは、当サイトのContactページのフォームよりお問い合わせください。