Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

イラストタグ予想

デモの使い方

フォームの中にニコニコ静画のIDを入れて、"タグをつける"ボタンを押すと、そのIDの画像の識別が行われ、下に予想したタグがでます。 IDを入れるのではなく、ランダムに選ばれる画像にどんなタグが予想されるのか見てみたい場合は、"他の画像にジャンプ"のボタンを押してみてください。 1つのイラストに複数のタグを予測する場合があり、その場合はニューラルネットの予測スコアが高い順に並べています。

キャラクターの顔が大きく出ていてわかりやすいものなどはよく成功しますが、一方で、普段と違う衣装を着ている髪型が違うなど、判定が難しいイラストもあります。 どうしてそういうタグがついてしまうのか、という理由を考えるのも面白いと思います。

技術デモ

タグ予想結果

    解説

    このデモでやっていること

    このデモでは、ニコニコ静画に投稿されたイラストを用いて、画像とタグの関係を学習しています。 畳み込みニューラルネットワークのモデルを用いており、[1]や[2]で用いられているものに類似したネットワークを用いています。ネットワークの詳細はgithub上のモデル定義のコードで確認してください。 ニコニコ静画のタグは、一つのイラスト当たり最大10個つけることができるので、識別問題ではなく、全てのタグ次元についての0(そのタグの可能性なし)から1(そのタグだと確信)までのスコアの回帰問題として学習しています。 学習に用いたタグは約400個、よく使われているタグのうち、作品やキャラクターを表すものに絞って使いました。用いたタグの一覧はモデルデータに同梱しています。

    この技術の応用先

    この技術は、投稿時に適切なタグを提案することで、投稿時の手間を減らすことや、今回のデモには含まれていないのですが、 そのタグがつく領域を推定することで、画像全体ではなく、部分ごとのタグをつけることが考えられます。 また、タグの推測を目標として学習されたニューラルネットは他の問題への応用も良く研究されており、 今回別のデモとして出している類似画像検索やセマンティックモーフィングなどの基礎技術として用いることが出来ます。

    参考文献

    1. Very Deep Convolutional Networks for Large-Scale Image Recognition, K. Simoyan, and A. Zisserman, ICLR 2015
    2. Illustration2Vec: A Semantic Vector Representation of Illustrations, M. Saito, and Y. Matsui, SIGGRAPH Asia 2015