画像の認識・理解シンポジウムMIRU2018に参加してきました - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

研究開発部署 Dwango Media Village部の佐々木です。 Dwango Media Villageは８月に行われた「第21回画像の認識・理解シンポジウム」MIRU2018で2日間企業展示を行いました。 MIRU2018は国内のComputer Vision研究者たちの学術交流のためのシンポジウムです。会期と並行して若手の会プログラムという企画も開催されていました。このプログラムは学生・ポスドク・社会人を問わず若手の研究者たちの交流の場でした。この記事ではシンポジウムの内容に加えて若手企画の様子も紹介したいと思います。

Dwango Media VillageはMIRU2018企業ブースでポスターとデモ展示を行いました。ポスターでは漫画ページの自動着色、線画からの法線マップ推定、画像特徴量などの大量かつ多次元ベクトルの高速クラスタリングなどのComputer Vision研究に加えて、声質変換やドワンゴが行なっている競馬予測プロジェクトを紹介しました。

デモでは最新のインターンシップの成果である2Dから3D姿勢推定、そして当日公開となった人工生命プロジェクトのデモを行いました。 3D姿勢推定のデモでは、既存手法では必要だった2D・3Dの姿勢データペアを使わずに2Dデータのみで3D姿勢推定を学習する深層学習モデルを紹介しました。当日はWebカメラに映った人の画像からオンラインで3Dの姿勢を推定する様子を展示しました。人工生命デモでは3Dの仮想空間上で仮想の生命体が自ら学習する様子を実演しました。各々異なった身体構造をもつ生命たちは自ら餌を取り生き残るため、どうやって体を動かすのか強化学習で学んでいます。前日に生まれた生命がどんな様子かを見るために二日間に渡って足を運んでくださる方もいました。

MIRU2018の様子

チュートリアル

Computer Visionでは機械学習技術である深層学習が高い性能・汎用性から注目されており、日々新しい手法・アルゴリズムが提案されています。チュートリアルでは深層学習の代表的なモデル紹介、画像生成問題に高い性能を発揮している敵対的学習モデル(GAN)、そして強化学習の最新の研究動向が紹介されていました。機械学習ではモデルのハイパーパラメーター設定がポイントになるのですが、この調整を自動で行う方法論の紹介もされていました。理論だけではなく実際に役立つノウハウもカバーしたチュートリアルでした。

ポスター・オーラル発表

画像を認識・生成する深層学習モデルであるConvolutional Neural Network(CNN)を使った研究が多く見られました。オーラル発表では先日行われたCV分野のトップカンファレンスCVPRに採択された論文の紹介もされていました。

私が特に興味をもった発表をいくつか紹介したいと思います。

Joint Optimization Framework for Learning With Noisy Labels

CVPR2018

CNNで画像分類を行う学習を行う際には入力画像と正解ラベルのペアを大量に集めたデータセットが必要になります。もし間違ったラベルが付与されたデータが含まれていると性能が下がる原因になります。通常であればデータを「綺麗に」する作業を行うのですが、なにしろデータセットが大規模なので精度にも限界があります。この発表では間違ったラベルを直しながらCNNを学習させる方法を提案していました。

Interactive Avatar Image Manipulation with Unconstrained Natural Language Instruction using Source Image Masking

airXiv

説明文からの画像生成です。 CNNを使うと高品質な画像を作ることができますが、ユーザーが思った通りの画像を生成することは難しいという問題があります。この研究ではアバター画像生成モデルの結果をうけて、さらにユーザーが指示を追加していくという対話的な生成方法が紹介されていました。

ロボット分野におけるグランドチャレンジ

MIRU2018では異分野の発表も積極的に行なっていました。音声・自然言語などの他分野でみられるように、ロボティクスでも深層学習による技術の塗り替えが進むのではないかという話が印象的でした。その塗り替えの事例として従来のロボット技術では難しい、柔らかい素材（布）の操作学習を強化学習で行う研究が紹介されていました。

若手の会プログラム

チームごとにComputer Vision以外の分野の研究サーベイを行いました。 MIRU2018の二ヶ月ほど前に会期前にチーム分けが発表されました。各チームには自然言語、データマイニングのように分野が割り振られ、１チーム5人前後でMIRU2018会期までサーベイを行いました。会期中にポスターと口頭発表があるため、入念な論文調査と発表準備が必要です。メンバーは全国に散らばっているのでSlackを使ってこまめなやりとりをしつつ、論文をチームで読み進めました。

会期中にも交流企画が用意されていました。初日にはアイスブレークとして自己紹介LTがありました。各自90秒で自分の研究内容と趣味を語ります。大学研究室の学生が多く、研究分野はやはりComputer Vison周辺が中心でした。ここでもMIRU本会議と同様に深層学習モデルについて興味を持っている、あるいは使っている人が多いという印象でした。自己紹介のあとは近くの居酒屋で北海道の食べ物・飲み物を楽しみながらの交流会に参加しました。会期中にはMIRU2018のスポンサー企業が提供するランチ会、サーベイ結果のスポット発表、そして会議後には各チーム20分の口頭発表が行われ、若手の今後を語らう会で締めとなりました。

若手の会プログラムはタフなプログラムでした。サーベイというからには多くの論文を読む必要があり、なおかつ1つの発表としてまとめるのは多くの労力がかかりました。しかしこのプログラムを通じて大学の研究室・企業を超えて新しい研究者の仲間ができたことは非常に良い経験でした。委員会メンバーの方々も非常にフレンドリーで、終始和やかな場で交流が行えました。

感想

MIRU2018はComputer Visionの研究動向だけではなく、異分野へと目を向けていました。最新の研究内容を知るだけではなく、新しい領域へ問題を見つけに行こうという姿勢が印象的でした。

８月の札幌は東京に比べると圧倒的に過ごしやすく、帰るのが惜しい程でした。市内ではビアガーデンが開かれており、涼しい夕方にのんびりと外でビールとジンギスカン。会議のバンケットではスープカレー、味噌ラーメン、日本酒などの北海道の名物も楽しめました。来年のMIRU2019は大阪で開かれるとのことです。是非来年も参加したいと思います！