Dwango Media Villageの佐々木です。DMVは昨年に引き続き、「第22回 画像の認識・理解シンポジウム」MIRU2019に参加しました。今回は企業展示ではなく研究発表をする立場としての参加です。この記事では発表した研究である「Marltas: ヘッドレスブラウザを用いた強化学習のためのブラウザゲーム実行環境」の紹介をしたいと思います。
今年のMIRUでは「Marltas: ヘッドレスブラウザを用いた強化学習のためのブラウザゲーム実行環境」というタイトルでポスター発表を行いました。この研究は強化学習研究のための実験プラットフォームのシステム提案を目的としたものです。
画像を観測として直接扱う方策を深いニューラルネットワークで実現するDeep Q-Network (DQN)の登場を契機として強化学習の研究が近年盛んに行われています。強化学習は方策をもつエージェントが環境とインタラクションすることでデータを生成し学習を行うオンライン学習の一種です。環境はエージェントからの行動を受けて状態が遷移するシステムであり、エージェントは環境の状態を受けて行動を選択します。そして事前に設計された報酬関数によって定められる状態遷移の「良さ」を評価するため値、すなわち報酬をエージェントは受け取ります。強化学習はこの報酬の期待値を最大化する最適な方策を見つけることであり、Q学習を始めとして様々な方策の探索/学習方法が提案されています。
方策の最適化法を評価するためにはもちろん環境が必要です。最近の強化学習研究ではビデオゲームがしばしば環境として利用されます。ゲームはシミュレーションが容易でありスコアという形で報酬関数を設計しやすいためです。代表的なものとしてはATARI社のゲームの環境セットALEやOpen AI Retroが挙げられます。
ビデオゲームは強化学習のタスクとして便利ですが、実験に使用するとなると技術的なコストが高いのが現状です。強化学習の環境として利用するためには実行環境の整備、エージェントとのインターフェースなど様々な機能を追加で実装する必要があります。
そこで本研究ではブラウザゲームに着目し、強化学習の代表的な環境のインターフェースであるOpenAI Gymを通してブラウザを操作することで強化学習に利用可能なゲーム実行環境「Marltas」を開発しました。GUI機能を持たないブラウザ(ヘッドレスブラウザ)を利用しゲームエンジンとゲームソフトを分離した形で実装することで実装の手間をできるだけ減らし、容易に様々な環境を用意できるように設計されています。
提案方法が実際に強化学習のプラットフォームとして利用可能であることを示すために実例として弊社が運用するブラウザゲーム投稿サービス「RPGアツマール」のゲーム8種類を対象として実装を行いました。そして実際に学習実験を行い、DQNエージェントが到達しうるスコアをベースラインとして初心者の人間と併せて調べました。
以下の学習結果の内、学習開始直後、中盤、終盤のプレイ動画の例を載せたものです。詳しい結果や学習方法については論文を参照してください。
これらのゲームを題材とすることでMarltasの実験を行うことができました。ゲーム作者の皆様にお礼申し上げます。ありがとうございました!
学会ではポスターで発表を行いました。投稿論文のプレプリント版も以下のリンクからダウンロードできます。発表当日は学習済みのDQNエージェントが実際にプレイする様子を動画として聴講者の方々にみていただきました。
学会は昨年に比べてさらに盛況でした。発表の多くは深層学習、特にConvolutional Neural Networkを使った画像認識生成技術を扱ったものが多い印象でした。その中でも医療、ロボティクスなどの学際領域に踏み込んだり、擬似的なオンライン学習や自然言語の利用など、新しい問題設定を開拓するような研究が目立っていました。またデータ不足、Adversarial Attack、説明性などの現実的な応用を問題を意識した研究が多くみられ、深層学習技術が浸透していることを実感しました。来年にはまたどんな研究が新たに出てくるのか楽しみです。