Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

マールタスの学習を見守る24時間生放送が行われました

DMVが開発している、RPGアツマールのプレイ方法を学習するシステム「マールタス」の生放送番組が8/26(水)にニコニコ生放送で放送されました。 この番組ではRPGアツマールに投稿されたゲーム2つを題材として番組開始〜番組終了までマールタスが学習する様子を放送しました。 そして番組オープニングとエンディングではゲーム実況者/作者であるまっくすさんの司会の元、マールタスやニコニコ自作ゲームフェス新人賞2020の紹介が行われました。 特にエンディングではまっくすさんとマールタスのゲーム対決が行われました。 放送は終了しましたが、以下のリンクからタイムシフト視聴ができます。

この記事では放送内容の振り返りと共に、学習がどの様に進んだのかの解析、そして番組終了後に学習を続けて到達したハイスコアのプレイ動画を紹介します。

放送内容

番組はオープニングとエンディングの1時間番組を挟んで21時間学習の様子を流し続ける、というものでした。 学習の対象となったゲームはRPGアツマールに投稿されたゲームである「To Hole of Hell [ver1.1]」と「COSMIC SHOOTER (ファミコン互換)」です。 To Hole of Hellはキャラクターを操作して敵キャラに当たらないようできるだけステージ深くまで進み続ける強制スクロールゲームです。 COSMIC SHOOTERはシューティングゲームであり、敵機と弾を避けつつ敵を倒してハイスコアを目指します。 どちらもゲームオーバーがあり、マールタスが繰り返しプレイする様子が放送されました。 以下は、ゲームプレイ中の映像とプレイ中のゲームパッドの様子を再生するデモです。

COSMIC SHOOTER

ドロップダウンリストをクリックして選択するとプレイ動画を再生できます

上の動画は番組開始直後、中盤、そして番組エンディングのゲームプレイの例です。 COSMIC SHOOTERでは「2Hours」「10Hours」「22.5Hours」がそれぞれが学習開始2時間後、10時間後、22時間半後に相当します。 22時間半後はまっくすさんとの対決でプレイされたものです。 学習開始直後はうまくプレイできずすぐにゲームオーバーになりますが、学習が進むにつれて上手くなるのがわかります。

To Hole of Hell

ドロップダウンリストをクリックして選択するとプレイ動画を再生できます

To Hole of HellでもCOSMIC SHOOTERと同様に「2Hours」「10Hours」「19Hours」がそれぞれが学習開始2時間後、10時間後、19時間後に相当します。 こちらも19時間後は対決に使用されたものです。

また生放送中には開発メンバーである佐々木からマールタスの学習の仕組みである深層強化学習の技術解説が行われました。 マールタスは深層強化学習、特にDeep-Q Learningと呼ばれる方法を使っています。 このdmv.nicoでも解説記事を公開しています。 技術解説コーナーでは強化学習の問題設定の枠組みから始まり、行動価値の導入、Q学習の必要性、そして深層学習の導入を行いました。 またDeep-Q Learningの性質を前提とした上でマールタスの得意なゲーム、不得意なゲームの特徴についても紹介しました。 番組で使用したスライドは以下から見ることができます。

学習結果の解析

To Hole of Hellスコアの推移
COSMIC SHOOTERスコアの推移
 学習中のスコア推移

番組中に行われた学習の結果、マールタスはどのような成長をしたのでしょうか。 上のグラフは学習の進捗に合わせて獲得スコアの最小/最大値、平均値/中央値、上位10パーセントタイル値をプロットしたものです。 To Hole of Hellは序盤から線形にスコアが伸びますが、学習開始から12時間がすぎたあたりからスコアの伸びが止まりました。 これはおそらくゲームが進むと増えてくる敵キャラへの対処(できるだけ敵を避ける、ライフ回復アイテムをとる)が上手く行かなかったことが原因ではないかと思われます。 COSMIC SHOOTERでは〜6時間ごとまでは急激にスコアが上昇しますが、そのあとは伸びがゆっくりとなりました。 この点数は前半には出現していなかった敵キャラが出現し始める頃と一致しており、もう一方のゲームと同様に後半のゲーム進行変化が原因ではないかと考えられます。

放送後も学習し続けてみた

To Hole of Hellスコアの推移
COSMIC SHOOTERスコアの推移
番組終了後の学習の推移(※放送されなかったプレイのスコア情報も含む)

番組内では学習終了となっていましたが、その後も学習を継続してみました。 上の図は番組終了後も学習を継続した結果です。 ここでプロットされているスコアは番組中に再生されたゲームプレイだけではなく、学習中の探索で生成されたプレイの情報も反映されています。 そのため24時間以内であっても先ほどの番組で再生されたスコアのみのグラフとは異なる値になっています。 To Hole of Hellは番組終盤の頃にスコアの伸びが止まり、しばらく停滞が続きましたが90時間を超えたあたりからまた緩やかに上昇がみられました。 COSMIC SHOOTERも番組後は平均スコアの大きな変動は見られませんでしたが、最大スコアの変動が見られました。

上のデモの「Best」を選択すると番組後に得られたそれぞれのゲームのベストプレイを見ることができます。 To Hole of Hellはまっくすさんの到達したゲームクリア(100階)には一歩及びませんでした。 COSMIC SHOOTERは番組中のハイスコアを大幅に更新し、9380点まで到達しました。

感想

番組制作にあたって題材となるゲームを開発したあおいたくさん(To Hole of Hell)、suzukiplanさん(COSMIC SHOOTER)、そして番組を見てくださった視聴者のみなさまにお礼申し上げます。ありがとうございました!

この番組企画を通して様々なことを学ぶことができました。 番組を始める前は「学習する様子をひたすら眺めるのは単調で飽きやすい絵になるのでは」という懸念がありました。 しかし実際にやってみると次こそは良いスコアを出すのではと期待してしまい、いつの間にか見入ってしまいました。 また放送のコメントではマールタスのボタン操作への感想に加えて、題材となっているゲームの特徴や面白さへの言及があったことが印象的でした。 ゲーム宣伝の文章を読んだり、人間のゲームプレイ動画をみることでゲームの面白さを理解することはもちろんできます。 しかし一方で、多くの失敗を含むプレイをぼんやりと眺めるうちに、発見されるゲームの面白さもあるのかもしれません。

番組内で発表があったように、ニコニコ自作ゲームフェス新人賞2020ではマールタスに遊んでもらうゲームを募集する「マールタス賞」が設けられています。 賞に選ばれた作品をマールタスが実際に学習するという一風変わった賞です。 さらにこのマールタス賞に加えて、よりビデオゲームを楽しめるようになる機能をさらに追加していく予定ですので引き続きマールタスの応援をよろしくお願いします。

著者

2019/09/05

Kazuma Sasaki