Dwango Media Villageの孝橋です。 昨年DMVでは競馬予測AI「Mamba」を開発し、2回の競馬予測AIプロジェクトを実施しました。
1つ目は2018年3月から6月まで、ニコニコ生放送で「人工知能募金」という公式番組を放送し実際に馬券を購入しました。 ユーザーから動物愛護団体への募金を集め、それと同額をドワンゴが用意して競馬で運用し、その利益も募金するという内容でした。 本運用の3ヶ月間で回収率135%、テスト期間を含めた4ヶ月間でも回収率100%を超える好成績を納めました。 競馬予測AIプロジェクト「人工知能募金 -あなたの募金を増やします-」結果発表 競馬予測AI「Mamba」の本運用期間の回収率は135.13% 寄付総額は倍増の107万4090円
2つ目は2018年10月から12月まで「Mamba 2nd Season」という、ユーザーの買い目をMambaが評価するWebサービスを運用し、Mambaの買い目を投票締切の数分前に公開しました。 プロジェクトの約3ヶ月間での回収率は約131.7%と、再び好成績を収めることができました。 競馬予測AIプロジェクト 第2シーズン 結果発表 第1シーズンを超える成績を達成 AI「Mamba」の平均回収率131.7%、合計収支プラス約730万円
今回は、Mambaがどのように競馬を予測しているか簡単に説明したあと、ニコニコ生放送でも放送された2018年の有馬記念を例に、Mambaが実際にどのような計算を行ったかを公開したいと思います。
競馬は、落馬や故障、不利、馬のやる気や体調の良し悪しなど予測が困難な事象が多く発生します。 また、馬が全力で1km以上走ったあとの、ほんの数cmの差を争うスポーツですから、予測精度の向上には本質的に限界があり、百発百中とはいきません。
Mambaの予測確率1位 | 1番人気 | |
---|---|---|
単勝的中率 | 31.9% | 31.6% |
単勝回収率 | 79.3% | 75.7% |
テストデータセット(中央競馬の2017年7月〜2018年6月の全レース)で、Mambaが各レースの「最も1着になる確率が高い」と予測した馬の単勝馬券を購入し続けたとき、その的中率は約31.9%、回収率は79.3%でした。(表1)
同期間において、1番人気の的中率は約31.6%、回収率は75.7%でした。 したがって、この集計方法では、Mambaは1番人気よりも0.3ポイント的中精度が高いと言えます。 年間のレース数は3500ほどですので、1番人気より年間で約10回多く的中したということですが、圧倒的な差があるとは言い切れません。 回収率も、1番人気を購入し続けた場合よりも3.6ポイント高いものの、概ね単勝馬券の控除を引いた払戻率に収束しています。 多くの人が様々なデータを用い、優れた予想を行った結果形成されるオッズは精度が高く、各馬券の的中確率をおおよそ言い当てていると考えられます。
しかし、競馬AIの目的を「当てること」ではなく「儲けること」と設定した場合、アプローチは異なったものになります。 やみくもに勝利確率の高いものを選ぶのではなく、予測確率とオッズを比較し、期待値が高い馬券を購入することで、的中率は低くとも長期的には収支をプラスにすることが出来ると考えています。 そこで、Mambaは全ての馬券の発現確率を独自手法で推定し、その確率にオッズを掛けて得られる期待値を元に馬券を選んでいます。 各馬券の的中確率の推定手法については今の所非公開とさせていただきます。
単勝 | 期待値1.0以上 | 期待値1.1以上 | 期待値1.2以上 | 期待値1.3以上 | 期待値1.4以上 | 期待値1.5以上 |
---|---|---|---|---|---|---|
全レース数 | 1675 | 1675 | 1675 | 1675 | 1675 | 1675 |
購入レース数 | 1560 | 1348 | 1081 | 867 | 665 | 504 |
購入点数 | 4383 | 3066 | 2090 | 1448 | 1021 | 713 |
的中点数 | 450 | 279 | 159 | 108 | 75 | 40 |
購入金額 | 44,142,500円 | 25,721,600円 | 14,254,300円 | 8,274,200円 | 5,174,700円 | 3,119,900円 |
払戻金額 | 41,764,650円 | 25,558,820円 | 14,608,360円 | 10,008,790円 | 6,924,570円 | 3,601,680円 |
収支 | -2,377,850円 | -162,780円 | +354,060円 | +1,813,700円 | +1,749,870円 | +481,780円 |
回収率 | 94.61% | 99.37% | 102.48% | 121.92% | 133.82% | 115.44% |
表2および図1はMamba 2nd Seasonの為に行った、テストデータセットの芝レース全1675Rの単勝馬券での投資シミュレーションの結果の一部です。 閾値を0.1刻みで設定して、それぞれの閾値以上と評価された馬券を全て購入したらどうなるかを集計しています。
たとえば、表2の期待値が1.0以上の列を見ると、1675Rのうち期待値が1.0以上の馬が少なくとも1頭いたレースは1560Rあり、4383頭の馬が該当しました。 各買い目の購入金額は、5分前のオッズで払戻金額が10万円になるように設定しました。 4386点で合計購入金額はおよそ4414万円なので、1点あたりの購入金額は約1万円です。 つまり、この群では、平均するとオッズが10倍程度の馬を買っていることが分かります。 450回的中しましたが、回収率は100%に及びませんでした。
期待値1.0の馬券を買う時、理論的には回収率が100%になってほしいのですが、多くの場合100%を下回ります。 これには二つの理由が考えられます。 一つ目は、確率推定に誤差があること、二つ目は、購入判断を行ったあとにオッズが更に変動する可能性があることです。
この投資シミュレーションでは、5分前のオッズで購入の判断と購入金額を決め、的中した場合は確定オッズで払戻を受けたと想定して計算しています。 これは、Mamba 2nd Seasonの実際の環境を再現しています。 450回的中させたら合計払戻金額4500万円になってほしいのですが、実際は4176万円に留まっています。 購入してから7.3%ほどオッズが下がっている計算になるので、5分前の時点で期待値がちょうど1の馬券は、確定までの間にオッズが下がり、結果的に期待値が1を下回ってしまうのです。
Mamba 2nd Seasonでは、3連単の馬券の払戻金額を50万円、その他の馬券の払戻金額を10万円に設定していました。 図2は、同プロジェクトでMambaが的中した3連単以外の馬券の払戻金額のヒストグラムです。 平均値は91,840円、中央値は92,460円でしたから、シミュレーション通り8%前後オッズが下がっている計算になります。 更に言えば、複勝とワイドの馬券は下限オッズを使って期待値を計算していますし、購入金額は切り上げていたので(たとえば、オッズが300倍の場合は400円購入する)締切寸前のオッズの低下は更に大きいと言えます。
このように、シミュレーションでは可能な限り本番と同じ環境を再現し、オッズが多少下がっても十分に利益を生むような購入ルールを模索する必要があります。
2018年12月23日に行われた有馬記念で、 Mambaが購入した馬券 は15-12-13の三連単一点を100円だけでした。 何故こうなったかというと、これ以外の全ての馬券は定めた購入条件を満たさなかったという他ないのですが、ここで敢えて、何も買わなかった単勝馬券の予測確率を見てみましょう。
馬名 | 予測勝率(順番) | オッズ(人気) | 予測期待値 | 着順 | |
---|---|---|---|---|---|
1 | オジュウチョウサン | 2.76% (11) | 8.9 (3) | 0.2458 | 9 |
2 | クリンチャー | 3.54% (9) | 31.6 (11) | 1.1176 | 15 |
3 | モズカッチャン | 8.96% (3) | 9 (4) | 0.8060 | 8 |
4 | マカヒキ | 2.30% (12) | 42.3 (12) | 0.9727 | 10 |
5 | パフォーマプロミス | 5.09% (6) | 21.2 (7) | 1.0798 | 14 |
6 | サトノダイヤモンド | 4.26% (7) | 17.8 (6) | 0.7586 | 6 |
7 | サウンズオブアース | 0.00% (16) | 137.1 (14) | 0.0028 | 16 |
8 | ブラストワンピース | 8.72% (4) | 9.8 (5) | 0.8542 | 1 |
9 | リッジマン | 0.01% (14) | 111.6 (13) | 0.0053 | 12 |
10 | ミッキースワロー | 3.33% (10) | 28.7 (10) | 0.9551 | 11 |
11 | ミッキーロケット | 4.09% (8) | 22.2 (8) | 0.9074 | 4 |
12 | レイデオロ | 40.61% (1) | 2.2 (1) | 0.8934 | 2 |
13 | スマートレイアー | 0.00% (15) | 187.8 (16) | 0.0183 | 13 |
14 | キセキ | 10.91% (2) | 5.9 (2) | 0.6439 | 5 |
15 | シュヴァルグラン | 5.38% (5) | 24 (9) | 1.2918 | 3 |
16 | サクラアンプルール | 0.04% (13) | 141 (15) | 0.0523 | 7 |
Mambaが最も勝率が高いと予測したのは12番のレイデオロで、その確率は40.61%でした。 オッズは2.2倍ですから、期待値は約0.89ということになります。
次に勝率が高いと予測したのは2番人気14番キセキでしたが、その確率は10.91%、約9回に1回勝利すると予測していることになります。 Mambaが参照した同馬の5分前のオッズは5.9倍でしたから、これでは割に合わないという判断に至りました。
特筆すべき点は1番オジュウチョウサンで、オッズは3番人気に対してMambaは11番手評価とやや厳し目の評価を与えました。 障害転向や平地転向の予想が得意だという方も少ないと思いますが、過去のデータが少なくMambaも得意ではありません。 それでも、過去に平地転向した馬の成績などを参考に、このメンバーだと勝利はやや難しいと判断したのだろうと推測します。
また、15番シュヴァルグランに、9番人気に対して5番手の評価を与えました。 昨年の有馬記念でも3着、他にも多くの重賞レースで安定した好走実績がありますから、9番人気は「美味しい」という判断だったのでしょう。 単勝期待値も16頭の中で1番でした。 しかし、有馬記念のレース条件では、単勝馬券の購入閾値は期待値が1.4以上としていたため、購入に至るほどではありませんでした。 つまり、シュヴァルグランの場合、オッズが26.1倍以上であれば期待値が1.4以上となり購入したところ、2.1倍足りないという判断に至りました。
以上がMambaの簡単な説明となります。 確率を計算して期待値が高いものを買うという方法は一般的で、特に目新しさはありません。 Mambaは機械学習技術を用いて、既存の予想手法よりも正確に各馬券の確率を求められるようになりました。
特に人工知能募金から番組をよくご覧になって頂いた方はよくご存知だと思いますが、MambaはG1レースを筆頭にメインレースの購入を控える傾向があります。 大きなレースでは、多くの人が長い時間をかけて渾身の予想をするわけですから、今のMambaの予測精度ではそのような大きなレースには付け入る隙がないのだろうというのが私の考察です。 今後更に馬券購入者の予測精度が上がると、全ての馬券に確率通りのオッズがつくことになり、Mambaの「見」はもっと増えるかもしれません。