競馬予想ソフト作りたい①

予想ソフト作成

2020年夏、「コロナ禍での外出自粛により、ネットで馬券を買う人が増えている」と聞いた。

今まで競馬をやってなかった層も買ってると。

それを聞いてソッコー、JRAのサイトに登録して馬券買ってみた。

今まで、日曜日に競馬BEATが始まると、「あ。今日も日曜日が終わる…。」という気持ちしかわかなかったが、ちゃんと見るようになった。川島の予想が楽しみになった。

2~3回、一番人気を単勝買いしてみたが、以外に当たらない。
結構難しい。

そこで、ちょっと前に「中国人が自作の競馬予測ソフトで95億勝って、脱税18億円」という記事を見たのを思い出す。

作りましょう!!頑張って95億稼ごう!!!

まず、webから情報を集める。
方法は、Pythonのseleniumを使用。
Beautifulsoup4はいまいち使い方に慣れないので、目で見て確認seleniumを使っちゃう。

スクレイピングするサイトはNetkeiba

netkeiba ネットケイバ - 日本最大の競馬情報サービス
netkeibaは日本最大の競馬情報サービスです。JRA全レースの出馬表やオッズ・予想、ニュース、コラム、競走馬50万頭以上収録の競馬データベース、地方競馬、POG、予想大会、コミュニティなどがご利用いただけます。

ここのデータベースで過去5年分のデータを取得
前走情報も付加して分析したいので、競馬場とか指定せずに全馬場で抽出
めちゃくちゃ情報出てくる
期間指定してレース一覧を出してから、更に各レースをクリックして詳細を表示させて、そのテーブルをcsvで保存するような形にした。
Beautifulsoup4だとこの次ページに遷移する方法を上手に組み込めず…。てか、もともとseleniumばっかり使ってたから新しいこと勉強するのが面倒なだけ…。

でも、この方法だとめちゃくちゃ時間かかる。1ヶ月分を取得するのにまる2~3日かかる。

Beautifulsoup4の使い方知ってたらなー、読み込む時間絶対こっちの方が早いんよなー

まぁでもseleniumが頑張ってくれてる。
結局、2020年の夏からやりだしたのに、途中で抽出項目を増やして1からまたやる、みたいなことを繰り返してて、まだデータ取得をしてる。
もう丸一年や…。

2021年、2020年、2019年と遡ってデータを取得してて、今、2017年の半分くらいが終わったところ。

本当は、調教師のコメントをテキストマイニングして、それも分析データに含めたかったけど、データ取得に時間かかりすぎるのと、有料会員にならなくちゃいけないのとで、今回は見送った。
また手応え感じたら有料会員になって、調教師コメントまで取得しようと思う

今月中にはデータ取得とクレンジングを完了させて、色んな方法で分析させたい
乞うご期待!!

コメント