2020年夏、「コロナ禍での外出自粛により、ネットで馬券を買う人が増えている」と聞いた。
今まで競馬をやってなかった層も買ってると。
それを聞いてソッコー、JRAのサイトに登録して馬券買ってみた。
今まで、日曜日に競馬BEATが始まると、「あ。今日も日曜日が終わる…。」という気持ちしかわかなかったが、ちゃんと見るようになった。川島の予想が楽しみになった。
2~3回、一番人気を単勝買いしてみたが、以外に当たらない。
結構難しい。
そこで、ちょっと前に「中国人が自作の競馬予測ソフトで95億勝って、脱税18億円」という記事を見たのを思い出す。
作りましょう!!頑張って95億稼ごう!!!
まず、webから情報を集める。
方法は、Pythonのseleniumを使用。
Beautifulsoup4はいまいち使い方に慣れないので、目で見て確認seleniumを使っちゃう。
スクレイピングするサイトはNetkeiba

ここのデータベースで過去5年分のデータを取得
前走情報も付加して分析したいので、競馬場とか指定せずに全馬場で抽出
めちゃくちゃ情報出てくる
期間指定してレース一覧を出してから、更に各レースをクリックして詳細を表示させて、そのテーブルをcsvで保存するような形にした。
Beautifulsoup4だとこの次ページに遷移する方法を上手に組み込めず…。てか、もともとseleniumばっかり使ってたから新しいこと勉強するのが面倒なだけ…。
でも、この方法だとめちゃくちゃ時間かかる。1ヶ月分を取得するのにまる2~3日かかる。
Beautifulsoup4の使い方知ってたらなー、読み込む時間絶対こっちの方が早いんよなー
まぁでもseleniumが頑張ってくれてる。
結局、2020年の夏からやりだしたのに、途中で抽出項目を増やして1からまたやる、みたいなことを繰り返してて、まだデータ取得をしてる。
もう丸一年や…。
2021年、2020年、2019年と遡ってデータを取得してて、今、2017年の半分くらいが終わったところ。
本当は、調教師のコメントをテキストマイニングして、それも分析データに含めたかったけど、データ取得に時間かかりすぎるのと、有料会員にならなくちゃいけないのとで、今回は見送った。
また手応え感じたら有料会員になって、調教師コメントまで取得しようと思う
今月中にはデータ取得とクレンジングを完了させて、色んな方法で分析させたい
乞うご期待!!
コメント