ゆまの画像スクレイピングはGoogle Cloud Visionが最適だった

「ゆま」のスクレイピングの難所は2021年以降記事が写真になってる点です。ゆまのデータを収集するにはこの画像をテキスト化する処理が必要で、この際の精度が低いと適切なデータを集めることが難しくなります。

pythonで画像からのテキスト抽出方法を調べると真っ先に無料サービスのOCRが出てくると思うんですが、実際に試してみるとあまり精度がよろしくなく実用性が低かったです。で、他に方法ないかなーって調べてたらGoogleが公式に出してるGoogle Cloud Visionっていう画像検出が精度が高く適してることが分かりました。

cloud.google.com

なんか最近スマホの機能で撮った写真からテキスト読み込むみたいなのあるじゃないですか。あれをライブラリとしてコード内で使える的なやつです。あとこれのすごいところは写真がローカルにある必要がなくてゆまのサイトから直接テキスト抽出が出来るんですよね。

一応有料ではあるんですが初回三か月間無料キャンペーンを今はやってるんで、ゆまの画像スクレイピングやるなら現状はこれが最適解かなあと思います。もっといい方法知ってる方は教えてください。