【書評】データを集める技術

佐々木拓郎氏によるスクレイピングの入門書。
「最速で作るスクレイピング&クローラー」という副題がついている。

(アマゾン)データを集める技術

投資家の皆さんの中には、いつも決まったウェブページで決まったデータに目を通している人がいないだろうか。
毎日何回も同じページをサーフィンしていないだろうか。
そういう作業を効率化・自動化できないかと考えている人はいないだろうか。
その1つの解決策がスクレイピングであり、そのクローリングだ。
スクレイピング(またはウェブ・スクレイピング)とは、ウェブサイトから指定の情報を抽出するプログラミング方法のこと。
スクレイピングを用いることで、複数のウェブページの情報を一か所で表示・保存することもできる。

この本があればできることは例えばこんなことだ。

  • Excelの2つの関数を用いて、RSSや(短めの)ウェブページ等から指定した部分を抜き出し表示する。
  • Googleスプレッドシート
    • 組み込み関数で時系列の米株価データを呼び出す。
    • 組み込み関数により指定したウェブページから指定した部分を抜き出す。
    • スクリプトとトリガーでデータ収集を自動化する。

特にGoogleスプレッドシートによる自動化については、ローカルPCでなくクラウドで処理が行われる。
自分のPCを立ち上げてなくても、Googleがきちんと収集を続けてくれるのだ。

スクリプトやプログラムまで書くとなるとハードルが高いと感じられるかもしれない。
しかし、ExcelやGoogleスプレッドシートに備わった関数だけでもやれることは少なくない。
その部分だけ、ほんの数十ページ目を通すだけでも思わぬ効率化のヒントが得られるかもしれない。