読者です 読者をやめる 読者になる 読者になる

uoz 作業日記

様々な作業の記録を共有するブログです。

Airbnbをスクレイピングして相場とか出すサービスをつくろうとしたけど諦めて公開する話

f:id:uoz:20160207224447j:plain

エアビーデータバンク

最近、Airbnb関連のことを始めようと思ってて面白いサイトを教えてもらった。

AirbDatabank(エアビーデータバンク)


どんなサイトかというと、日本のAribnbの宿泊率や客単価を東京の区とか、エリアごとに時系列で見られるというもの。

Airbnbやろうとしている人にとっては、どのあたりに物件を借りるかとか、宿泊料金をどう設定しようかとか、いろいろと使えそうなサイト。

パクろう!

なかなか需要がありそうなサイトだけど、私が初めて見た時はまだ東京24区しかデータがなかったし、いろいろ改善の余地ありと思ったので、パクリサイト(ある種のクローラー)をつくろうと実装を始めた。

Rubyベースで、ヘッドレスブラウザPhantomJS(poltergeist)を利用している。

GitHub - teampoltergeist/poltergeist: A PhantomJS driver for Capybara

あれ?

これでビューを集めていろいろしようと思ってたのだが、なんと今日本家のエアビーデータバンクの作者が知り合いだったことが判明した。

そこと戦うのもなんだし、本家もしらんうちに日本全国に対応していたりして、やる気が失われたので、作りかけを公開します。


ソースコードはこちら。

github.com

できること


例えばローカルで普通に動かすと、

http://localhost:3000/home/rooms

にアクセスすると、コード内で指定した地域について、物件の下記データを取得する。

  1. 名前
  2. URL
  3. airbnb内のid
  4. まるまる貸切?
  5. 宿泊人数
  6. ベッドルーム数
  7. ベッド数
  8. エリア名
  9. 住所

本当はこの後、上記部屋データを元に、稼働率、宿泊料金に加え、データを分析して、例えば

  1. 駅から何分ならいくら位でいけるのか
  2. 駅ごと、路線ごとの料金相場
  3. 地価、ホテルの稼働率や料金との比較

なんかを提供できたら良いなと思っていた。

使うためには

phantomjsをダウンロードして実行ファイルにパスを通す。
PhantomJS | PhantomJS


あとはこっからコードをダウンロードして動かすだけ。
GitHub - uozias/air-b-scraping-tool: scraping tool fof the famouts homestay service


これでわからない初心者の人がいたらコメントで聞いてもらえればこたえるかも。

最後に

これからこちらが進化していくと思うので、AirbDatabank(エアビーデータバンク)の方をどうぞよろしく。

AirbDatabank(エアビーデータバンク)