googler を使って index 済ページをざっくり把握する

特定のサイトをググった時に, どのページが index されているのかをざっくり把握したい.
ページ数の多いサイトに対して, 普通にググって「次のページ」をクリックしまくるのは非効率な気がする.

こんなモチベーションで goolger を利用して url を抽出する.
概要は次の通り.

結論

brew で googler を inst. して, コマンドラインでググる.
コマンドラインで検索結果の取得ができれば, あとは sort やら uniq やらで簡単な集計が可能.

今回は jq を利用して url を抽出する.

動作環境

  • curl 7.54.0
  • Homebrew 1.9.2
  • googler 3.7.1
  • jq 1.6

前提知識

ググる時に site:, filetype: などのオプションを指定すると期待に沿った検索がしやすくなる.
この辺については次のサイトが詳しい.

背景

Google に index されているページをざっくり知りたい.

Google Search Console や Custom Search API を使ってもいまいちピンとこない.

ざっくりでいいから, 対象のサイトがググってどの程度出てくるのかを知りたくて googler をコマンドラインで実行した.

googler とは

コマンドラインでググれるツール.
json として結果を出力したり, site:, filetype: 検索にも対応している.

github はこれ↓

:eyes: Google from the terminal. Contribute to jarun/googler development by creating an account on GitHub.

やってみる

次の手順で googler を brew 経由で inst. する.
そして, ひとまず googler を実行してみる.

  1. brew 経由で googler を inst.
  2. 次の条件でググる
    • このブログ
    • url に page という文字列が含まれている

これはググる時に site:, inurl: をそれぞれ指定した結果と一緒.

コマンドラインでここまでできれば, あとは grep するなり jq で捌くなりして必要な情報を抜き取ればいい.

googler 取得結果を json に書き出して jq で url のみ抽出する

実は googler は検索結果を json として出力可能.
出力結果を jq で捌いてみる.

今回はヒットした件数が少ないから有り難みを感じにくいけど,
ヒット件数が多くなった場合に重宝する.

tmp.json の中身はこんな感じ ↓

一度 tmp.json として export した理由は, 何度も google へリクエストを飛ばさないため.
整形作業だけなら, 取得したデータを local で捌いたほうがいいと思う.

jq で url だけ抽出する.

ヒットした件数が期待より少ないな.
まぁざっくりだから一先ず良しとするか.

今回は以上.

スポンサーリンク
336 x 280 – レクタングル(大)
336 x 280 – レクタングル(大)
  • このエントリーをはてなブックマークに追加

この記事が気に入ったら
いいね!しよう

スポンサーリンク
336 x 280 – レクタングル(大)

コメント

  1. >ヒットした件数が期待より少ないな.

    「inurl:page」の対象が「固定ページ」だからでない?

    • たきもと より:

      やまださん

      コメントありがとー

      たとえば url 抽出結果の最後が
      page/2/
      なんだけど, これって
      トップページ > 最下部のページネーション
      のurlなんだよね。

      ここで生まれた疑問はこれ↓
      – なぜ 2 があって, 3以降が index されてないのかなぁ
      – noindex とかしてないはずだけどなぁ

      ↑これが期待より少ない、って感じた理由の一部。

      で, ちょっと index の仕組み調べてみたら,
      index される割合を数字で管理するには, どうやらサイトマップ作成して
      「サイトマップで生成したurlの内どれだけが index されているか」
      をサチコ で確認するってのが正攻法らしい.
      ↑これ, 全ページが index される訳ではない, って解釈できるよね。

      この記事作って思ったんだけど,
      このブログの index率 だったり SEO対策だったりを割となーなーにしてるから,
      少し調査してみないとなぁって。

トップへ戻る