【SEOで使える?】「正規表現ってなに?」レベルの僕がコピペでデータポータルいじってみた

SEO・WEB
スポンサーリンク

こんにちは、B-K-Cです。
今回はラノベっぽいタイトルにしてみました。
特に理由はないです。ラノベは一冊も読んだことないです。

タイトル通りなんですけど、久しぶりにデータポータルの記事になります。
データポータルはここ数か月ぐらいで触り始めましたが、まだサーチコンソールやアナリティクスなどをデータ連携させて、デフォルトの項目のみでレポート成型するぐらいしかできませんでした。

前回のデータポータルの記事

 

ただ、データポータルはいろんなデータを組み合わせたり、好きなデータを抽出したりできるツールなのでその辺りも改造出来るようにはしたいなというのも考えてたんですけど、ちょうど先日高野さんがこんな記事を上げてました。

控えめに言ってめちゃめちゃ良い記事

 

この記事に書いてるサーチコンソールのデータの集計、こういうのそのまま俺もやりたすぎるやつ。
ていうことでカスタマイズの修行として、この記事に書いてるやつをコピー&ペーストあらため、コピペして正規表現を使ったデータポータルのカスタマイズやってみました。

*今回の記事は先ほど紹介した高野さんのブログを踏襲するので、高野さんのブログがばっちし理解出来てるという人は特に参考になりません。

 

初めての正規表現の設定と活用レポートに挑戦

【正規表現とは】

正規表現(せいきひょうげん、英: regular expression)とは、文字列の集合を一つの文字列で表現する方法の一つである。

引用元:https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%8F%BE


Wikipedia先生はこう言ってるんだけど、なんかよく分からんっちゃ分からん。
というか、高校の時に見たΣの時点で数学を完全に放棄した俺には関数やら数式やらが完全に意味不明。

とりあえず個人的な理解としては、集計したいデータを好きな条件で設定して名前を付けること、という感じで認識してます。

例えば、円、ドル、ユーロのそれぞれの硬貨と紙幣が金額はそれぞればらばらであったとする。
この場合、正規表現を使って、データを簡単に集計しやすくするとしたら、

1.硬貨と紙幣で分ける場合のイメージ
日本円の各硬貨+米ドルの各硬貨+ユーロの各硬貨=”硬貨”
日本円の各紙幣+米ドルの各紙幣+ユーロの各紙幣=”紙幣”

硬貨はすべての種類問わず硬貨という名前でまとめて、紙幣も同様に種類問わず紙幣でまとめるという感じ。

2.日本円と米ドルとユーロで分ける場合のイメージ
日本円の各硬貨+各紙幣=”日本円”
米ドルの各硬貨+各紙幣=”米ドル”
ユーロの各硬貨+各紙幣=”ユーロ”

先ほどとは違って、各貨幣の種類ごとにまとめるという感じ。

正規表現っていうのは簡単に言うと、こういう感じで色んなデータがある中で、自分が好きな条件で設定して、それに名前をつけて抽出する事っていう感じ、改めていうと。
間違ってたらごめんなさい。

グルメブログのクエリをジャンルとエリア名で正規表現

そして今回も私のグルメブログを実験台として試したいと思います。
グルメブログなので基本的に検索クエリの傾向としては、
“エリア名”
“ジャンル名”
“店名”
という感じになってます。

検索クエリリスト
実際の検索クエリの一部


検索クエリから初めて正規表現を使って抽出したテストグラフ。

なんか出来たっぽいという感想
初めて作ってみた正規表現の記述Queryを元に抽出条件を設定


正規表現とは~の話の中で、硬貨と紙幣を振り分ける話をしましたが、上記が実際に作ってみた正規表現。
カレーとかラーメンとかの誤字表現とかも含めて、該当クエリが含まれる物を”カレー”や”ラーメン”という名前でグルーピング。

そしてこのグラフをちょっとどんなもんかとTwitterにアップした所、コピペ元、もとい記事元の高野さんからこんなコメントが。

なんやて!?


そうなんです、てっきり重複有りで該当のクエリが含まれてれば集計されるとなぜか思ってしまっていて、このツイートのコメントで「なるほど」となり、ちょっと調整いれてみると。

料理のジャンルのみで振り分け、数字が変化しました。


という感じで、ジャンル名とエリア名のクエリで分けて設定してみてそれをデータで表示させると最終的にこうなったわけですね。

ジャンル名のクエリを抽出
エリア名のクエリを抽出
検索クエリの正規表現活用レポート
好きな形でグラフ化して成型


という感じでグルーピングするものをちゃんと分けることで、上記のような完成形になったわけですが、実際にやってみるとちゃんと理解できたらこれは便利やなという感想。
まあ、基本的な記述式全部コピペだから出来たんですけど><

URL(コンテンツページ)を店名として正規表現でグルーピング

さて、お次はURLを正規表現を活用してグルーピングします。

またまた高野さんのブログをこれまた完全コピーしてやっていきますが、まずはスプレッドシートのアドオンである「Search Analytics for Sheets」を設定します。

テンプレートのデータポータルではURL毎の平均順位などは抽出出来ないのですが、 このアドオンを活用することで、 それが可能になります。(ざっくりいうと)

アドオンを使ってデータを抽出


簡単にだけ説明すると、左側の青枠内が実際に出力されたデータで、右側がアドオンのツールバー。

赤枠①・・・データを抽出したい日付を選択
赤枠②・・・抽出したいデータを選択(今回は日付、URL、クエリ、デバイスの情報を抽出)
赤枠③・・・予め抽出するデータをフィルタリングして抽出が可能、URLでフィルタ&記事ディレクトリ「/entry/」を含むものを抽出設定(contains)

で、アドオンで抽出したスプレッドシートを同じレポートに連携させ、正規表現を記述。

最初と違って今回は
“Page”(URL)を元にデータを抽出


そうしてデータを抽出してこれも好きな形に成型するとこんな感じ。

URLを店名にしてデータを成型


私のグルメブログの記事ですが、同じお店の記事を複数回書くこともあり、その時のURLの設定が
1回目・・・”/yamanacurry/”
2回目・・・”/yamanacurry2/”
3回目・・・”/yamanacurry3/”
4回目・・・”/yamanacurry4/”
という感じのURL設定にしてるので、正規表現の記述では1回目のURLを引っ張ってくれば他のURLも紐付けられるという仕様。

めんどくさいけど、店ごとのURLを全部正規表現にしておいて、新しいお店の記事の際も逐一追加しておけば、全記事での人気コンテンツのランキングとかも作れます。

流石にそれは辛いので、今クリック数の多いTOP25位を設定してあるって感じです。

順位帯ごとのデータ推移を作成し、完成

最後に作成したのは、順位帯ごとにURLを振り分けるようなグラフを作成してみました。

データ元は先程と同じく「Search Analytics for Sheets」のデータを利用します。
ただし、今度は記述式が若干変わります。

“Position”(順位)を正規表現化


順位帯別に正規表現でグルーピング化して、こういう感じのグラフを作成してみました。

順位帯別の動きが見やすい


高野さんのブログでも書いてましたが、表示回数が多くなって平均順位が低くなる場合っていうのは割とあるあるの話です。

そこで、各順位帯の表示回数やクリック数の推移を追っておくことで、見せかけの平均順位の上昇・下降に惑わされにくくなります。

こういうのがあると、順位帯のどこに問題があるのか、イケイケになっていってるのか把握しやすくなります。
これは結構使えるやつかなと思います。

こういう感じで、今回初めて正規表現の記述を行って色々データの抽出を行ってみましたけど、たしかに色々カスタマイズ出来るようになるとこれは便利だなと実感しまくりです。

全然記述の細かい所は理解しきってませんけど、分かってる人の記述式をコピペするだけでもこういう風にレポートが作成出来るっていう事が伝わって、同じように苦手意識持ってる人の役に立てば良いなと思います。

正規表現で作ったレポート全体

という感じで、今回は締めたいと思います。
ありがとうございました!!

コメント

タイトルとURLをコピーしました