Googleアナリティクスの設定でリファラースパム対策

Googleアナリティクスの設定でリファラースパム対策

GoogleアナリティクスはGoogleが提供しているWebサイトのアクセスを解析することができるツールです。どのようなユーザーが何を目的にサイトを訪れているのか、管理サイトの特徴や現状の問題点などを洗い出し分析することが可能です。

Googleアナリティクスでは、どこのページからアクセスしたかが分かるデータを提供しています。サイト管理者がそのページを確認する行為を逆手にとって、悪質なサイトへ誘導するリファラースパムという手法が横行しています。このような不要なアクセスデータも含まれると、正常なアクセス解析を行うことができません。

そこで今回は、正しいアクセス解析ができるようこのリファラースパムをブロックする方法について解説していきます。

目次

リファラーとは

リファラー」とは、どのサイトから訪れてきたのかがわかる「リンク元の情報」のことを指します。

たとえば、aaa.com/bbb.htmlというページに自サイトのリンク(被リンク)が貼られていた場合、ユーザーがそのリンクをクリックして自サイトに訪れるとリファラーとしてaaa.comのドメインが記録されます

Googleアナリティクスは、このリファラーを収集しどこのサイトからアクセスがあったのかをデータとして提供しています。

リファラースパムとは

リファラースパム」とは、サイトの管理者をターゲットにした悪質なスパム行為です。Googleアナリティクスなどアクセス解析ツールのほとんどがリファラーを確認できるようになっています。

たとえばfacebookから訪れた場合は「facebook.com」、はてなブックマークから訪れた場合は「b.hatena.ne.jp」とドメインがリファラーとして表示されます。

サイト管理者はリファラーを確認して、どのようなサイトにリンクされているかを確認することがありますが、この行為を逆手にとって悪質なサイトへ誘導させようとします。

さらに、リファラースパムが含まれるアクセスデータは正しいサイトのアクセス分析ができませんので、必ずブロックするようにしましょう。

リファラースパムの目的

このようなことをする目的は、サイト管理者をスパムサイトへ誘導するためのものですが、その理由としては以下のようなことが考えられます。

特にウイルスやマルウェアに感染する恐れがありますので、むやみにクリックしないようにしましょう。

リファラースパムの確認方法

リファラースパムの確認方法については、いろいろな方法がありますが、僕は以下の手順で確認しています。順序立ててリファラースパムの疑いがあるものは除外していきましょう。

1.Googleアナリティクスで言語が「not set」のものをチェック

アクセスしてきたユーザーの言語環境が何も設定されていない「not set」の場合は、リファラースパムの可能性が高いのでブロック対象とします。

①Googleアナリティクスにログイン

Googleアナリティクスにログインするには「Googleアカウント」が必要です。Googleアカウントを取得していない場合は、下記を参照して取得してください。

Googleアカウントの作成方法

Googleアカウントを取得している場合は、「Googleアナリティクス」をクリックするとGoogleアナリティクスのログインページへアクセスします。

ウェブマスターツールログイン画面

ログイン画面が表示されたらGoogleアカウントで登録したメールアドレスとパスワードを入力し、「ログイン」をクリックするとログインできます。

②レポートをクリック
Googleアナリティクスのレポート

ログインできたら、確認するドメインを選択し、上部の「レポート」をクリックします。

③「ユーザー」>「地域」>「言語」をクリック
Googleアナリティクスの言語

次に、左メニューの「ユーザー」>「地域」>「言語」をクリックします。

④「not set」をクリック
言語の中のnot set

すると、地域言語別のアクセス状況が表示されます。こちらでは、アクセスしてきたユーザーの言語環境を把握することができます。この中の「not set」をクリックします。

ちなみに「ja」「ja-jp」は日本語、「en」は英語、「en-us」はアメリカ英語、「ru」はロシアになりますが、「not set」は言語が何も設定されていないことを示します。

これは一般ユーザーの通常なアクセスではなくリファラースパムの特徴でもあるので、こちらのアクセスはすべてリファラースパムと判断します。

尚、日本語でも「ja」と「ja-jp」の2項目ありますが、こちらはIEの環境によるもので、IE9までは「ja」IE10以降は「ja-jp」になります。どちらも日本語言語になるので、特に気にする必要はありません。

⑤セカンダリディメンションに「参照元」を指定
セカンダリディメンションに「参照元」を指定

実際にどのようなドメインがリファラースパムかを確認するために、セカンダリディメンションに「参照元」を指定します。

ディメンション」は、データ解析の対象を指しており、今回は「言語」がディメンションになります。「セカンダリディメンション」は、最初のディメンションに対して更に細かくデータを表示したい場合の第二の対象となります。

セカンダリディメンションに「参照元」を指定することで、「not set」の中の参照元別に更にデータ解析することができます

⑥参照元のドメインをコピー
参照元のリファラースパム一覧

こちらは「not set」の参照元ドメインになります。これはすべてがリファラースパムの可能性が高いので、これらのドメインをコピーしておきます。ブロック方法については、後ほど解説します。

2.Googleアナリティクスで「参照サイト」のドメインをチェック

こちらでは、実際にリファラーを確認し、セッション・新規ユーザー・直帰率などからリファラースパムと判断した怪しいドメインをブロック対象とします。

①「集客」>「すべてのトラフィック」>「参照サイト」をクリック
Googleアナリティクスの参照サイト

次に、左メニューの「集客」>「すべてのトラフィック」>「参照サイト」をクリックします。

②セッションと新規ユーザーをチェック
セッションと新規ユーザー

「参照サイト」をクリックすると参照元であるリファラー情報を確認することができます。この中でまず、セッションと新規ユーザーが同じ数値であるものをチェックします。

新規ユーザーとセッションが同じ数値ということは、リピーターが1人もいないことを示します。どこかのサイトで記事を取り上げられたとか、セッション数がそもそも少ない場合はあり得るのですが、3桁以上ですべて新規ユーザーというのはこれまでの分析からまずあり得ません。

今回の例でいえば、「floating-share-buttons.com」が424セッション・424新規ユーザーですので、リファラースパム確定です。こちらは有名なリファラースパムでもあります。ほかにも赤枠の部分もリファラースパムになります。怪しいと思ったものはコピーしておきましょう。

③直帰率をチェック
直帰率のチェック

次に、直帰率の項目をクリックして、昇順に並べます。この中の直帰率0.00%をチェックしていきます。「直帰率0.00%」は、ランディンページから他のページへ必ずアクセスしたことを示します。

「直帰率0.00%」というのは、本来他ページへの誘導がうまくいっており喜ばしいことですが、セッション数が多ければ多いほど0.00%というのはあり得ません。こちらもリファラースパムの可能性が高いのでコピーしておきます。

ここまで、チェック項目を決めてリファラースパムを見つけていきましたが、理想としてはすべての参照元をチェックし、リファラースパムをブロックすることが望ましいです。

ただ、アクセス数が多いサイトでは、何百・何千ものリファラーがある場合もあります。すべてをチェックできない場合は、ポイントを絞ってチェックしましょう。

3.検索エンジンでリファラースパムを検索

リファラースパムの洗い出しができたら、次は実際にリファラースパムかどうかの確認をしていきます。一番手っ取り早いのは、リファラースパムのドメインを検索することです。有名なものから新しいものまで、検索するとほとんどが他のサイトでスパムかどうかまとめられています

自分で詳しくチェックするよりかは他のユーザーがチェックした内容を確認し、リファラースパムを判断する方が効率がよいでしょう。

①検索エンジンで「リファラースパムのドメイン スパム」で検索
「リファラースパムのドメイン スパム」で検索

洗い出したリファラースパムURLをそれぞれ「リファラースパムのドメイン スパム」で検索していきます。

②検索結果のサイトを確認
Google検索結果

検索結果の上位5つぐらいのサイトを確認して、検索したリファラースパムのドメインがリファラースパムかどうか判断します。

ほとんどのリファラースパムのドメインは他のユーザーによってがまとめられていますので、この時点で大体のドメインをチェックできます。

4.「aguse.」を利用して悪質サイトかチェック

検索エンジンで、リファラースパムか判断できなかったものは「aguse.」を利用して判断します。「aguse.」は、訪問前にリンクの安全性をチェックできるサイトチェッカーのwebサービスになります。こちらを利用してリファラースパムかを判断します。

①aguse.サイトへアクセス
aguse.サイトのトップページ

以下のURLをクリックしてaguse.サイトへアクセスします。

aguse.公式サイト
②リファラースパムのドメインを入力し、「調べる」をクリック
リファラースパムのドメインを入力

検索のテキストボックスにリファラースパムのドメインを入力し、「調べる」をクリックします。

③サイトの分析結果をチェック
サイトの分析結果をチェック

「調べる」をクリックすると、サイトの分析結果が表示されます。まず、リダイレクトされているページかを確認します。リダイレクトされているページの場合は、上記のように「外部にリダイレクトされています。」と表示されます。

やむ得ない場合のリダイレクトということもありますが、リダイレクトするページはほぼリファラースパムですので、こちらで表示されたドメインはブロック対象としましょう。

抽出されたマルウェア一覧

一通りこちらのサイトの内容をチェックすることが前提ですが、他に注意する項目としては、「抽出されたマルウェア」と「ブラックリスト判定結果」になります。

こちらに疑いがある場合も、リファラースパムとしてブロック対象としましょう。

5.「aguse.GATEWAY」を利用して悪質サイトか目視でチェック

「aguse.」でもリファラースパムかどうか判断できない場合は、直接アクセスして確認する必要があります。ただし、直接アクセスすることは危険ですので、「aguse.GATEWAY」を利用してアクセスしていきます。

「aguse.GATEWAY」は、aguseが変わりにサイトへアクセスし、ウェブページのスクリーンショットを表示させてくれるwebサービスになります。こちらを利用することで、危険なサイトでも100%安心して閲覧することができます。

①aguse.GATEWAYサイトへアクセス
aguse.GATEWAYサイトのトップページ

以下のURLをクリックしてaguse.GATEWAYサイトへアクセスします。

aguse.GATEWAY公式サイト
②リファラースパムのドメインを入力し、「GO」をクリック
リファラースパムのドメインを入力

検索のテキストボックスにリファラースパムのドメインを入力し、「GO」をクリックします。

③サイトの分析結果をチェック
サイトの分析結果をチェック

リファラースパムのページが表示されるので、内容を確認してリファラースパムかどうかを判断しましょう。今回の例では、海外のネットショップへ繋がりました。こちらはリダイレクトも利用していますので、リファラースパムと判断します。

ここまでで、どのドメインがリファラースパムかが判断できたかと思います。それでは、ここまで確認したブロック対象のリファラースパムをブロックしていきます。

その前に、今回このサイトで見つかったリファラースパムを確認してみます。

リファラースパム一覧

こちらでは、このサイトで見つかったリファラースパム一覧を掲載しています。下記はすべてリファラースパムですので、ブロックしましょう。

Googleアナリティクスでリファラースパムをブロックする方法

ここから、Googleアナリティクスの設定でリファラースパムをブロックしていきますが、以下の2つの方法があります。

1.Googleアナリティクスのビュー設定

Googleアナリティクスの「ビュー設定」には「ボットのフィルタリング」という項目があります。こちらをチェックすると、既知のボットやスパイダーからのヒットをすべて除外することができます。

ロボットを除外することで、より人間によるアクセスだけ計測データとして収集することができます。

①「アナリティクス設定」をチェック
アナリティクス設定をクリック

Googleアナリティクスの上部の「アナリティクス設定」をクリックします。

②設定するアカウントを指定してから「ビュー設定」をクリック
ビュー設定をクリック

設定するアカウント>プロパティ>ビューを指定してから「ビュー設定」をクリックします。

③「ボットのフィルタリング」にチェックし、「保存」をクリック
「ボットのフィルタリング」にチェック

ビュー設定画面が表示されたら、ボットのフィルタリング項目の「既知のボットやスパイダーからのヒットをすべて除外する」にチェックを付け、「保存」をクリックします。

既知のロボットやスパイダーがどのようなものであるかについては明確には記述されていませんが、Google+公式アカウントのアナウンスでは、IABのスパイダー/ボットリストに基づくということらしいです。

2.Googleアナリティクスのフィルタ設定

Googleアナリティクスの「フィルタ」では、特定のアクセスを除外や取得することができます。今回はこの機能を利用してリファラースパムのドメインを除外していきます。

①設定するアカウントを指定してから「フィルタ」をクリック
「フィルタ」をクリック

設定するアカウント>プロパティ>ビューを指定してから「フィルタ」をクリックします。

②「新しいフィルタ」をクリック
「新しいフィルタ」をクリック

フィルタ一覧が表示されたら、「新しいフィルタ」をクリックします。

③フィルタの設定項目を入力・選択し、「保存」をクリック
フィルタの設定項目を入力・選択

以下のようにフィルタの設定項目を入力・選択し、「保存」をクリックします。

フィルタ名

こちらは、どのようなフィルタなのか人目でわかるなフィルタ名にしてください。僕の場合は「|(パイプ)」で区切って設定内容を記述しています。

リファラースパム|言語設定|not set → リファラースパムの設定で言語設定「not set」を除外対象としている。

フィルタの種類

フィルタの種類は「カスタム」で除外を選択してください。

フィルタフィールド

フィルタフィールドは「言語設定」を選択してください。

フィルタパターン

こちらはどのようなパターンを除外するかの設定です。先ほど解説しましたが、言語設定「not set」のアクセスはリファラースパムですので、「not set」を入力します。

⑤フィルタに追加されたか確認
フィルター一覧

「保存」をクリックすると、フィルター一覧に追加されます。これにより、言語設定で「not set」のアクセスはすべて除外する処理が完成しました。ただし、こちらの処理でも除外できないリファラースパムが存在します。そちらについては情報確認次第、随時更新していきます。

続いては、特定のリファラースパムのドメインを除外する方法について解説していきます。


⑥「新しいフィルタ」をクリック
「新しいフィルタ」をクリック

「新しいフィルタ」をクリックします。

④フィルタの設定項目を入力・選択し、「保存」をクリック
フィルタの設定項目を入力・選択

以下のようにフィルタの設定項目を入力・選択し、「保存」をクリックします。

フィルタ名

こちらは、どのようなフィルタなのか人目でわかるフィルタ名にしてください。今回は以下のように設定しています。

リファラースパム|参照 → リファラースパムの設定で参照元で設定したドメインを除外対象としている。

フィルタの種類

フィルタの種類は「カスタム」で除外を選択してください。

フィルタフィールド

フィルタフィールドは「参照」を選択してください。

フィルタパターン

こちらに除外するリファラースパムのドメインを入力します。注意点としては、フィルタパターンを入力するには正規表現でなければいけません。「.(ドット)」はワイルドカードで利用されますので、文字列として記述する場合は「\(バックスラッシュ)」を利用します。

floating-share-buttons.com → floating-share-buttons\.com

参考サイト:Googleの正規表現の概要

⑤フィルタに追加されたか確認
フィルタ一覧

「保存」をクリックすると、フィルター一覧に追加されます。これにより、「floating-share-buttons.com」のアクセスをすべて除外する処理が完成しました。こちらもリファラースパムによっては、こちらの処理でも除外できない場合がありますので、第随時更新していきます。

こちらの例では、1つのドメインを登録しましたが、リファラースパムは複数あります。「フィルタパターン」には、複数のドメインを設定することもできます。

ただし、フィルタパターンの文字数は255文字以下となりますので、その場合は複数のフィルタで対応していく必要があります。以下は、僕が設定しているフィルタの内容と手順になります。


正規表現対象ドメイン
free-social-buttons\.comfree-social-buttons.com
www[0-9]\.free-social-buttons\.comwww1.free-social-buttons.com
www3.free-social-buttons.com
www4.free-social-buttons.com
www5.free-social-buttons.com
floating-share-buttons\.comfloating-share-buttons.com
site[0-9]\.floating-share-buttons\.comsite3.floating-share-buttons.com
site1.floating-share-buttons.com
www\.event-tracking\.comwww.event-tracking.com
www\.Get-Free-Traffic-Now\.comwww.Get-Free-Traffic-Now.com
forum\.topic64481594\.darodar\.comforum.topic64481594.darodar.com
e-buyeasy\.come-buyeasy.com
satellite\.maps\.ilovevitaly\.comsatellite.maps.ilovevitaly.com
chinese-amezon\.comchinese-amezon.com
www2\.inbox\.comwww2.inbox.com
sexyali\.comsexyali.com
正規表現対象ドメイン
erot\.coerot.co

まずは、正規表現でまとめれるものはまとめていき、トップレベルドメイン単位で分けます。

正規表現対象ドメイン
(free-social-buttons|www[0-9]\.free-social-buttons|floating-share-buttons|site[0-9]\.floating-share-buttons|www\.event-tracking|www\.Get-Free-Traffic-Now|forum\.topic64481594\.darodar|e-buyeasy|satellite\.maps\.ilovevitaly|chinese-amezon|www2\.inbox)\.comfree-social-buttons.com
www1.free-social-buttons.com
www3.free-social-buttons.com
www4.free-social-buttons.com
www5.free-social-buttons.com
floating-share-buttons.com
site3.floating-share-buttons.com
site1.floating-share-buttons.com
www.event-tracking.com
www.Get-Free-Traffic-Now.com
forum.topic64481594.darodar.com
e-buyeasy.com
satellite.maps.ilovevitaly.com
chinese-amezon.com
www2.inbox.com
正規表現対象ドメイン
erot\.coerot.co

更に、正規表現でまとめていきます。こちらでは「|(パイプ)」と「()かっこ」を利用しています。「|(パイプ)」は論理式のOR(または)を表し、「()かっこ」は論理式をまとめています

フィルタ名フィルタフィールドフィルタパターン
リファラースパム|参照|com-01参照(free-social-buttons|www[0-9]\.free-social-buttons|
floating-share-buttons|site[0-9]\.floating-share-buttons|
www\.event-tracking|www\.Get-Free-Traffic-Now|
forum\.topic64481594\.darodar|e-buyeasy)\.com
リファラースパム|参照|com-02参照(satellite\.maps\.ilovevitaly|
chinese-amezon|www2\.inbox|
sexyali)\.com
リファラースパム|参照|co-01参照erot\.co

フィルタのグループ分けが完了したら、上記のようにフィルタ設定して完了です。基本的には、トップレベルドメイン別で分けたほうが文字数を短くすることができます。それでも255文字を超える場合があるので、フィルタ名の語尾に連番を付けて管理しています。


ここまでで、Googleアナリティクスの設定でリファラースパムをブロックする方法について解説しました。他にも.htaccessなどで設定する方法もあります。スパムも常に新たな手を考えてきますので、いたちごっこになりますが、定期的にチェックして対応するようにしましょう。

参考書籍

新版 アクセス解析の教科書 費用対効果がみえるWebマーケティング入門 (CD-ROM付)

Webサイトを作るための正しいアクセスログ解析の方法をじっくり基礎から実践まで網羅したバイブルです。さらに、アクセスログ解析に基いたプロのWebマーケティングの技術をわかりやすく解説。Webサイトを販促ツールとして用いて、ビジネスの現場で成果を上げるための一冊です。

Amazon  楽天ブックス

デザイナーズ旅館一覧