Column

2016.07.05

機械学習を活用した広告分析と運用


トレーディングデスク局
Marketing Design Division
青木 文香

■はじめに
私はWeb広告を中心としたマーケティング領域の分析を担当しており、分析の目的に応じてどうすればその後の施策まで提示ができるかを模索しています。分析を通じて得た機械学習の使い方について、個人としての考えをもとにご紹介します。「機械学習を使ってみたいけど難しそう」という方に、今回のコラムがきっかけになればと思います。取り上げる機械学習は次の4つです。

<機械学習>
(1)回帰分析
(2)決定木
(3)クラスター分析
(4)因子分析

4つを取り上げた根拠は、「使用頻度が多いこと」と「組み合わせることで活用範囲が広がる」と考えられるためです。そもそもどの機械学習を使うかは分析の目的によって変わります。考え方については弊社のコラム「広告運用への統計活用方法」でご紹介しています。

■機械学習とは?
機械学習とは一言でいうと、ある事象に対して機械が発生確率を与える手法です。機械学習は大きく2つに分けることができます。分類については弊社のコラム「広告配信を取り巻くAIと機械学習及び今後の展望」でも紹介されています。

・インプット/アウトプットのルールを学習させる:教師あり学習
・インプットのみを行い、学習は機械に任せる:教師なし学習

今回は「教師あり学習」と「教師なし学習」という名前で進めます。それぞれ上記で取り上げた4つの機械学習を例に説明します。

教師あり学習
教師あり学習は、データの区分について人(教師)が指示を出す必要があります。例として回帰分析と決定木を挙げました。どちらもデータだけでなく、人(教師)が「目的変数」と「説明変数」でデータを区別する必要があります。

(1)回帰分析
ある1つの目的変数に対し、それぞれの説明変数が説明できている確率を算出します。

(2)決定木
ある1つの目的変数に対し、説明できている確率の高い説明変数から目的変数を分割します。

教師なし学習
教師なし学習は、人(教師)の介在はなくデータを入れるだけです。例としてクラスター分析と因子分析を挙げました。教師あり学習とは異なり、目的変数を指定する必要がありません。

(3)クラスター分析(k-means法)
データ間の距離が近い者同士を同じクラスターとし、指定した個数のクラスターを生成します。

(4)因子分析
複数の変数間で相関性が高いものを1つの要因が働いていると考え、共通因子として変数をまとめます。

■教師あり学習と教師なし学習の組み合わせ
実際は教師あり学習と教師なし学習を組み合わせた分析も行っています。広告運用で機械学習を活用した事例を2つご紹介します。

【事例①:クラスター分析×決定木】
・目的
ディスプレイ広告において、配信先ドメインを効率的に精査したい。

・課題
-配信先ドメインは数が多いため、運用者が1つずつ中身を確認して精査するのは困難。
-配信先ドメインをCTR/CVR軸で精査するのは、広告主のサイトと親和性の高いドメインを見落としてしまう可能性がある。結果として配信先ドメインの評価指標が分からない。

※課題の補足※
配信先ドメインをCTR/CVR軸で評価できない理由を簡単にご説明します。

-CTR軸の場合
例としてポイントサイト等が挙げられます。比較的CTRが高く精査対象とはなりませんが、ユーザーはポイント目的で広告主のサイトに流入している可能性が高いため、運用者としては精査すべきと考えます。

-CVR軸の場合
CGM系の閲覧数の少ないサイトは、広告主のサイトと親和性が高くてもCVR軸では精査されてしまう可能性があります。

・仮説
クラスター分析で複数のクラスターに分ける。分けただけでは各クラスターの特徴が分からないため、決定木でそれぞれの傾向を確認する。これを行うことで精査すべきドメイン群が発見できるのではないか。

column_20160705_1

・分析結果
-クラスター1
impは多くCTRも高いが、CVRが低いドメイン群
→「ユーザーが見たい情報」と「広告主のサイトが提供している情報」に相違が発生している可能性がある。

-クラスター2
impは少なくCTRも低いが、CVRが高いドメイン群
→「ユーザーが見たい情報」と「広告主のサイトが提供している情報」が一致している可能性がある。

-クラスター3
impはクラスター1と2の中間、CTR/CVRは低いドメイン群
→CGM系等の閲覧数が少ないサイトが中心で、「ユーザーが欲しい情報」がまだはっきりしていない可能性がある。

・施策
クラスター1の配信先を停止。

・施策の結果
CVRが120%上昇し、CPAは130%抑制。

・まとめ
機械学習を活用して複数の軸(imp、CTR、CVR)で類似ドメインを束ね特徴を把握したことで、運用者が精査すべき配信先ドメインの発見につながったと考えられます。
変数も複数ある膨大なデータの場合は、評価軸が定まらないことが多々あります。今回のようにクラスター分析、決定木でデータを整理して特徴をつかむことで、広告運用者が改善すべきポイントを発見する手助けになるのではないかと考えます。

【事例②:回帰分析×因子分析】
・目的
実店舗での販売個数増加に向けて、地域ごとに最適なWebプロモーションを打ちたい。

・課題
実店舗の販売個数データが都道府県別になっており、そのまま分析しても細かすぎるため施策に落とし込めない。

※課題の補足※
実店舗を全国に展開しており、プロモーションとしてはオフライン(テレビCM、交通広告、雑誌、新聞)、オンライン(リスティング広告、ディスプレイ広告)を行っておりました。そのため、オフラインの出稿状況と地域別の傾向を加味して、オンラインの施策を考える上で上記のような課題が挙がりました。

・仮説
都道府県別の販売個数データを因子分析で相関している都道府県同士はまとめる。その後回帰分析することで、細かすぎず実行に移しやすい施策が提示できるのではないか。

column_20160705_2

・分析結果
因子分析の結果、「関東地区」と「関東以外の地区」でまとめることができた。次に回帰分析を行った結果、それぞれCV数に影響を与えていたプロモーションは下記であった。

-関東地区:リスティング広告、ディスプレイ広告、交通広告
-関東以外の地区:テレビCM、雑誌、新聞

・施策
オンライン広告において、関東地区への配信を強化。

・施策の結果
オンライン上のCV数は130%増加し、CPAは115%抑制された。

・まとめ
オンラインの広告運用において、機械学習を活用しオフラインの動きも考慮した施策の実行ができました。オンラインとオフライン間の関係性は「感覚としては分かっていても実証するのが難しい」というケースが多いです。機械学習を活用することで関係性を数値化できます。広告運用ではその数値化された関係性をもとに調整することで、効果の改善が見込めると考えます。

■最後に
機械学習の理論自体を理解するのは難しすぎるため、今回理論については全く触れずにお話しました。
ここで大事なことは分析してみることです。例えば、「事例①」はGoogle Analyticsのデータでも分析可能です。私は分析ツールとしては「R」という統計解析フリーソフトを使っています。“機械学習名 R”で検索すれば、分かりやすい説明と共にRのコードも親切に書かれているサイトがたくさん出てきます。ぜひ手を動かしてみてください。

今回のコラムが「機械学習は難しくて活用なんてできない」と考えている方に対して、少しでも分析を始めてみるきっかけになれば幸いです。


メニューボタン

サイトマップ

プライバシーポリシー

JPEN