前回の記事では2つのグループのデータに本当に差があるのかどうかという検証を進めるために、統計的仮説検定に関する考え方を紹介しました。
統計的仮説検定では、”有意である”という表現をよく使います。
この”有意である”というのはどういうことかをまず説明します。
前回、「カラスは黒いものである」という事実を検証するという例についてお話しました。
「黒と白のカラスが50%ずつ存在する」という帰無仮説を立て、そして10羽連続して黒いカラスに遭遇し、その確率は1000分の1以下という小さいものでした。
ここで、その確率のことを”P値”と呼びます。
そんな小さい確率でしか起こらないことが、起こるわけがないので、2つのグループにはやはり差があるということになります。
帰無仮説を棄却するための”P値”の基準を”有意水準”といい、5%や1%などの基準が使われます。
このP値が0.05や0.01を下回れば、帰無仮説を棄却します。
このとき、「5%で有意」とか「1%で有意」という言い方をします。
以上の前提知識を元に以下の問題を考えてみたいと思います。
事例
以下のデータはある商品について、ブランドAとブランドBの顧客満足度を被験者ごとに調査した結果である。
このデータからブランドAとブランドBの顧客満足度の有無を検証したい。
方針
- まずブランドAとブランドBの顧客満足度には差がないという仮説を立て(帰無仮説)、これを検定する。
- P値(2つの集団が同じだとしても、観測された程度の差が生じる確率)を検証することで、仮説の棄却可否を判断する。
手順
上記の方針で検定するために、Excelの「データ分析」ツールを利用したいと思います。
- 「データ」タブ→ 「データ分析」→「t検定 一対の標本による平均の検定」 を選択し、「変数1の入力範囲」にブランドAのデータ(B列)、「変数2の入力範囲」にブランドBのデータ(C列)を指定すます。
- 「ラベル」をチェック、「OK」をクリック。
※「データ」タブに「データ分析」が表示されない場合は、「ファイル」 →「オプション」 →「アドイン」から「分析ツール」を選択し、「設定」→「分析ツール」→「OK」。
※「t検定」;2つの母集団がいずれも正規分布に従うと仮定した上で、双方の平均が等しいかどうかを検定する手法です。
結果検証
「t検定」 の結果は以下の通りです。
ここで「P(T<=t)両側」が0.040であるため、有意水準5%とすると、ブランドAとブランドBに顧客満足度には差がないという仮説が棄却され、「ブランドAとブランドBの顧客満足度には差がないとは言えない」となります。
「P(T<=t)両側」;「大きい(小さい)と言えるか」、 「高い(低い)と言えるか」 という分布の片側のみを検定するときは、「P(T<=t)片側」を参照しますが、本ケースは「満足度に差があるか」を検定するものであり、その高低は問わないため、 「P(T<=t)両側」を参照します。
最後に「t検定」について補足をしておきます。
今回紹介した方法は“一対の標本による平均の検定”(同一の被験者が2つのブランドを評価するようなデータ)ですが、2標本による検定を行う場合(男性と女性が別々に評価をする場合など)、またその2標本の分散が等しい場合、等しくない場合で検定の方法は異なります。
※分散;データのバラつきを表す値のこと
「t検定」に関する検定のフローを以下に示しておきます。
Excelだけでも、これだけのデータ検定ができますので、ぜひチャレンジしてみてください。