フリーワード検索


タグ検索

  • 注目キーワード
    業種
    目的・課題
    専門家
    国・地域

NRI トップ ナレッジ・インサイト 用語解説 用語解説一覧 P値

P値

P Value

  • Facebook
  • Twitter
  • LinkedIn

P値とは

統計学における「仮説検定」(自分が設定した仮説が正しいかどうかを統計的に判定する方法)で、設定した仮説の通りにならない可能性(確率)を表した値のこと。P値のPは確率を表すProbabilityのP。
P値が小さい値(一般的には0.05未満)になれば、仮説通りにならない確率が低いと言えるため、想定した仮説は正しいと判断されます。
(読み:ピーチ)

仮説検定におけるP値の計算方法

統計的仮説検定の場合は、自分が設定した仮説と反対のことを棄却することで、自分の仮説が正しいことを証明します。
例えば、A群の平均値とB群の平均値には「差がある」ことを証明したい場合には、A群の平均値とB群の平均値には「差がない」という仮説をたて、それが間違っていることを証明します。差がないという仮説を棄却することで、差があることを証明するのです。
A群とB群の中から、サンプルを抽出して平均値を計算し、2つの平均値の差を計算します。A群とB群の平均値には「差がない」とした場合に、サンプルから実測された平均値の差が起こる確率を求めます。A群・B群のデータが正規分布に従うなどの前提があれば確率を計算することができます。
P値とは、特定の値になる確率ではなく、それよりも大きくなる確率(実測された差よりも大きな差になる確率)です。その値が小さければ、実測された差よりも大きくなる確率はめったにないため、仮説が棄却されます。どれぐらい小さい場合に棄却してよいかを決める水準を「有意水準」とよび、一般的には0.05をとることが多いです。

回帰分析におけるP値

ビジネスの場面では、P値は、回帰分析の結果として表示されることが多いでしょう。
エクセルなどの計算では、回帰分析結果として、以下のようなアウトプットが出てきます。
このP値の見方についても解説しておきます。

XとYのデータ群があった時に、XとYの関係を、Y=a・X+bのような式で表すことが回帰分析です。XとYのデータから、最も誤差が少なくなるような形でaとbを推計します。その結果、係数aは0.187と計算され、この係数aの確からしさ(有意性)を検定した結果が「t」(t値とも表現される)と「P-値」(P値とも表現される)です。
検定の対象となる仮説は「XとYは関係がない(aがゼロ)」とし、この仮説を棄却できれば、XとYの間には「回帰係数aという関係がある」という考え方をします。回帰分析は、XとYのサンプルデータの組み合わせから、XとYの元にある関係を推計しようという考え方です。計算された結果は、正規分布に類似している「t分布」になることがわかっており、この性質をもとに検定(「t検定」と呼ばれる。別掲参照)を行います。t検定では、「t値」と呼ばれる「検定統計量」をもとに仮説の確からしさを検定します。

今回の回帰分析結果の検定の流れは以下の通りです。

  1. 係数aを0.187と計算された場合に、aが0になるという仮説を検定する
  2. 検定統計量であるt値は2.597と計算される
  3. t値が2.597になる確率は2.0%(P値)
  4. 95%の水準で考えると、5.0%以下の確率は、非常に稀なケースと考えて良い
  5. P値=2.0%となった今回の仮説(aが0になる)は棄却される
  6. 係数aを0.187と計算された場合に、aが0になるとは言えない
  7. 95%の確からしさで、係数aを0.187と考えても良い

仮にP値が5.0%以上になるような場合は、仮説は棄却されないため、aが0になる可能性があるとなるため、その仮説の前提になった係数aの値は正しいとは言えません。
一般的に、t検定の場合は95%水準で考えることが多いため、P値が5%以下でない場合は、その係数が0になる可能性を否定できないため、回帰分析の結果が正しいとは言い切れません。P値をみることによって、その係数の確からしさを判断することができ、5%以下で小さければ小さいほど確からしいと言えます。

P値で確からしさを判断する場合の注意点

P値の結果だけでは、必ずしも判断できない場合があります。それは、P値のもとになるt値は、サンプル数の影響を大きく受けるためです。今回の検定統計量であるt値は以下のように計算されます。

すなわち、t値はサンプル数が多くなるほど大きくなる傾向にあります。t値が大きくなるとP値は小さくなるため、aが0になるという仮説が棄却されやすくなり、Y=a・X+bという回帰分析が正しいという判断がされやすくなります。
近年は、ビッグデータなどの活用により、莫大なサンプル数でt値を計算することが増えたため、aの大きさや、aのバラツキ(標準偏差)によらず、P値をみるだけ、回帰分析の結果が正しいと判断されがちなため、注意することが必要です。

(参考)t検定とは

サンプルデータから計算された結果は、正規分布に類似している「t分布」になることがわかっており、この性質をもとに検定(「t検定」と呼ばれる)を行います。t検定とは、t分布を使って、仮説として用いた水準(値)が正しいかどうかを確かめる考え方です。
サンプルから計算した結果がt分布に従うため、元データの値は、以下の範囲におさまると推計されます。

元データの値=サンプルの値±t*サンプルの標準誤差

ここでtという値は、t分布の特性から決まる値で、例えば、サンプル数が10で、確率95%でおさまる範囲と決めた場合に、tは2.26となります。また、サンプルの標準誤差は、サンプルデータの標準偏差やサンプル数から計算されます。
この式から、±を除外して、tを求める式に変形すると、

t =(サンプルの値-元データの値)÷(サンプルの標準誤差)

元データの値を仮説として設定するため、

t =(サンプルの値-仮説の値)÷(サンプルの標準誤差)

となります。サンプルデータから計算された右辺の値を「t値」で、t検定における「検定統計量」と呼ばれています。このt値をもとに仮説の確からしさを検定します。
t値が95%の範囲内に入れば、仮説は95%の確率で正しいと考えます。その範囲を超えている場合は、この仮説は棄却されます。仮説に基づくt値を計算できれば、その仮説が正しいかどうかを判断できるのです。
さらに、「t値」より外側になる確率のことを「P値」と言います。t値が計算できれば、t分布表からP値も自動的に求めることができます。t値から求められたP値が5%未満であれば、t値は非常に稀なケースであり、仮説が棄却されます。

回帰分析で求めた回帰係数(a)の検定では、検定統計量は、

t =(回帰係数a-仮説)÷(aの標準誤差)

となります。
仮説は「XとYは関係がない(aがゼロ)」のため、

t = a ÷(aの標準誤差)

として検定を行います。

  • Facebook
  • Twitter
  • LinkedIn