フリーワード検索


タグ検索

  • 注目キーワード
    業種
    目的・課題
    専門家
    国・地域

NRI トップ ナレッジ・インサイト 用語解説 用語解説一覧 ベイズ統計

ベイズ統計

Bayesian Statistics

  • Facebook
  • Twitter
  • LinkedIn

ベイズ統計とは

18世紀イギリスの数学者であり牧師のトーマス・ベイズによって提唱された「ベイズの定理」(別途説明)を基本的な考え方とする統計学。新しいデータを取り込みながら推定や予測の精度を高めていくという特徴がある。かつてマイクロソフト創業者のビル・ゲイツが、「マイクロソフトが競争優位に立っているのは‘ベイズ・テクノロジー’のおかげ」と発言し、ビジネスに活用できることが注目された。

「ベイズの定理」でデータの見方を変えて、要因を正しく評価する

「ベイズの定理」をビジネスに活用している具体的な事例を紹介します。

【迷惑メールの推定の問題】

※メールの本文中に「無料」という表記があったら迷惑メールと判断できるか?

  • 得られたデータ
    迷惑メールと識別されたメール本文中に「無料」という表記が出現する割合:30%
    全てのメール本文中に「無料」という表記が出現する割合:10%

「無料」という言葉が全メール本文中に出現する割合と比べて迷惑メールの場合は出現割合が高いため、何となく関係がありそうですが、他方で「無料」という言葉が本文中にあれば全て迷惑メールと判断するほどでもないという感じもするかと思われます。
過去の経験から、全メールの中に迷惑メールが占める割合は20%ぐらいだと仮定すると、今回のデータは以下のベン図として整理できます。わかりやすくするために、全体のメールの数を100通として表記しました。

迷惑メールの合計は100通の20%で20通、うち30%で無料表記があるので重なり部分は6通。全メールで「無料」表記がある割合は10%(10通)で、うち迷惑メールの6通を除いた4通が通常メールで本文中に「無料」表記あり。迷惑メールではなく、かつ本部中に「無料」表記もないメールは76通。

迷惑メールのうち本文中に「無料」表記がある割合は30%でしたが、同じデータでも見方を変えると、「無料」表記があるメールのうち迷惑メールである割合は60%となります。重なりの部分(6通)を、迷惑メール側から評価するか、「無料」表記あり側から評価するかの違いです。
「ベイズの定理」とは、このベン図の重なりの部分の関係を数式で表したもので、当たり前のことを言っているだけで難しくはありません。見方を変えるという点が「ベイズの定理」のポイントで、データを解釈する際の誤解を排除することができます。同じデータを用いても、違う視点から見ることで、結果に及ぼす要因を正しく評価できます。
実際の迷惑メール判定では、「無料」という言葉だけではなく、「プレゼント」や「キャンペーン」などの他の言葉を含んだ場合や、2つ以上の言葉が含まれる場合など様々な条件で迷惑メールになる割合を計算し、それらのデータをもとに判断しています。
「ベイズの定理」により、正しく要因を評価することができるようになるため、ビジネスにおける活用が進んでいます。迷惑メールのフィルタリング以外にも、記事のカテゴリ分類、自動翻訳、医療分野における検査やワクチン接種の効果測定などの分野で応用されています。

機械学習に活用しやすいベイズ統計

ベイズ統計のもう1つの特徴は、新しいデータの取り込みに対する柔軟性です。
「ベイズの定理」は、ある要因(例えばメール本文中に「無料」表記あり)が起こった場合に、結果(迷惑メールである)が、どう変わるのかを推計するものです。この考え方を拡張すると、要因となるデータがたくさん集まれば、結果の予測精度を高めることができると言えます。「無料」という表記以外に、「プレゼント」や「キャンペーン」という表記も迷惑メールに影響しているというデータが段階的に分析される感じです。
一般的な統計学では、データが増えるたびにゼロから分析する必要があるのに対し、ベイズ統計の場合は、逐次的にデータを取り組むことができます。データが十分にある場合は分析結果に大きな違いはありませんが、推定値の求め方が異なります。ベイズ統計の考え方の方が柔軟に取り込むことができます。

ベイズ統計の考え方は古くからありましたが、新しいデータを取り込みながら学習するという点で、ビッグデータを活用した機械学習との相性もよく、近年、注目を集めるようになりました。また、人間の思考の過程をモデル化したものとも考えられ、人間の思考様式になじむとも言われています。

「ベイズの定理」の一般化

ベイズの定理を一般化すると次のようになります。
(興味がない人は読み飛ばしてください)

xが起こる確率
=(Aが起こる確率)×(Aが起こった時にBが起こる確率) ・・・①
=(Bが起こる確率)×(Bが起こった時にAが起こる確率) ・・・②

①と②を数式で書くと、P(A) P(B|A)=P(B) P(A|B) と表記されます。
Pは確率を表し、「B|A」はAが起こった時にBが起こるという意味です。

この式を変形して

が、ベイズの定理の一般的な式となります。

迷惑メールの事例でいえば、
左辺
 P(A|B) 「無料」表記があった場合の迷惑メールの確率
右辺
 P(A) 一般的な迷惑メールの割合(過去の経験から20%と仮定)
 P(B|A) 迷惑メールのうち「無料」表記あり(データから30%)
 P(B) 全メールで「無料」表記あり(データから10%)
となります。

  • Facebook
  • Twitter
  • LinkedIn