フリーワード検索


タグ検索

  • 注目キーワード
    業種
    目的・課題
    専門家
    国・地域

NRI トップ ナレッジ・インサイト コラム コラム一覧 ビジネスデータを活用するためのデータサイエンスとデータサイエンティストのスキル

ビジネスデータを活用するためのデータサイエンスとデータサイエンティストのスキル

第1回 データサイエンスって何?

2023/03/10

  • Facebook
  • Twitter
  • LinkedIn

デジタル技術の進歩によって、企業が扱うデータの量と種類は急激に増えています。このデータを活用する上で求められているのが、データサイエンスと呼ばれる分野に長けた人、すなわちデータサイエンティストです。
今回の連載では、データサイエンスとは何か、データサイエンティストに求められるスキルとはどのようなものか、そして企業の中でデータサイエンティストを目指すとしたら、何に注意すればよいのかといったことを考えてみたいと思います。

執筆者プロフィール

システムコンサルティング事業本部 主任研究員 有賀 友紀:
専門は企業のIT活用動向に関わる調査・研究とデータ活用に関わる施策検討

データサイエンスの定義

今から50年近く前に、計算機学者のピーター・ナウアーという人がデータサイエンスという言葉を提唱しました。しかし、ナウアーが目指していたのは科学的なデータの管理で、今日で言うデータサイエンスとは、意味合いがかなり異なります。
現在のような意味でデータサイエンスという言葉が使われるようになったのは、1990年代です。統計学者の林知己夫は、1998年に「データサイエンスは、統計学、データ分析、およびそれらを統合した概念であるだけでなく、その結果をも含む概念である」と記しています(原文は英語です *1)。林によれば、その目的は「複雑な自然的、人間的、社会的現象の特徴や隠れた構造を、確立された伝統的理論や手法とは異なる観点から、データによって明らかにすること」です。
今日のデータサイエンスは、一つの体系的な学問分野というわけではありません。それは、自然科学や社会科学などの研究で使われる統計解析、知識の発見を目的としたデータ分析手法であるデータマイニング、近年注目されている機械学習など、異なる領域の方法論がミックスされたものと言えます。

データサイエンスの方法論とその目的

統計解析は、主に科学的な研究の中で、人間が考えた仮説をデータによって検証するために使われています。データマイニングはナレッジディスカバリ(知識探索)とも呼ばれ、特定の仮説を置かずにデータの中から新たな発見を得るために使われます。顧客の満足度を例にあげると、「便利さと快適さが顧客の満足に結びついているのではないか」といった仮説を人間が設定し、その確からしさや、便利さと快適さのどちらがどれだけ満足度に影響するかといったことを検証するのが統計解析の役割です。
これに対して、データマイニングでは、満足度に関係するサービスの特性が何かということを探索的に分析します。便利さや快適さといった要因だけでなくサービスの提供時期や地域が関係していて、それらについて気付きが得られるかもしれません。「やってみないとわからない」というのがデータマイニングの特徴です。
さらに、2010年代になって、ビジネスの世界でも大きく注目されるようになったのが機械学習です。機械学習は、過去のデータをもとに確率的な判断を行う仕組みです。例えば、イヌの体格とそのイヌの種類に関するデータがあれば、そのデータをもとに「このような体格のイヌはこの種類だろう」と、ある程度の確からしさで予測することができます。ここでいう「予測」とは確率的に推測するといった意味合いで、必ずしも未来を予測するという性質のものではないことに注意してください。
データサイエンスを活用していく上では、これらの違いに注意する必要があります。統計解析とデータマイニングは、いずれも人間が知識を得るための方法論です。統計解析では人間が仮説を考えてそれを検証することが、データマイニングでは機械に発見をさせることが重視されますが、人間が知識を得るために使われるという点は同じです。
機械学習は、人間が知識を得るためというよりも、機械が自動的な判断をするために使われます。AIに判断や行動をさせるために使われるエンジンの一つが、機械学習だと言ってよいでしょう。機械学習にはさまざまな手法があり、特に注目されている手法がディープラーニングです。ディープラーニングは、判断の根拠を人間が理解することができない仕組みであり「ブラックボックス」型のシステムだと言われます。ただし、機械学習の結果から、人間が活用できるような知識のヒントを得ようとする試みも最近では発展しつつあります。

サイエンスとエンジニアリング

データサイエンスは、サイエンス(科学)と、エンジニアリング(工学)の両者にまたがる分野であると言えます。現象を適切に説明することを目指す科学のアプローチと、動作する仕掛けを作ることを目指す工学のアプローチはかなり異なります。スキルという観点でも、自然科学や社会科学のようなサイエンスの領域にバックグラウンドを持つ人と、コンピュータやAIのようなエンジニアリングの領域にバックグラウンドを持つ人では、その発想や考え方が異なります。統計解析が科学とともに発展してきた分野であるのに対して、データマイニングと機械学習はいずれもコンピュータを問題解決に応用する研究から生まれたもので、工学的なアプローチを多分に含んでいます。
では、データサイエンスを現実の課題にあてはめる場合、どのようなアプローチが適切だと言えるでしょうか。データマイニングや機械学習では、分析の対象となる現象や解決すべき課題について特定の仮説を置かなくても、データをコンピュータに入力すれば、何らかの結果が表示されます。しかし、その目的が知識を得るためであっても、または機械に判断をさせるためであっても、それらについて考えるという作業を機械にまかせて良いわけではありません。一般の科学研究のように厳密な仮説を数式の形で準備しておく必要はなくても、分析すべき現象についてどのようなメカニズムが働いているのかをイメージしておくことが重要です。

データサイエンティストの人材像

このことは、データサイエンティストとしてどのようなスキルを身につければよいかということにも関わってきます。データサイエンティストを目指す上で、統計的な理論に対する理解や、プログラミングの技術やツールを扱うための知識が必要なことは確かです。それらは、書籍やオンラインの無料講座、ツールを提供するベンダの研修などで得ることができますし、自身で研鑽を積むことも可能です。しかし、分析の対象となる現象や解決すべき課題についての理解は、それだけでは得られません。
現在、多くの企業が自社のビジネスに貢献できる資質を持ったデータサイエンスティストを求めています。データサイエンスと言うと、数学やプログラミングの話だと考える人も多いと言えますが、現実に求められるのは業務の目線で仮説を考え、検証することができる人材です。この点については、次回に詳しく触れたいと思います。

  • *1   

    Hayashi C. (1998) What is Data Science ? Fundamental Concepts and a Heuristic Example. In: Hayashi C., Yajima K., Bock HH., Ohsumi N., Tanaka Y., Baba Y. (eds) Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization . Springer, Tokyo

次のページ:ビジネスデータを活用するためのデータサイエンスとデータサイエンティストのスキル
第2回 データサイエンティストが持つべきスキルとは?
 

執筆者情報

  • 有賀 友紀

    システムコンサルティング事業本部

  • Facebook
  • Twitter
  • LinkedIn

DXブログの更新情報はFacebook・Twitterでもお知らせしています。

新着コンテンツ