AIの2026年問題とは

AIモデルを構築するためには、AIに学習させることが重要になります。学習するためのデータはインターネット上にある情報を活用することが多いのですが、良質な学習データが2026年には枯渇すると言われおり、AIの「2026年問題」と言われています。

AIの学習で使われるデータ

AIの開発のためには大量のデータが必要となります。多くはインターネット上にある大量のデータを読み取って学習をしていました。テキスト、画像、動画など、様々なデータが学習用に使われています。
データは品質に基づいてレベルに分けでき、ニュース記事、論文、書籍、Wikipediaなど編集されたものは「高品質」なデータです。SNSなどで一般生活者が書き込んだ編集されていないものは「低品質」と分類されます。AIの学習のためには高品質なデータが有効です。高品質な学習データをいかに確保するのかは、AIの基盤モデルを構築する企業にとって大きな課題となってきています。新たな情報源を求める競争が激化しています。
海外では、新聞社などと提携して新聞記事などを学習データとして活用するAI企業も増えてきています。日本でも、コンテンツを保有する企業(新聞社、出版社、放送局、Webメディア会社など)との提携による学習データの確保が重要になる可能性があります。

AIに使われる学習データ

出所)野村総合研究所作成

学習データの枯渇

インターネット上のデータを中心に学習されてきたAIモデルですが、データ提供元のアクセス制限や、ライセンス契約の動きなどにより、データを取得することが難しくなってきています。2026年にはインターネット上からAIモデルの構築に必要なデータが枯渇すると指摘する専門家もおり、AIの「2026年問題」とも言われています。
AIの研究機関である「Epoch AI」の調査結果では、低品質の言語データは 2030 年から 2050 年までに、高品質の言語データは 2026 年までに、視覚データは 2030 年から 2060 年までに、枯渇すると予測しています。(2022年11月発表)
そこで注目されるのが、不足する学習データを補うために、人工的に生成する「合成データ」です。合成データは、プライバシーを侵害したり、法的規制などに抵触したりすることなく、現実に即したデータを使ってAIモデルの開発と検証を可能にするものです。
今後、AIモデルの開発では、データの入手だけでなく、合成データの活用が鍵を握ると言えます。

動画で解説

「2026年問題」に関して動画でお伝えしています。

関連する用語