大規模言語モデル(LLM)とは
大規模言語モデル(Large Language Models、LLM)とは、非常に巨大なデータセットとディープラーニング技術を用いて構築された言語モデルです。ここでいう「大規模」とは、従来の自然言語モデルと比べ、後述する3つの要素「計算量」「データ量」「パラメータ数」を大幅に増やして構築されていることに由来します。大規模言語モデルは、人間に近い流暢な会話が可能であり、自然言語を用いたさまざまな処理を高精度で行えることから、世界中で注目を集めています。
言語モデルとは
「言語モデル」とは、文章の並び方に確率を割り当てる確率モデルです。例えば、ある画像からそれが猫かどうかを当てる「予測モデル」を考えると、猫に近い画像は猫であるという確率を高く割り当て、犬に近い画像は猫であるという確率を低く割り当てます。同様に、「言語モデル」の場合、より自然な文章の並びに対して高い確率を割り当て、文章として成立しない並びには低い確率を割り当てます。
こうした「言語モデル」自体には古い歴史がありますが、2018年に「BERT」というディープラーニング技術を用いた新しいアーキテクチャによる言語モデルがGoogleより発表されました。「BERT」は、文章全体の意味を捉えられるという点で従来技術より優れ、かつ規模を大きくすることで精度を向上させやすいという特長があります。Googleの発表後、この「BERT」を応用した言語モデルが多く生まれ、実用範囲が急速に拡大しています。
大規模言語モデルは「計算量」「データ量」「モデルパラメータ数」の3つが巨大化
「大規模言語モデル」は、言語モデルのうち「計算量」「データ量」「モデルパラメータ数」の3要素を大規模化したものを指します。「計算量」とはコンピュータが処理する仕事量のことで、「データ量」とはコンピュータに入力した文章データの情報量です。また「モデルパラメータ数」とは、ディープラーニング技術に特有のパラメータ(確率計算を行うための係数の集合体)の豊富さを指します。大規模言語モデルは、この3つを巨大化させることで急速に進化しました。
この3つの巨大化については、2020年にOpenAIが発表した「Scaling Laws for Neural Language Models*1」という論文で説明されています。この論文では、自然言語モデルの性能と、この3つの要素「計算量」「データ量」「モデルパラメータ数」との間に、「Scaling Law(べき乗則)」が成立すると提唱されました。OpenAIは、この論文に裏打ちされた形で、「計算量」「データ量」「モデルパラメータ数」の3つを著しく巨大化することで、極めて精度の高い大規模言語モデルを生成することに成功しています。2022年11月に発表されたChatGPTも、「大規模言語モデル」の一種であり、格段に優れた受け答えにより、自然言語での応答の質を大幅に高めています。
出所)「Scaling Laws for Neural Language Models(2020)」
左から「計算量」「データ量」「モデルパラメータ数」のべき乗則を示している。
大規模言語モデルの活用分野
大規模言語モデルは、チャットボットや検索エンジン、翻訳、顧客の声分析、議事録生成、文章要約など、自然言語を用いる様々なタスクに応用できるのではないかと期待されています。ChatGPTを開発したOpenAI社はMicrosoftの出資を受けていることから、Microsoftが提供するサーチエンジン「Bing」にChatGPTの改良版が搭載されています。さらに自社開発するアプリケーションにも、順次大規模言語モデルの技術を搭載することを発表しています。Microsoft以外にも、Googleが「Bard」、Metaが「LLaMA」を発表するなど、大手IT企業による開発競争が盛んになっています。
大規模言語モデルの課題
圧倒的な性能を持つ大規模言語モデルですが、現時点では課題もあります。偽の情報を平然と出力する「hallucination(ハルシネーション、幻覚)」と呼ばれる現象や、悪質なプロンプトを用いて、本来禁止されている機能を解除して不適切な回答を得ようとする「Prompt Injection(プロンプトインジェクション)」の問題などが指摘されています。性能向上と並行し、こういった課題を克服するための研究も進められています。