ITパスポート試験 用語辞典

大規模言語モデル
ver6.2
【Large Language Model】
文章、表現、単語など言語の構成要素に対し、それぞれの関連度合いを明らかにすることで文章を理解し予測を可能とする言語モデルを用意し、それに対して多種大量の訓練データで学習を行うことで、より高度な言語理解と自然言語を用いる様々なタスクの実現を可能としたモデルのこと。代表的なものにGPT(Generative Pre-trained Transformer)モデルやBERT(Bidirectional Encoder Representations from Transformers)がある。

大規模言語モデルは大量のデータで学習を行うため、高性能のCPUやGPUなど高い計算資源が必要であり、AIモデル内で調整されていくパラメータ量も大規模となる。そのため大規模言語モデルの開発は高い技術力と豊富な資源を持つ企業や大学、団体が中心であったが、開発された大規模言語モデルをベースにファインチューニングを行うことで、目的とするタスクに応じたモデル開発を行うことが広く可能となった。大規模言語モデルは、使用人口が多くWebや学術論文などに大量の情報がある英語で訓練される頻度が高いため、英語環境下での精度が高い傾向があったが、現在では多言語に対応したモデルや日本語LLMなどの開発が進んでいる。

言語処理モデルでは入力データの文脈や単語などの前後関係を理解するために、時系列要素をモデル内に取り込む必要があった。そこで再帰的ニューラルネットワーク(RNN)モデルなどが利用されていたが、現在のGPTモデルやBERTではRNNではなくTransformerモデルがベースとして利用されている。Transformerモデルは、入力データの各要素が他のすべての要素に対して注意を向けるべき度合いを計算する自己注意機構(Self-Attention)を用いて、前後の単語や文脈の関係を明らかにしていく。
↓ 用語データを見る
別名:
LLM
分野:
分野:テクノロジ系
中分類:基礎理論
小分類:情報に関する理論
重要度:

「情報に関する理論」の用語

「基礎理論」の他の分野

「テクノロジ系」の他のカテゴリ


Pagetop