ITパスポート試験 用語辞典
過学習【Overfitting】かがくしゅう
AIモデルの作成過程で、学習用の訓練データに対しては高い予測性能や高精度の近似を示すものの、訓練データ以外の実際の分析で使用するような未知のデータに対しては望むような結果が得られない状態のこと。
AIモデルの作成では、対象データの類似性やパターン、確率分布が適切なものになるよう各データが持つ複数の特徴とパラメータを決定する。パラメータを細かく複雑に設定することで訓練データに対しより高精度の予測や適切なクラスタリングが可能となるが、学習によって得られたAIモデルが訓練データに適応しすぎて、訓練データ以外の未知のデータに対する適応度が低くなってしまうことがある。この状態を示すのが過学習である。
過学習の原因としては、処理対象としている母集団の数や分布の状態と比較して訓練データが少ない場合はもちろん、訓練データに適応させるために詳細に設定した特徴やパラメータの複雑度などがある。過学習に対処するために、訓練データとテスト用の評価データの結果それぞれと真の値との誤差率の違い、あるいは訓練データの値と評価データの値の差分が、訓練回数によってどう変化していくかを表す学習曲線を利用する方法がある。学習曲線では訓練開始から訓練データの結果と評価データの結果の差は減少していくが、過学習が発生すると逆にその差が増加していく。そこで、その時点で訓練を終了することで過学習の影響を減らすことができる。その他、AIモデルの複雑度を低減させ過度の訓練データへの適応を防ぐ、データを訓練データとテストデータに分割し、訓練データとテストデータの位置を何度か入れ替えて様々なデータが未知のデータとなるよう訓練しテストする交差検証を行う、などによって過学習の影響を減らす方法がある。
AIモデルの作成では、対象データの類似性やパターン、確率分布が適切なものになるよう各データが持つ複数の特徴とパラメータを決定する。パラメータを細かく複雑に設定することで訓練データに対しより高精度の予測や適切なクラスタリングが可能となるが、学習によって得られたAIモデルが訓練データに適応しすぎて、訓練データ以外の未知のデータに対する適応度が低くなってしまうことがある。この状態を示すのが過学習である。
過学習の原因としては、処理対象としている母集団の数や分布の状態と比較して訓練データが少ない場合はもちろん、訓練データに適応させるために詳細に設定した特徴やパラメータの複雑度などがある。過学習に対処するために、訓練データとテスト用の評価データの結果それぞれと真の値との誤差率の違い、あるいは訓練データの値と評価データの値の差分が、訓練回数によってどう変化していくかを表す学習曲線を利用する方法がある。学習曲線では訓練開始から訓練データの結果と評価データの結果の差は減少していくが、過学習が発生すると逆にその差が増加していく。そこで、その時点で訓練を終了することで過学習の影響を減らすことができる。その他、AIモデルの複雑度を低減させ過度の訓練データへの適応を防ぐ、データを訓練データとテストデータに分割し、訓練データとテストデータの位置を何度か入れ替えて様々なデータが未知のデータとなるよう訓練しテストする交差検証を行う、などによって過学習の影響を減らす方法がある。
- 別名:
- 過剰適合/オーバーフィッティング
- 分野:
- テクノロジ系 » 基礎理論 » 情報に関する理論
(シラバスver6.2) - 重要度:
「情報に関する理論」に属する用語
- 演繹推論
- 帰納推論
- 機械学習
- ニューラルネットワーク
- バックプロパゲーション
- 活性化関数
- 過学習
- ディープラーニング
- 事前学習
- ファインチューニング
- 転移学習
- 畳み込みニューラルネットワーク
- 再帰的ニューラルネットワーク
- 敵対的生成ネットワーク
- 大規模言語モデル
- プロンプトエンジニアリング
「基礎理論」の他の分野
「テクノロジ系」の他のカテゴリ