1. HOME
  2. IM-Press
  3. お役立ち情報
  4. 機械学習モデルとは? ~主な種類と選ぶポイント~

機械学習モデルとは? ~主な種類と選ぶポイント~

AIはもはやSFや遠い未来の話ではなく、私たちの暮らしや仕事で身近な存在となりました。
AIについて学んだり調べたりする過程で必ず出てくるキーワードの一つに「機械学習」があります。
機械学習とは一体、何を指すのでしょうか?

本コラムでは、機械学習モデルについて、概要や種類、適切な選び方についてご紹介いたします。

イントラマートにDX業務改革を相談しませんか

イントラマートではお客様の業務プロセス改革をサポートする、トータルサービスをご提供しております。お客様自身が継続的かつクイックにDX業務改革を推進していけるよう支援していくトータルサポートサービスです。

 

1. 機械学習モデルとは?

機械学習モデルとは、機械学習において、入力したデータに対する出力(回答)を導き出す仕組みのことです。

機械学習とは

機械学習モデルについて理解するためには、まず、機械学習について知る必要があります。機械学習とは、AI(Artificial Intelligence /人工知能)の一つで、組み込んでおいた知識を蓄積・整理・最適化することで機械自身が学習するタイプを指します。
人間や動物が経験を通して自然に学習する仕組みを、コンピューターにさせようという研究分野で、プログラムされた通りの回答を返すだけではないという点が特徴です。

機械学習においてデータの流れは「入力」→「機械学習モデル」→「出力」となります。
用途によって入力されるデータの種類はさまざまなため、目的に応じて個別にモデルが作成されます。

 

2. 機関学習モデルの主な種類

機械学習モデルは、用途・目的に応じて個別に作成されますが、大きく分けると「教師あり学習」「教師なし学習」に二分できます。

教師あり学習

教師あり学習とは、適切な例題と模範解答をセットにして組み込むタイプです。
たとえば、迷路や将棋などをコンピューターに解かせる場合は、教師あり学習が最適です。

教師あり学習のモデルは、さらに「回帰」と「分類」に分けられます。

回帰

回帰には、「線形回帰」などがあります。

線形回帰

回帰の中で最もシンプルなのが線形回帰です。
一方の変数が、他方の変数を左右するようなものの分析に利用します。

たとえば、アイスクリームの売れ具合と気温の関係などを分析できます。
なお、予測したい変数を「従属変数(目的変数)」、従属変数を予測するための変数を「独立変数(説明変数)」といいます。

正則化

上の「線形回帰」のメリットを解消したものが「正則化」です。
線形回帰では、独立変数が増え過ぎると、結果予測がうまくできなくなってしまう「過学習」という状態に陥ることがあります。これを防ぐために使用するのが「正則化」で、線形回帰の損失関数に正則化項を追加します。
正則化された線形回帰には、「Ridge回帰」や「Lasso回帰」があります。

分類

分類には、「サポートベクターマシン」「決定木」「アンサンブル学習」などがあります。

サポートベクターマシン(SVM: Support Vector Machine)

サポートベクターマシンとは、分類問題を解くモデルの一つで、SVM(Support Vector Machine)と略されることもあります。
未知のデータに対しても高い精度で予測が可能なモデルで、画像分析や音声分析などに活用されます。
※「分類」にカテゴリしましたが、「回帰」にも使用できます。

決定木

決定木とは、ツリー構造(樹形図)に条件分岐を繰り返すことで、予測モデル作る方法です。
たとえば、季節や天気、曜日などがアイスクリームの購入にどのくらい影響を与えているのかといったことを予測する際に活用できます。
※「分類」にカテゴリしましたが、「回帰」にも使用できます。

アンサンブル学習

決定木の進化系ともいえるのがアンサンブル学習です。
アンサンブル学習とは、複数のモデルを用意しておき、結果を統合することで、より精度の高い予測を行う方法です。
アンサンブル学習には、「ランダムフォレスト」「ブースティング」「スタッキング」などがあります。

ランダムフォレスト

決定木を複数、集めたものが「ランダムフォレスト」です。
アンサンブル学習のうち「バギング」という手法を使ったもので、決定木の汎化能力※を向上させることができます。

※汎化能力…未知の入力データの将来結果を予測する能力のこと。

ブースティング

ブースティングとは、アンサンブル学習のうち「ブースティング」を使ったモデルです。
機械学習では、最初にプログラムするデータセットの精度によっては、予測エラーが発生する可能性があります。ブースティングは、これを解消するために、複数のモデルを順番に学習させることで、精度を向上させる方法です。
上の「ランダムフォレスト」で使われている「バギング」よりも高い精度が期待できます。

スタッキング

スタッキングは、複数のモデルを層にして積み上げる手法です。1層目に複数のモデルを用いしておき、その結果を2層目の複数のモデルで予測し…というふうに繰り返して最終的な予測を出します。
上の「ブースティング」と同時に使われることの多い方法です。

k近傍法

k近傍法とは、最も簡単な機械学習モデルの一つで、時系列で出力されるデータに距離を定めて、その距離から異常値かどうかを判断する手法です。
どのデータとの距離が最も近いかを計算するため、すべての要素を計算する必要があるため、データ量が制限されてしまう点がデメリットです。

ロジスティク回帰

ロジスティク回帰とは、複数の説明変数から答えが2つしかない値(2値)の目的変数の確率を予測する手法で、分類のモデルの中で最も簡単なモデルの一つです。医療や災害といった、分析結果に高い精度が求められる分野でも活用されています。

ニューラルネットワーク(NN: Neural Network)

ニューラルネットワークとは、人間の脳の神経細胞であるニューロンの構造や働きを模したもので、機械学習の中でも「ディープラーニング」とよばれるAIのモデルとなっています。NN(Neural Network)と略してよばれることもあり、画像解析や機械翻訳、株価予測などに活用されています。

ニューラルネットワークは、「パーセプトロン」とよばれる、入力された信号を処理して一つの値を出力するものが何層にも重ねられてできています。

ニューラルネットワークから派生した進化系として、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、GAN(Generative Adversarial Networks)などがあります。

ナイーブベイズ

ナイーブベイズとは、「ベイズの定理(ベイズの法則)」に基づき、データが分類されるクラスの確立を計算して、最も高い確率のクラスに分類するという手法です。「単純ベイズ分類器」ともよばれます。
計算量が少ないため高速で処理できますが、その反面、精度が低い点はデメリットです。

教師なし学習

教師なし学習とは、教師あり学習のように例題と模範解答がなくても学習していくタイプです。

たとえば、Googleの子会社であるDeepMind(ディープマインド)社が開発した囲碁プログラムの「AlphaGo(アルファ碁)」には、自己対戦によって学習していく教師なし学習モデルが採用されています。

教師なし学習のモデルには、次のような種類があります。

クラスタリング

クラスタリングとは、大量のデータを類似性に基づいてグループ分けする手法です。顧客層の分類や楽曲のジャンル分けなどに活用されています。

教師あり学習」の「分類」とは異なり、データを元にして、その特徴を学習することで類別します。

k平均法

k平均法とは、最初に指定した数に合わせて、各データに適当なクラスタを割当て、それぞれのクラスタで重心を求め、それぞれの重心から最適なクラスタを割り当て直すという作業を繰り返すことで、最終的に近いデータ同士が同じクラスタにまとまるという仕組みです。「k-means」ともよばれます。
k近傍法」と混同しそうな「k平均法」ですが、「k近傍法」は教師あり学習、こちらは教師なし学習です。

主成分分析(PCA: Principal Component Analysis)

主成分分析とは、不必要な特徴量※を減らして、より少ない特徴量で予測できるようにする手法です。特徴量が多過ぎると、計算に時間がかかり過ぎたり、過学習を起こしてしまったりすることがあるためです。「次元削減」ともよばれます。

※特徴量…コンピューターに学習させるべき特徴のこと。

 

3. 機械学習モデルの選び方

上でご紹介した以外にも、さまざまな機械学習モデルがあります。
機械学習モデルを選ぶ際は、「予測精度の高さ」「計算にかかる時間の長さ」「出力結果のわかりやすさ」の3点に着目すると良いでしょう。

予測精度の高さ

機械学習を利用する用途が何であれ、最も重要なのは、実際の結果と近しい予測が行えることでしょう。よって、機械学習の手法を選ぶ際は、予測精度の高さが優先されるべきだといえます。

予測精度が高い手法には、次のようなものがあります。

  • ニューラルネットワーク
  • サポートベクターマシン(SVM)
  • ランダムフォレスト

計算にかかる時間の長さ

次に重要な要素が、計算にかかる時間の長さです。
基本的に、計算しなければならない項目数やデータ数が多ければ、計算にかかる時間は長くなります。

計算にかかる時間が短い手法には、次のようなものがあります。

  • ナイーブベイズ
  • 主成分分析

出力結果のわかりやすさ

機械学習で得た出力結果は、最終的に人が見て判断する必要があり、わかりやすいことが大切です。
また、何らかの原因で誤った出力結果が出ることもあります。その際、どうして誤った結果となったのかといった経緯を関係者に説明するためにも、原因をたどれることが重要になってきます。出力結果だけでなく、入力から出力までの経緯を把握できることも大切です。

出力結果の説明がしやすい手法には、次のようなものがあります。

  • 線形回帰
  • 決定木
  • ランダムフォレスト
  • k平均法
  • ロジスティック回帰

 

4. まとめ

機械学習モデルについて、概要や主な種類、選ぶ際のポイントをご紹介しました。
実際には、機械学習の用途や入力するデータなどによっても適切なモデルは変わってきます。
機械学習を導入する際は、提供ベンダーなどの話を比較しながら、最適なモデルを選定してください。

 

Concept Book

ローコード開発・業務プロセスのデジタル化で豊富な実績を持つintra-martが、お客様のビジネスにどのような効果をもたらすのか、特長や導入効果など製品コンセプトを詳しくご紹介しています。

Concept Book

お困りごとがありましたら、お気軽にご相談頂ければと思います。

お役立ち資料ダウンロード

8分でわかるイントラマート

intra-martのローコード開発

お役立ち資料