アルゴリズムの仕組みと意味合いを理解する:相関系のアルゴリズム
AIプランナー、AIコンサルタントとして重要な知識に「アルゴリズムの意味合いを理解できていること」があります。
しかし2024年冒頭である現在、多くの書籍ではいきなり数式やコードの説明になるか、単語の紹介だけになるかの両極端であり、初学者が意味合いや仕組みについて理解できるような記述は少ないものです。
人工知能プロジェクトマネージャー試験 公式テキスト『AIを活用する技術を学ぶ』の分野Bでは、AI開発やデータサイエンスの現場で用いられる代表的なアルゴリズムについて意味合いと仕組みを理解できるように解説を行っています。
ここでは「意味合いを理解する」とはどのようなことか、最も基本的な相関系のアルゴリズムを例に紹介します。
※以降の文章は当団体の書籍『AIを活用する技術を学ぶ』本文より、一部を抜粋・編集したものになります。
目次
データ分析におけるRidge回帰(リッジ回帰)の意味合い
データ分析を行う場合、相関分析の中でもリッジ回帰やラッソ回帰というものをよく使います。ビジネスパーソンがExcel等で行ってきた相関分析や重回帰分析とは何が違うのでしょうか。
もちろん重回帰分析は便利なアルゴリズムですが、分析の現場では不便なこともあります。その1つが「変数同士の重要性を考慮できないこと」です。
例えば、10コの説明変数を用いてある目的変数を予測するとして、「10コの変数の中には重要なものもあれば相対的には影響が少なそうなものを混ざっている」のが現実だと思います。しかし重回帰分析は、10の変数を投入したならばすべて同じレベルで重要であるという前提に立って分析をしてしまいます。
これでは実質と異なる計算をしてしまう場合もあるでしょうし、たまたま与えたデータに過剰に合わせてしまう(過学習)にもつながります。これでは人間がやりたいことを、きちんと計算に反映できているとは言えないでしょう。
リッジ回帰は、こうした説明変数の重要度を加味した分析ができるようなテクニックを入れ込んだ重回帰分析です。
具体的には、「モデルが複雑であること」にペナルティを与えます。イメージとして説明すると、例えば10コの説明変数があるとき、10コすべてを等しく使ったモデルと、10コのうち3コを重点的に使ったモデルが同じ精度を出していた場合、同じ精度がでるなら少ない情報でシンプルに答えを出せたモデルの方が優秀だよねという思考をします。
10コ全部使うというより複雑なことをしてしまったモデルにペナルティを与えることで、精度は同じでも評価を下げることを行うわけです。そしてこのペナルティが最小となるように調整を繰り返していけば、最も簡潔な(≒重要な説明変数だけを使った)分析となるという考え方をします。
このようなテクニックを正則化といい、中でもリッジ回帰はL2正則化という計算方法を採用しています。リッジ回帰はL2正則化を行う重回帰分析という表現もできます。
データ分析におけるLasso回帰(ラッソ回帰)の意味合い
上記のリッジ回帰により重回帰分析の1つの不便を解消しましたが、なお不便なことも残っています。
リッジ回帰はあくまで重みの軽重の調整であり、重みをゼロにしない(この説明変数は関係ないとして無視しない)計算方法です。そのため、「関係なさそうな変数は無視しちゃってください」という分析はできません。投入された説明変数は、重要度に軽重はあれども必要なものという前提に立っているからです。
そこで、関係なさそうと判じたいくつかの説明変数は完全に無視して計算をする(スパース推定といいます)方法として編み出されたのがラッソ回帰です。こうした正則化の方法をリッジ回帰のL2に対してL1正則化といい、ラッソ回帰はL1正則化を行う重回帰分析という表現もできます。
ラッソ回帰を用いると、結果的に利用する説明変数の種類が減りますので、開発者としてはモデルの意味を解釈しやすくなり有用です。そのため説明変数の選択を目的としてラッソ回帰を行ってみる場合もあります。一方で、「投入した説明変数に無関係なものなどないはず!」と強く確信している場合は、関係が薄いものを無視してしまうことになるので適さなくなってしまう可能性もあります。
一般的な使い分けとしては、
・どの変数が重要なのか知りたい→リッジ or ラッソ回帰を用いる
・解釈が難しくとも多数の変数が関連するはず→リッジ回帰を用いる
・特に重要な変数だけを抽出し、人間が理解しやすくしたい→ラッソ回帰を用いる
という分け方になると思います。
ただし、重みをゼロにするのが不要である場合、一般的にはラッソ回帰よりもリッジ回帰の方が(L1正則化よりもL2正則化の方が)精度が高い傾向があると言われています。
データ分析におけるElastic Net(エラスティックネット)の意味合い
上記のラッソ回帰で、やりたいことの為のハードルをもう1つクリアしました。
しかし実際に利用するにあたり、まだ問題は残っています。
重回帰分析の項で多重共線性(マルチコ)の問題を説明しましたが、大量のデータを投入していけば多かれ少なかれ関係性ある説明変数は混じってしまうものでもあり、多重共線性の問題をクリアするためにラッソ回帰やリッジ回帰を用いるという側面もあります。
しかしこうしたマルチコがあるデータに対してラッソ回帰を行うと、「関係性の深い説明変数のグループからは1つだけ採用し、あとは無視する」という現象が発生します。これは「関係性が深いならば、どれか1つをインプットしておけば他の変数も予測できるはずだから、全部のインプットは不要だろう」という考え方があるからです。
例えば、ある地域の中核小児科病院があるとして、あなたはデータサイエンティストとして、病床数の最適化の為に地域の出生数の傾向を分析しているとします。通院圏内の出生数、男児出生数、女児出生数の3つのデータを説明変数に用いるとどのようになるでしょうか。
よほど特殊な地域事情があれば別ですが、一般的に考えれば、出生数が増えれば男児出生数も女児出生数もあがり、同様に出生数が減少すれば男児出生数も女児出生数も減少するはずです。つまり、この3つの変数には相関性があると言えます。こうした相関性がある複数の変数が与えられた場合、ラッソ回帰は1つしか採用してくれません。つまり、出生数、男児出生数、女児出生数のいずれかを採用し、他2つは無視するという挙動になります。
しかし、中には「確かに説明変数同士に関係性はあるのだが、やはりいずれも分析対象にしたい」というケースもあると思います。そこで用いるのがエラスティックネットであり、リッジ / ラッソの項で示したL1とL2を足し合わせてペナルティを作ることでこれを実現しています。いわばリッジ回帰とラッソ回帰の「いいとこどり」をした回帰分析と言えるでしょう。
しかし、ではエラスティックネットがリッジ回帰やラッソ回帰よりも常に優れているのかと言えば、そうではないケースも存在します。
エラスティックネットはL1とL2の正則化項を足し合わせているため、どちらをどの程度の割合として考えるかであったり、スケールを合わせる(前処理のスケーリングの説明も参照)ための設定を行ったりする必要が出てきます。
この設定(ハイパーパラメータの調整)がうまくできないと、かえって精度を落としてしまう可能性もあります。また人が分析を見たときの理解しやすさ / 解釈しやすさといった点もビジネス上は重要な時があるため、常にエラスティックネットがリッジ回帰やラッソ回帰より優れるというわけではないといえます。
データ分析におけるロジスティック回帰の意味合い
単回帰分析、重回帰分析、リッジ回帰、ラッソ回帰など、いずれも量的なデータ(数値データ)を扱っています。しかし、数値データでは表現しにくいデータというものも世の中には存在しています。
例えば、合格か / 不合格か、正常か / 異常かといったように、2値で表現されるデータがあります。これを質的データと言います。
このような質的データ(0か1かのデータ)を分析する際に用いるのがロジスティック回帰です。
最初から質的なものであればもちろんロジスティック回帰を用いるわけですが、量的データだとしても、例えば「正常の範囲内での数値変化に意味はなく、正常の範囲外に出るかどうかに意味がある」というようなケースでは、質的データに変換(正常の範囲か否か)した方が正しく意味をとらえられ、精度を上げることができます。
また、一般にロジスティック回帰は二項分布的な考え方をしています。これは試行回数を大きくしていけば、やがて結果の平均値と分散は正規分布に近似していくという特徴を持つということです。
これは例えば「全体は正規分布になっているはずだから、いま得られたデータは〇%くらいしか起きない値だ」、「全体は正規分布になっているはずだから、あまりに形が違うから試行回数が少なすぎるのではないか」などという解釈をすることにも役立ちます。
また逆に言うと「明らかに回数を増やしても正規分布にはならないのでは?」という対象には不向きということにもなります。これは下記のポアソン回帰も参考としてください。
データ分析におけるポアソン回帰の意味合い
なんであれ、試行回数を増やしていけば正規分布的になるのかと思えますが、世の中には「滅多に起きないもの」というものも存在します。
例えば、宝くじで1等を引く確率などを考えてみます。日本の宝くじ公式サイトによれば、2022年の「年末ジャンボ宝くじ」(第945回 全国自治宝くじ)では1等は2,000万枚に1枚であり、当選確率は2,000万分の1ということになります。こうした滅多に起きない確率のものは、仮に試行回数を多少増やしたところで正規分布に近似するとはなりません。
2,000万回に1回当選するとして、宝くじを1枚買うとき、2枚買うとき、3枚買うとき…と当選データを集めていっても、どれも得られる結果は「はずれた」という同じものである可能性が高く、正規分布とはならないでしょう。
こうした滅多に起きないものの分布を示したものがポアソン分布であり、このポアソン分布を前提とした回帰分析がポアソン回帰です。実務としては、例えば地震や火災の発生確率など、「そうは起きないが、予測することには意義がある」ものに対して用います。
公式テキスト『AIを活用する技術を学ぶ』を使って、アルゴリズムの意味合いと仕組みを理解しよう
公式テキスト 分野B内では、他にも相関系のアルゴリズムはもちろん、クラスタリング系やツリー系、ニューラルネットワーク系やベイズ主義の各アルゴリズムについても解説をしています。
また、標本や前処理、特徴量エンジニアリングといったデータ準備、業務と紐づけたデータ理解などについても解説を行っていますので、ぜひこちらを活用して「AIとは、どんな仕組みで、何を行っているのか」の理解を深めてみてください。
一般社団法人 新技術応用推進基盤 理事
谷村 勇平
「人工知能プロジェクトマネージャー試験」
公式テキスト
- 分野別要点整理 【理解度チェック問題付き】 -
著者:谷村 勇平(新技術応用推進基盤 理事)
発売日:2023年12月22日(金)
販売価格:全分野収録版:2,980円(税込価格3,278円)
ページ数:A5版 330ページ
購入方法:
公式ページよりご購入ください。
(https://rope.newtech-ma.com/)